[Leitura rápida de artigo] "Passagem conjunta de mensagens e codificadores automáticos para aprendizado profundo"

[Leitura rápida de papel] "Passagem conjunta de mensagens e codificadores automáticos para aprendizado profundo"

2024-07-11

Este artigo vem do Centro de Competência de Sistemas Avançados Sem Fio de Ottawa e do Laboratório de Tecnologia Sem Fio da Huawei. Entre os autores está o famoso Tong Wen.
Insira a descrição da imagem aqui

1. Principais problemas enfrentados pelos transceptores globais com arquitetura de autocodificação

A parte mais inspiradora do artigo para mim é que ele menciona os principais problemas enfrentados pelos transceptores globais com arquitetura de autocodificação:
Pergunta 1: Com base no método estocástico de descida de gradiente, o uso do algoritmo de retropropagação para treinar o autoencoder requer uma ou mais camadas de modelo de canal diferenciáveis para conectar a camada neural profunda do transmissor e a camada neural profunda do receptor. Como o canal real deve conter muitos componentes não lineares (como pré-distorção e conversão digital ou analógica) e envolve estágios não diferenciáveis, como aumento e redução da resolução, o modelo treinado pela camada neural profunda do transceptor é baseado no canal construído, em vez de do que o canal verdadeiro. Em cenários reais de canal, o modelo obtido desta forma pode causar perdas de desempenho durante a fase de inferência.
Insira a descrição da imagem aqui
Questão 2: Todas as camadas ocultas ou intermediárias são treinadas com base na probabilidade posterior do sinal de entrada. No transceptor global autoencoder, a primeira camada da camada neural profunda do receptor é uma camada intermediária cujo sinal de entrada é suscetível à distorção do canal atual. Este efeito permeia inevitavelmente todas as camadas neurais profundas do receptor. Se o canal mudar a um grau que exceda as expectativas de treinamento, isso fará com que o receptor falhe durante a fase de inferência.
Insira a descrição da imagem aqui

Problema 3: Há uma falta de interpretabilidade entre as camadas neurais e é impossível saber quais neurônios e quais conexões entre as camadas neurais afetarão efetivamente a precisão final do aprendizado. Goodfellow et al. deram o exemplo de um classificador de rede neural profunda que, embora bem treinado com imagens não ruidosas, ainda pode classificar erroneamente imagens barulhentas de pandas como gibões. Este exemplo mostra que o classificador baseado em redes neurais profundas depende fortemente de alguns "caminhos críticos" (referindo-se a alguns pixels na imagem do panda, também conhecidos como "recursos locais") ao tomar a decisão final. Se o caminho crítico estiver intacto será feita uma classificação correta; se o caminho crítico estiver perturbado será feita uma classificação incorreta; Ao mesmo tempo, este tipo de erro de classificação causado pelo ruído é apenas uma situação ocasional na presença de ruído aleatório aditivo, o que mostra que a rede neural profunda baseia-se na suposição de que o “caminho crítico” é processado pelo canal de ruído. intacto. Redes neurais profundas são suscetíveis a ruído aleatório aditivo, o que é quase fatal para sua aplicação no projeto de transceptores sem fio.
Insira a descrição da imagem aqui

A essência destes três problemas pode ser atribuída ao mesmo problema central, ou seja, o desempenho de generalização das redes neurais profundas é muito fraco quando enfrenta mudanças aleatórias nos canais sem fio. Nenhum modelo (mesmo um modelo de canal muito superior) pode capturar completamente todos os cenários possíveis de propagação de rádio, portanto, o processamento de amostras fora de distribuição (OOD) ou outliers é o que os autoencoders sempre enfrentam.
Para piorar a situação, as soluções existentes para estes problemas ainda enfrentam muitos obstáculos, porque as soluções propostas devem satisfazer os requisitos práticos de baixo consumo de energia, baixa latência e baixa sobrecarga para equipamentos e infra-estruturas de comunicação sem fios. Por um lado, em um ambiente dinâmico, o custo de acumulação, aprimoramento e retreinamento do próprio transceptor autoencoder é muito alto; por outro lado, todo o processo de acumulação, aprimoramento e retreinamento em si também viola a "rede neural profunda"; A estratégia "de uma vez por todas" - isto é, aprender uma vez e ser eficaz a longo prazo, não pode satisfazer bem as necessidades reais e os requisitos de consumo de energia.

Em cenários sem fio, os valores discrepantes são frequentemente causados por mudanças aleatórias no canal. Durante a fase de inferência, se o canal estiver mudando e se desviando do modelo de canal usado na fase de treinamento, o problema dos valores discrepantes é particularmente proeminente. À medida que o raciocínio avança, mais valores discrepantes aparecerão, o que afetará a forma de distribuição do sinal recebido. Bengio atribui a isso o fraco desempenho de generalização do aprendizado profundo. Existem actualmente algumas soluções, tais como formação adicional, incluindo formação de transferência, redes recorrentes baseadas na atenção ou aprendizagem por reforço. No entanto, face aos requisitos de baixo consumo de energia, baixa latência e baixo custo de controlo nas futuras comunicações sem fios, estas soluções tornaram-se impraticáveis e carecem de viabilidade.

Em relação ao método MPA proposto no artigo, o artigo também analisa as ideias de solução, com foco nas partes que marquei em preto abaixo:
“Primeiro, para obter diferenciabilidade, o modelo de canal precisa ser simplificado, mas essa simplificação prejudica o desempenho do transceptor do autoencoder. A razão para o dano ao desempenho é que o modelo de canal usado para treinar o autoencoder é um modelo simplificado, em vez de um modelo real. Ou seja, há um deslocamento entre o modelo de canal simplificado usado na fase de treinamento e o canal real processado na fase de inferência. Esse deslocamento traz perda de desempenho se o deslocamento aumentar além das expectativas. Existem duas soluções para mitigar essa degradação de desempenho. A primeira é usar o aprendizado por reforço para registrar continuamente o estado do canal e treinar continuamente o DNN de política e/ou DNN de avaliação. No entanto, em termos de complexidade das dimensões, a aprendizagem por reforço é muito complexa para sistemas sem fio, porque as dimensões processadas pela aprendizagem por reforço são, na verdade, muito maiores que o AlphaGo. Portanto, o mecanismo de ajuste baseado na aprendizagem por reforço não é viável. A segunda é usar a Generative Adversary Network (GAN) para aprender tantos cenários de canal quanto possível em um grande modelo de rede neural profunda.No entanto, este é um método empírico e não pode ser provado que o método possa cobrir todos os cenários do canal.。

Levando em consideração os problemas acima, os autoencoders com MPA seguem um caminho técnico diferente. Na fase de inferência, o MPA ajustará os coeficientes da camada de redução de dimensionalidade na função de medição do canal atual para cada transmissão de dados. Portanto, a inferência adaptativa usará um modelo de canal grosseiro na fase de treinamento, que chamamos de "aprendizado grosseiro". Se o aprendizado grosseiro simular o mesmo modelo de canal ou semelhante para os estágios de treinamento e inferência, será difícil provar a vantagem do aprendizado grosseiro, mas essa vantagem pode ser demonstrada em testes de campo reais.

Em segundo lugar, os autoencoders com MPA podem trabalhar em conjunto com modelos de canais baseados em redes adversárias generativas. Pela experiência, as condições reais da maioria dos canais dependem da localização do usuário e da topologia ambiental, como edifícios altos, colinas, estradas, etc. As referências propuseram o uso de redes adversárias geradoras condicionais para modelar canais desconhecidos e obtiveram bom desempenho.Podemos usar este método para construir um modelo de canal para fornecer um bom suporte para a fase de treinamento。

Durante a fase de inferência, recomendamos confiar nas estimativas de canal dos pilotos, no feedback de medição do canal ou na reciprocidade do canal para obter as condições mais recentes do canal. Sabe-se que o MPA também se beneficia da dispersão e é mais capaz de tolerar compensações e compensações (é por isso que os decodificadores LDPC podem funcionar de forma eficaz). Desta perspectiva, não há necessidade de realizar medições de canal em todas as dimensões, apenas parte das dimensões precisa ser medida. Mesmo que haja um certo erro de estimativa, nosso esquema ainda apresenta boa robustez em termos de desempenho geral. Além disso, os resíduos podem ser tratados recebendo camadas neurais profundas com maior tolerância a erros. Como a camada de redução de dimensionalidade foi ajustada durante os estágios de inferência e treinamento, podemos usar a camada de redução de dimensionalidade como pré-codificador de toda a cadeia de transmissão, portanto não há necessidade de treinar novamente a camada neural profunda. Isto não só traz benefícios de poupança de energia, mas também é uma enorme vantagem no prolongamento da vida útil da bateria dos dispositivos dos utilizadores. "

2. Leitura rápida de artigos

Na verdade, pessoalmente ainda sou cético em relação ao método proposto no artigo. Vamos dar uma breve olhada no método do artigo.

Resumo do artigo

O artigo propõe um transceptor autoencoder baseado no Message Passing Algorithm (MPA) para resolver o problema de baixo desempenho de generalização dos autoencoders tradicionais ao lidar com mudanças aleatórias de canal. Ao introduzir o MPA no autoencoder, o autor implementa um transceptor flexível que pode fornecer melhor desempenho de generalização em diferentes cenários de uso. Esta abordagem permite aprendizagem grosseira na fase de treinamento e inferência adaptativa na fase de inferência.

Principais problemas resolvidos

Problemas de desempenho de generalização: Quando os transceptores autoencoder tradicionais enfrentam mudanças aleatórias de canal, uma vez que os neurônios são fixos assim que o treinamento é concluído, o desempenho de generalização é ruim.
Desvio entre modelo e canal real: O uso de autoencoders treinados com base no método estocástico de descida de gradiente e no algoritmo de retropropagação depende do modelo de canal construído e não do canal real, o que pode levar à perda de desempenho no estágio de inferência.
Adaptabilidade às mudanças de canal: O transceptor global do codificador automático pode causar falha no receptor quando as mudanças de canal excedem as expectativas de treinamento.
Processamento de amostras fora de distribuição: Mudanças aleatórias nos canais sem fio levam a amostras fora de distribuição ou valores discrepantes, e as soluções existentes são difíceis de atender aos requisitos de baixo consumo de energia, baixa latência e baixa sobrecarga dos equipamentos de comunicação sem fio.

método principal

Algoritmo de passagem de mensagens (MPA): Apresentando a função MPA para obter ajuste adaptativo através da camada pré-codificadora para melhorar o desempenho de generalização do transceptor quando o canal muda dinamicamente.
Camada de redução de dimensionalidade: Insira a camada de redução de dimensionalidade na estrutura do autoencoder, execute a transformação de redução de dimensionalidade linear e ajuste iterativamente os coeficientes da camada de redução de dimensionalidade por meio do MPA.
Iteração MPA autônoma: Use iteração direta (semelhante à máquina de vetores de suporte não linear) e iteração reversa (semelhante à rede neural profunda de atenção) para ajustar independentemente a camada de redução de dimensionalidade, sem depender da retropropagação do autoencoder original.
aprendizagem concatenada global: Através do esquema de treinamento em série, a camada de redução de dimensionalidade e a camada neural profunda são treinadas separadamente para obter aprendizado aproximado e raciocínio adaptativo.
Aprendizagem grosseira e raciocínio adaptativo: Um modelo de canal simplificado é usado para aprendizado aproximado na fase de treinamento, enquanto a camada de redução de dimensionalidade é ajustada por meio de MPA na fase de inferência para se adaptar à situação atual de medição do canal.

Através desses métodos, o artigo visa melhorar o desempenho e a capacidade de generalização de transceptores autoencoder sob mudanças aleatórias de canal.
Insira a descrição da imagem aqui
Para o método MPA do artigo, você pode obter uma visão geral observando as Figuras 16 e 17.
O principal é adicionar a camada MPA para completar uma transformação dimensional entre o vetor de transmissão e o canal. Em seguida, durante o treinamento, a camada MPA é primeiro congelada. Depois de completar o treinamento do transceptor geral, a camada MPA é treinada iterativamente. A camada MPA pode ser considerada como um mapeamento de pré-codificação para transmissão. As dimensões específicas podem ser obtidas medindo o canal. Aqui, a suposição comum de multipercurso ainda é adotada para o canal. O treinamento da camada MPA depende da atenção entre o sinal recebido e o vetor transmitido.A rede neural profunda de atenção é um método eficaz para medir a semelhança de duas características entre diferentes dimensões . Deve-se notar que o número de atenções é menor que o número de sinais recebidos, ou seja, L

Compartilhamento de tecnologia