[Lectura rápida del artículo] "Transmisión conjunta de mensajes y codificadores automáticos para el aprendizaje profundo"

2024-07-11

Este artículo proviene del Centro de competencia de sistemas avanzados inalámbricos y del Laboratorio de tecnología inalámbrica de Huawei en Ottawa. Entre los autores se encuentra el famoso Tong Wen.
Insertar descripción de la imagen aquí

1. Principales problemas que enfrentan los transceptores globales con arquitectura de autocodificación

La parte más inspiradora del artículo para mí es que menciona los principales problemas que enfrentan los transceptores globales con arquitectura de autocodificación:
Pregunta 1: Según el método de descenso de gradiente estocástico, el uso del algoritmo de retropropagación para entrenar el codificador automático requiere una o más capas de modelo de canal diferenciables para conectar la capa neuronal profunda del transmisor y la capa neuronal profunda del receptor. Dado que el canal real debe contener muchos componentes no lineales (como predistorsión y conversión digitales o analógicas) e implica etapas no diferenciables como muestreo ascendente y descendente, el modelo entrenado por la capa neuronal profunda del transceptor se basa en el canal construido en lugar de que el canal verdadero. En escenarios de canales reales, el modelo obtenido de esta manera puede provocar pérdidas de rendimiento durante la fase de inferencia.
Insertar descripción de la imagen aquí
Pregunta 2: Todas las capas ocultas o capas intermedias se entrenan en función de la probabilidad posterior de la señal de entrada. En el transceptor global con codificador automático, la primera capa de la capa neuronal profunda del receptor es una capa intermedia cuya señal de entrada es susceptible a la distorsión del canal actual. Este efecto impregna inevitablemente todas las capas neuronales profundas del receptor. Si el canal cambia en un grado que supera las expectativas de entrenamiento, provocará que el receptor falle durante la fase de inferencia.
Insertar descripción de la imagen aquí

Problema 3: existe una falta de interpretabilidad entre las capas neuronales y es imposible saber qué neuronas y qué conexiones entre las capas neuronales afectarán efectivamente la precisión del aprendizaje final. Goodfellow et al. dieron el ejemplo de un clasificador de redes neuronales profundas que, aunque está bien entrenado con imágenes no ruidosas, aún puede clasificar erróneamente imágenes ruidosas de pandas como gibones. Este ejemplo muestra que el clasificador basado en redes neuronales profundas depende en gran medida de algunas "rutas críticas" (refiriéndose a algunos píxeles en la imagen del panda, también conocidas como "características locales") al tomar la decisión final. Si la ruta crítica está intacta, se realizará una clasificación correcta; si la ruta crítica está perturbada, se realizará una clasificación incorrecta. Al mismo tiempo, este tipo de clasificación errónea causada por el ruido es solo una situación ocasional en presencia de ruido aleatorio aditivo, lo que muestra que la red neuronal profunda se basa en el supuesto de que el "camino crítico" es procesado por el canal de ruido. intacto. Las redes neuronales profundas son susceptibles al ruido aleatorio aditivo, lo que es casi fatal para su aplicación en el diseño de transceptores inalámbricos.
Insertar descripción de la imagen aquí

La esencia de estos tres problemas se puede atribuir al mismo problema central, es decir, el rendimiento de generalización de las redes neuronales profundas es demasiado pobre cuando se enfrentan a cambios aleatorios en los canales inalámbricos. Ningún modelo (ni siquiera un modelo de canal muy superior) puede capturar completamente todos los escenarios posibles de propagación de radio, por lo que el procesamiento de muestras fuera de distribución (OOD) o valores atípicos es a lo que los codificadores automáticos siempre tienen que enfrentarse.
Para empeorar las cosas, las soluciones existentes a estos problemas aún enfrentan muchos obstáculos, porque las soluciones propuestas deben cumplir con los requisitos prácticos de bajo consumo de energía, baja latencia y bajos gastos generales para la infraestructura y los equipos de comunicación inalámbrica. Por un lado, en un entorno dinámico, el costo de acumulación, mejora y reentrenamiento del propio transceptor codificador automático es demasiado alto, por otro lado, todo el proceso de acumulación, mejora y reentrenamiento en sí también viola la "red neuronal profunda"; La estrategia de "una vez para todas", es decir, aprender una vez y ser eficaz a largo plazo, no puede satisfacer bien las necesidades reales ni los requisitos de consumo de energía.

En escenarios inalámbricos, los valores atípicos suelen ser causados por cambios aleatorios en el canal. Durante la fase de inferencia, si el canal cambia y se desvía del modelo de canal utilizado en la fase de entrenamiento, el problema de los valores atípicos es particularmente prominente. A medida que avanza el razonamiento, aparecerán más valores atípicos, lo que afectará la forma de distribución de la señal recibida. Bengio atribuye a esto el pobre rendimiento de generalización del aprendizaje profundo. Actualmente existen algunas soluciones, como la formación adicional, incluida la formación por transferencia, las redes recurrentes basadas en la atención o el aprendizaje por refuerzo. Sin embargo, frente a los requisitos de bajo consumo de energía, baja latencia y baja sobrecarga de control en futuras comunicaciones inalámbricas, estos remedios se han vuelto poco prácticos y carecen de viabilidad.

Con respecto al método MPA propuesto en el artículo, el artículo también analiza las ideas de solución, centrándose en las partes que he marcado en negro a continuación:
"En primer lugar, para lograr la diferenciabilidad, es necesario simplificar el modelo de canal, pero esta simplificación perjudica el rendimiento del transceptor codificador automático. La razón del daño en el rendimiento es que el modelo de canal utilizado para entrenar el codificador automático es un modelo simplificado, en lugar de un modelo real, es decir, hay un desplazamiento entre el modelo de canal simplificado utilizado en la fase de entrenamiento y el canal real procesado en la fase de inferencia. Si el desplazamiento aumenta más allá de las expectativas, este desplazamiento provocará una pérdida de rendimiento. Hay dos remedios para mitigar esta degradación del rendimiento. El primero es utilizar el aprendizaje por refuerzo para registrar continuamente el estado del canal y entrenar continuamente la política DNN y/o la evaluación DNN. Sin embargo, en términos de la complejidad de las dimensiones, el aprendizaje por refuerzo es demasiado complejo para los sistemas inalámbricos, porque las dimensiones procesadas por el aprendizaje por refuerzo son en realidad mucho más grandes que las de AlphaGo. Por tanto, el mecanismo de ajuste basado en el aprendizaje por refuerzo no es viable. El segundo es utilizar Generative Adversary Network (GAN) para aprender tantos escenarios de canales como sea posible en un modelo de red neuronal profunda grande.Sin embargo, este es un método empírico y no se puede demostrar que pueda cubrir todos los escenarios de canales.。

Teniendo en cuenta los problemas anteriores, los codificadores automáticos con MPA toman un camino técnico diferente. En la fase de inferencia, MPA ajustará los coeficientes de la capa de reducción de dimensionalidad en la función de medición del canal actual para cada transmisión de datos. Por lo tanto, la inferencia adaptativa utilizará un modelo de canal aproximado en la fase de entrenamiento, lo que llamamos "aprendizaje aproximado". Si el aprendizaje aproximado simula el mismo modelo de canal o uno similar para las etapas de entrenamiento e inferencia, es difícil probar la ventaja del aprendizaje aproximado, pero esta ventaja se puede demostrar en pruebas de campo reales.

En segundo lugar, los codificadores automáticos con MPA pueden funcionar conjuntamente con modelos de canales basados en redes generativas adversarias. Por experiencia, las condiciones reales de la mayoría de los canales dependen de la ubicación del usuario y la topología ambiental, como edificios altos, colinas, carreteras, etc. Las referencias propusieron el uso de redes adversarias generativas condicionales para modelar canales desconocidos y lograron un buen rendimiento.Podemos utilizar este método para construir un modelo de canal que brinde un buen soporte para la fase de capacitación.。

Durante la fase de inferencia, recomendamos confiar en las estimaciones del canal de los pilotos, la retroalimentación de las mediciones del canal o la reciprocidad del canal para obtener las condiciones más recientes del canal. Se sabe que MPA también se beneficia de la escasez y es más capaz de tolerar compensaciones y compensaciones (razón por la cual los decodificadores LDPC pueden funcionar de manera efectiva). Desde esta perspectiva, no es necesario realizar una medición de canal de dimensiones completas, solo es necesario medir una parte de las dimensiones. Incluso si hay un cierto error de estimación, nuestro esquema aún tiene una buena solidez en términos de rendimiento general. Además, los residuos se pueden manejar recibiendo capas neuronales profundas con mayor tolerancia a errores. Dado que la capa de reducción de dimensionalidad se ha ajustado durante las etapas de inferencia y entrenamiento, podemos usar la capa de reducción de dimensionalidad como precodificador de toda la cadena de transmisión, por lo que no es necesario volver a entrenar la capa neuronal profunda. Esto no sólo aporta beneficios de ahorro de energía, sino que también supone una gran ventaja a la hora de prolongar la duración de la batería de los dispositivos de los usuarios. "

2. Lectura rápida de artículos.

De hecho, personalmente sigo siendo escéptico sobre el método propuesto en el artículo. Echemos un vistazo breve al método del artículo.

Resumen del artículo

El artículo propone un transceptor codificador automático basado en el algoritmo de paso de mensajes (MPA) para resolver el problema del bajo rendimiento de generalización de los codificadores automáticos tradicionales cuando se trata de cambios aleatorios de canales. Al introducir MPA en el codificador automático, el autor implementa un transceptor flexible que puede proporcionar un mejor rendimiento de generalización en diferentes escenarios de uso. Este enfoque permite un aprendizaje aproximado en la fase de entrenamiento y una inferencia adaptativa en la fase de inferencia.

Principales problemas resueltos

Problemas de rendimiento de generalización: Cuando los transceptores codificadores automáticos tradicionales enfrentan cambios de canal aleatorios, dado que las neuronas se fijan una vez que se completa el entrenamiento, el rendimiento de generalización es deficiente.
Desviación entre modelo y canal real: El uso de codificadores automáticos entrenados según el método de descenso de gradiente estocástico y el algoritmo de retropropagación se basa en el modelo de canal construido en lugar del canal real, lo que puede provocar una pérdida de rendimiento en la etapa de inferencia.
Adaptabilidad a los cambios de canal.: El transceptor global del codificador automático puede causar fallas en el receptor cuando los cambios de canal exceden las expectativas de entrenamiento.
Procesamiento de muestras fuera de distribución: Los cambios aleatorios en los canales inalámbricos provocan muestras fuera de distribución o valores atípicos, y las soluciones existentes son difíciles de cumplir con los requisitos de bajo consumo de energía, baja latencia y bajos gastos generales de los equipos de comunicación inalámbrica.

método principal

Algoritmo de paso de mensajes (MPA): Presentamos la función MPA para lograr un ajuste adaptativo a través de la capa precodificadora para mejorar el rendimiento de generalización del transceptor cuando el canal cambia dinámicamente.
Capa de reducción de dimensionalidad: Inserte la capa de reducción de dimensionalidad en el marco del codificador automático, realice una transformación de reducción de dimensionalidad lineal y ajuste iterativamente los coeficientes de la capa de reducción de dimensionalidad a través de MPA.
Iteración de AMP independiente: Utilice la iteración hacia adelante (similar a la máquina de vectores de soporte no lineal) y la iteración hacia atrás (similar a la red neuronal profunda de atención) para ajustar de forma independiente la capa de reducción de dimensionalidad, sin depender de la propagación hacia atrás del codificador automático original.
aprendizaje concatenado global: A través del esquema de entrenamiento en serie, la capa de reducción de dimensionalidad y la capa neuronal profunda se entrenan por separado para lograr un aprendizaje aproximado y un razonamiento adaptativo.
Aprendizaje aproximado y razonamiento adaptativo.: Se utiliza un modelo de canal simplificado para el aprendizaje aproximado en la fase de entrenamiento, mientras que la capa de reducción de dimensionalidad se ajusta mediante MPA en la fase de inferencia para adaptarse a la situación actual de medición del canal.

A través de estos métodos, el artículo tiene como objetivo mejorar el rendimiento y la capacidad de generalización de los transceptores codificadores automáticos bajo cambios aleatorios de canal.
Insertar descripción de la imagen aquí
Para el método MPA del artículo, puede obtener una descripción general mirando las Figuras 16 y 17.
Lo principal es agregar la capa MPA para completar una transformación dimensional entre el vector de transmisión y el canal. Luego, durante el entrenamiento, la capa MPA se congela primero. Después de completar el entrenamiento del transceptor general, la capa MPA se entrena iterativamente. La capa MPA se puede considerar como un mapeo de precodificación para la transmisión. Las dimensiones específicas se pueden obtener midiendo el canal. Aquí todavía se adopta la suposición común de trayectorias múltiples para el canal. El entrenamiento de la capa MPA se basa en la atención entre la señal recibida y el vector transmitido.La red neuronal profunda de atención es un método eficaz para medir la similitud de dos características entre diferentes dimensiones. . Cabe señalar que el número de atenciones es menor que el número de señales recibidas, es decir, L

Compartir tecnología