[Lecture rapide de l'article] « Passage de messages conjoints et encodeurs automatiques pour l'apprentissage en profondeur »

[Lecture rapide du papier] « Passage de messages conjoints et encodeurs automatiques pour l'apprentissage en profondeur »

2024-07-11

Cet article provient du Centre de compétence des systèmes avancés sans fil et du Laboratoire de technologie sans fil de Huawei à Ottawa. Parmi les auteurs se trouve le célèbre Tong Wen.
Insérer la description de l'image ici

1. Principaux problèmes rencontrés par les émetteurs-récepteurs mondiaux dotés d'une architecture à auto-codage

La partie la plus inspirante de l'article pour moi est qu'elle mentionne les principaux problèmes rencontrés par les émetteurs-récepteurs mondiaux dotés d'une architecture à auto-codage :
Question 1 : Sur la base de la méthode de descente de gradient stochastique, l'utilisation de l'algorithme de rétro-propagation pour entraîner l'auto-encodeur nécessite une ou plusieurs couches de modèle de canal différenciables pour connecter la couche neuronale profonde de l'émetteur et la couche neuronale profonde du récepteur. Étant donné que le canal réel doit contenir de nombreux composants non linéaires (tels que la prédistorsion et la conversion numériques ou analogiques) et implique des étapes non différenciables telles que le suréchantillonnage et le sous-échantillonnage, le modèle formé par la couche neuronale profonde de l'émetteur-récepteur est plutôt basé sur le canal construit. que le vrai canal. Dans des scénarios de canaux réels, le modèle ainsi obtenu peut entraîner des pertes de performances lors de la phase d'inférence.
Insérer la description de l'image ici
Question 2 : Toutes les couches cachées ou couches intermédiaires sont entraînées en fonction de la probabilité a posteriori du signal d'entrée. Dans l'émetteur-récepteur global à codeur automatique, la première couche de la couche neuronale profonde du récepteur est une couche intermédiaire dont le signal d'entrée est sensible à la distorsion du canal actuel. Cet effet imprègne inévitablement toutes les couches neuronales profondes du récepteur. Si le canal change à un degré qui dépasse les attentes de formation, cela entraînera une défaillance du récepteur pendant la phase d'inférence.
Insérer la description de l'image ici

Problème 3 : Il existe un manque d’interprétabilité entre les couches neuronales, et il est impossible de savoir quels neurones et quelles connexions entre les couches neuronales affecteront efficacement la précision finale de l’apprentissage. Goodfellow et al. ont donné l'exemple d'un classificateur de réseau neuronal profond qui, bien que bien entraîné avec des images non bruyantes, peut néanmoins classer à tort les images de pandas bruyantes comme des gibbons. Cet exemple montre que le classificateur basé sur les réseaux de neurones profonds s'appuie fortement sur certains « chemins critiques » (faisant référence à certains pixels de l'image du panda, également appelés « caractéristiques locales ») lors de la prise de décision finale. Si le chemin critique est intact, une classification correcte sera effectuée ; si le chemin critique est perturbé, une classification incorrecte sera effectuée. Dans le même temps, ce type d'erreur de classification provoqué par le bruit n'est qu'une situation occasionnelle en présence de bruit aléatoire additif, ce qui montre que le réseau neuronal profond repose sur l'hypothèse que le « chemin critique » est toujours traité par le canal de bruit. intact. Les réseaux neuronaux profonds sont sensibles au bruit aléatoire additif, ce qui est presque fatal à leur application dans la conception d'émetteurs-récepteurs sans fil.
Insérer la description de l'image ici

L'essence de ces trois problèmes peut être attribuée au même problème principal, à savoir que les performances de généralisation des réseaux neuronaux profonds sont trop faibles face à des changements aléatoires dans les canaux sans fil. Aucun modèle (même un modèle de canal très supérieur) ne peut capturer complètement tous les scénarios possibles de propagation radio, de sorte que le traitement des échantillons hors distribution (OOD) ou des valeurs aberrantes est ce à quoi les auto-encodeurs doivent toujours faire face.
Pire encore, les solutions existantes à ces problèmes se heurtent encore à de nombreux obstacles, car les solutions proposées doivent répondre aux exigences pratiques de faible consommation d'énergie, de faible latence et de faible surcharge pour les équipements et infrastructures de communication sans fil. D'une part, dans un environnement dynamique, le coût d'accumulation, d'amélioration et de recyclage de l'émetteur-récepteur auto-encodeur lui-même est trop élevé, d'autre part, l'ensemble du processus d'accumulation, d'amélioration et de recyclage lui-même viole également le « réseau neuronal profond » ; La stratégie "une fois pour toutes", c'est-à-dire apprendre une fois et être efficace à long terme, ne peut pas répondre correctement aux besoins réels et aux exigences de consommation d'énergie.

Dans les scénarios sans fil, les valeurs aberrantes sont souvent causées par des changements aléatoires dans le canal. Pendant la phase d'inférence, si le canal change et s'écarte du modèle de canal utilisé dans la phase de formation, le problème des valeurs aberrantes est particulièrement important. Au fur et à mesure que le raisonnement progresse, davantage de valeurs aberrantes apparaîtront, ce qui affectera la forme de distribution du signal reçu. Bengio y attribue les mauvaises performances de généralisation de l'apprentissage profond. Il existe actuellement quelques remèdes, comme une formation complémentaire, notamment une formation par transfert, des réseaux récurrents basés sur l'attention ou un apprentissage par renforcement. Cependant, face aux exigences de faible consommation d'énergie, de faible latence et de faible surcharge de contrôle dans les futures communications sans fil, ces solutions sont devenues peu pratiques et manquent de faisabilité.

Concernant la méthode MPA proposée dans l'article, l'article analyse également les idées de solutions, en se concentrant sur les parties que j'ai marquées en noir ci-dessous :
"Tout d'abord, pour parvenir à la différenciation, le modèle de canal doit être simplifié, mais cette simplification nuit aux performances de l'émetteur-récepteur de l'auto-encodeur. La raison des dommages aux performances est que le modèle de canal utilisé pour entraîner l'auto-encodeur est un modèle simplifié, plutôt qu'un modèle réel. C'est-à-dire qu'il existe un décalage entre le modèle de canal simplifié utilisé dans la phase de formation et le canal réel traité dans la phase d'inférence. Ce décalage entraîne une perte de performances si le décalage augmente au-delà des attentes. Il existe deux solutions pour atténuer cette dégradation des performances. La première consiste à utiliser l'apprentissage par renforcement pour enregistrer en continu l'état du canal et former en continu le DNN de politique et/ou le DNN d'évaluation. Cependant, en termes de complexité des dimensions, l'apprentissage par renforcement est trop complexe pour les systèmes sans fil, car les dimensions traitées par l'apprentissage par renforcement sont en réalité beaucoup plus grandes que celles d'AlphaGo. Par conséquent, le mécanisme d’ajustement basé sur l’apprentissage par renforcement n’est pas réalisable. La seconde consiste à utiliser le Generative Adversary Network (GAN) pour apprendre autant de scénarios de canaux que possible dans un vaste modèle de réseau neuronal profond.Cependant, il s’agit d’une méthode empirique et il ne peut pas être prouvé qu’elle puisse couvrir tous les scénarios de canaux.。

Compte tenu des problèmes ci-dessus, les auto-encodeurs avec MPA empruntent une voie technique différente. Dans la phase d'inférence, MPA ajustera les coefficients de couche de réduction de dimensionnalité dans la fonction de mesure de canal actuelle pour chaque transmission de données. Par conséquent, l'inférence adaptative utilisera un modèle de canal grossier dans la phase de formation, que nous appelons « apprentissage grossier ». Si l'apprentissage grossier simule un modèle de canal identique ou similaire pour les étapes de formation et d'inférence, il est difficile de prouver l'avantage de l'apprentissage grossier, mais cet avantage peut être démontré dans des tests sur le terrain réels.

Deuxièmement, les auto-encodeurs dotés de MPA peuvent fonctionner conjointement avec des modèles de canaux basés sur des réseaux antagonistes génératifs. Par expérience, les conditions réelles de la plupart des canaux dépendent de l'emplacement de l'utilisateur et de la topologie de l'environnement, comme les immeubles de grande hauteur, les collines, les routes, etc. Les références ont proposé d'utiliser des réseaux contradictoires génératifs conditionnels pour modéliser des canaux inconnus et ont obtenu de bonnes performances.Nous pouvons utiliser cette méthode pour construire un modèle de canal afin de fournir un bon support pour la phase de formation。

Pendant la phase d'inférence, nous vous recommandons de vous fier aux estimations de canal provenant des pilotes, aux retours de mesure de canal ou à la réciprocité de canal pour obtenir les dernières conditions de canal. On sait que MPA bénéficie également de la parcimonie et est mieux à même de tolérer les décalages et les décalages (c'est pourquoi les décodeurs LDPC peuvent fonctionner efficacement). De ce point de vue, il n’est pas nécessaire d’effectuer une mesure de canal en dimension complète, seule une partie des dimensions doit être mesurée. Même s’il existe une certaine erreur d’estimation, notre schéma présente toujours une bonne robustesse en termes de performances globales. De plus, les résidus peuvent être traités en recevant des couches neuronales profondes avec une tolérance d'erreur plus élevée. Étant donné que la couche de réduction de dimensionnalité a été ajustée pendant les étapes d'inférence et de formation, nous pouvons utiliser la couche de réduction de dimensionnalité comme précodeur de l'ensemble de la chaîne de transmission, il n'est donc pas nécessaire de recycler la couche neuronale profonde. Cela apporte non seulement des avantages en matière d’économie d’énergie, mais constitue également un énorme avantage en prolongeant la durée de vie de la batterie des appareils des utilisateurs. "

2. Lecture rapide des articles

En fait, personnellement, je suis encore sceptique quant à la méthode proposée dans l’article. Jetons un bref coup d'œil à la méthode de l'article.

Résumé de l'article

L'article propose un émetteur-récepteur à auto-encodeur basé sur l'algorithme de transmission de messages (MPA) pour résoudre le problème des mauvaises performances de généralisation des auto-encodeurs traditionnels lors du traitement de changements de canal aléatoires. En introduisant MPA dans l'auto-encodeur, l'auteur implémente un émetteur-récepteur flexible qui peut fournir de meilleures performances de généralisation dans différents scénarios d'utilisation. Cette approche permet un apprentissage grossier dans la phase de formation et une inférence adaptative dans la phase d'inférence.

Principaux problèmes résolus

Problèmes de performances de généralisation: Lorsque les émetteurs-récepteurs à codeur automatique traditionnels sont confrontés à des changements de canal aléatoires, puisque les neurones sont fixés une fois l'entraînement terminé, les performances de généralisation sont médiocres.
Écart entre le modèle et le canal réel: L'utilisation d'auto-encodeurs formés sur la base de la méthode de descente de gradient stochastique et de l'algorithme de rétropropagation repose sur le modèle de canal construit plutôt que sur le canal réel, ce qui peut entraîner une perte de performances lors de l'étape d'inférence.
Adaptabilité aux changements de canal: L'émetteur-récepteur global à encodeur automatique peut provoquer une panne du récepteur lorsque les changements de canal dépassent les attentes de formation.
Traitement des échantillons hors distribution: Les changements aléatoires dans les canaux sans fil conduisent à des échantillons hors distribution ou à des valeurs aberrantes, et les solutions existantes sont difficiles à répondre aux exigences de faible consommation d'énergie, de faible latence et de faible surcharge des équipements de communication sans fil.

méthode principale

Algorithme de transmission de messages (MPA): Présentation de la fonction MPA pour obtenir un ajustement adaptatif via la couche de précodeur afin d'améliorer les performances de généralisation de l'émetteur-récepteur lorsque le canal change de manière dynamique.
Couche de réduction de dimensionnalité: Insérez la couche de réduction de dimensionnalité dans le cadre de l'encodeur automatique, effectuez une transformation de réduction de dimensionnalité linéaire et ajustez de manière itérative les coefficients de la couche de réduction de dimensionnalité via MPA.
Itération MPA autonome: Utilisez l'itération avant (similaire à la machine à vecteurs de support non linéaire) et l'itération arrière (similaire au réseau neuronal profond d'attention) pour ajuster indépendamment la couche de réduction de dimensionnalité, sans compter sur la propagation arrière de l'auto-encodeur d'origine.
apprentissage concaténé global: Grâce au programme de formation en série, la couche de réduction de dimensionnalité et la couche neuronale profonde sont entraînées séparément pour réaliser un apprentissage approximatif et un raisonnement adaptatif.
Apprentissage grossier et raisonnement adaptatif: Un modèle de canal simplifié est utilisé pour l'apprentissage approximatif dans la phase de formation, tandis que la couche de réduction de dimensionnalité est ajustée via MPA dans la phase d'inférence pour s'adapter à la situation actuelle de mesure du canal.

Grâce à ces méthodes, l’article vise à améliorer les performances et la capacité de généralisation des émetteurs-récepteurs auto-encodeurs lors de changements de canal aléatoires.
Insérer la description de l'image ici
Pour la méthode MPA de l'article, vous pouvez obtenir un aperçu en consultant les figures 16 et 17.
L'essentiel est d'ajouter la couche MPA pour effectuer une transformation dimensionnelle entre le vecteur de transmission et le canal. Ensuite, lors de l'entraînement, la couche MPA est d'abord gelée. Après avoir terminé l'entraînement de l'émetteur-récepteur global, la couche MPA est entraînée de manière itérative. La couche MPA peut être considérée comme un mappage de précodage pour la transmission. Les dimensions spécifiques peuvent être obtenues en mesurant le canal. Ici, l'hypothèse de trajets multiples commune est toujours adoptée pour le canal. L'entraînement de la couche MPA repose sur l'attention entre le signal reçu et le vecteur transmis.Attention, le réseau neuronal profond est une méthode efficace pour mesurer la similitude de deux caractéristiques entre différentes dimensions . Il convient de noter que le nombre d'attentions est inférieur au nombre de signaux reçus, c'est-à-dire L

Partage de technologie