[Paper Quick Reading] „Joint Message Passing und Autoencoder für Deep Learning“

2024-07-11

Dieser Artikel stammt vom Ottawa Wireless Advanced System Competence Center und Wireless Technology Laboratory. Zu den Autoren gehört der berühmte Tong Wen.
Fügen Sie hier eine Bildbeschreibung ein

1. Hauptprobleme globaler Transceiver mit selbstkodierender Architektur

Der für mich inspirierendste Teil des Artikels ist, dass er die Hauptprobleme erwähnt, mit denen globale Transceiver mit selbstkodierender Architektur konfrontiert sind:
Frage 1: Basierend auf der Methode des stochastischen Gradientenabstiegs erfordert die Verwendung des Backpropagation-Algorithmus zum Trainieren des Autoencoders eine oder mehrere differenzierbare Kanalmodellschichten, um die tiefe neuronale Schicht des Senders und die tiefe neuronale Schicht des Empfängers zu verbinden. Da der reale Kanal viele nichtlineare Komponenten (z. B. digitale oder analoge Vorverzerrung und Konvertierung) enthalten muss und nicht differenzierbare Stufen wie Upsampling und Downsampling umfasst, basiert das von der tiefen neuronalen Schicht des Transceivers trainierte Modell eher auf dem konstruierten Kanal als echter Kanal. In realen Kanalszenarien kann das auf diese Weise erhaltene Modell zu Leistungseinbußen während der Inferenzphase führen.
Fügen Sie hier eine Bildbeschreibung ein
Frage 2: Alle verborgenen Schichten oder Zwischenschichten werden basierend auf der hinteren Wahrscheinlichkeit des Eingangssignals trainiert. Im globalen Autoencoder-Transceiver ist die erste Schicht der tiefen neuronalen Schicht des Empfängers eine Zwischenschicht, deren Eingangssignal anfällig für die aktuelle Kanalverzerrung ist. Dieser Effekt durchdringt zwangsläufig alle tiefen Nervenschichten des Empfängers. Wenn sich der Kanal in einem Ausmaß ändert, das die Trainingserwartungen übertrifft, führt dies dazu, dass der Empfänger während der Inferenzphase ausfällt.
Fügen Sie hier eine Bildbeschreibung ein

Problem 3: Es besteht ein Mangel an Interpretierbarkeit zwischen neuronalen Schichten und es ist unmöglich zu wissen, welche Neuronen und welche Verbindungen zwischen neuronalen Schichten die endgültige Lerngenauigkeit effektiv beeinflussen. Goodfellow et al. führten das Beispiel eines tiefen neuronalen Netzwerkklassifizierers an, der, obwohl er mit nicht verrauschten Bildern gut trainiert ist, verrauschte Panda-Bilder dennoch fälschlicherweise als Gibbons klassifizieren kann. Dieses Beispiel zeigt, dass der auf tiefen neuronalen Netzen basierende Klassifikator bei der endgültigen Entscheidung stark auf einige „kritische Pfade“ (bezogen auf einige Pixel im Panda-Bild, auch als „lokale Merkmale“ bezeichnet) angewiesen ist. Wenn der kritische Pfad intakt ist, wird eine korrekte Klassifizierung vorgenommen; ist der kritische Pfad gestört, wird eine falsche Klassifizierung vorgenommen. Gleichzeitig kommt diese durch Rauschen verursachte Fehlklassifizierung nur gelegentlich vor, wenn additives Zufallsrauschen vorhanden ist. Dies zeigt, dass das tiefe neuronale Netzwerk davon ausgeht, dass der „kritische Pfad“ immer noch vom Rauschkanal verarbeitet wird intakt. Tiefe neuronale Netze sind anfällig für additives Zufallsrauschen, was für ihre Anwendung im drahtlosen Transceiver-Design nahezu fatal ist.
Fügen Sie hier eine Bildbeschreibung ein

Der Kern dieser drei Probleme kann auf dasselbe Kernproblem zurückgeführt werden, nämlich dass die Generalisierungsleistung tiefer neuronaler Netze bei zufälligen Änderungen in drahtlosen Kanälen zu schlecht ist. Kein Modell (auch kein sehr hochwertiges Kanalmodell) kann alle möglichen Szenarien der Funkausbreitung vollständig erfassen, daher müssen sich Autoencoder immer mit der Verarbeitung von Samples außerhalb der Verteilung (OOD) auseinandersetzen.
Erschwerend kommt hinzu, dass bestehende Lösungen für diese Probleme immer noch mit vielen Hindernissen konfrontiert sind, da die vorgeschlagenen Lösungen die praktischen Anforderungen eines geringen Energieverbrauchs, einer geringen Latenz und eines geringen Overheads für drahtlose Kommunikationsgeräte und -infrastruktur erfüllen müssen. Einerseits sind in einer dynamischen Umgebung die Kosten für die Akkumulation, Verbesserung und Umschulung des Autoencoder-Transceivers selbst zu hoch, andererseits verletzt der gesamte Prozess der Akkumulation, Verbesserung und Umschulung selbst auch das „tiefe neuronale Netzwerk“. Eine „Einmal-für-Alle“-Strategie – das heißt, einmal zu lernen und langfristig effektiv zu sein – kann die tatsächlichen Bedürfnisse und Anforderungen an den Energieverbrauch nicht gut erfüllen.

In drahtlosen Szenarien werden Ausreißer häufig durch zufällige Änderungen im Kanal verursacht. Wenn sich der Kanal während der Inferenzphase ändert und von dem in der Trainingsphase verwendeten Kanalmodell abweicht, ist das Problem von Ausreißern besonders ausgeprägt. Mit fortschreitender Argumentation treten immer mehr Ausreißer auf, die sich auf die Verteilungsform des empfangenen Signals auswirken. Bengio führt die schlechte Generalisierungsleistung von Deep Learning darauf zurück. Gegenwärtig gibt es einige Abhilfemaßnahmen, beispielsweise zusätzliche Schulungen, einschließlich Transfertraining, aufmerksamkeitsbasierte wiederkehrende Netzwerke oder verstärkendes Lernen. Angesichts der Anforderungen eines geringen Energieverbrauchs, einer geringen Latenz und eines geringen Kontrollaufwands bei der künftigen drahtlosen Kommunikation sind diese Abhilfemaßnahmen jedoch unpraktisch geworden und nicht mehr umsetzbar.

In Bezug auf die im Artikel vorgeschlagene MPA-Methode analysiert der Artikel auch die Lösungsideen und konzentriert sich dabei auf die Teile, die ich unten schwarz markiert habe:
„Um Differenzierbarkeit zu erreichen, muss zunächst das Kanalmodell vereinfacht werden. Diese Vereinfachung beeinträchtigt jedoch die Leistung des Autoencoder-Transceivers. Der Grund für den Leistungsschaden liegt darin, dass das zum Trainieren des Autoencoders verwendete Kanalmodell ein vereinfachtes Modell und kein a ist Das heißt, es gibt einen Versatz zwischen dem in der Trainingsphase verwendeten und dem in der Inferenzphase verarbeiteten realen Kanal. Dieser Versatz führt zu Leistungsverlusten. Der gesamte Autoencoder-Transceiver fällt aus sind zwei Abhilfemaßnahmen, um diesen Leistungsabfall abzumildern. Die erste besteht darin, verstärktes Lernen zu verwenden, um den Kanalstatus kontinuierlich aufzuzeichnen und das Richtlinien-DNN und/oder das Bewertungs-DNN kontinuierlich zu trainieren. Im Hinblick auf die Komplexität der Dimensionen ist Reinforcement Learning jedoch zu komplex für drahtlose Systeme, da die durch Reinforcement Learning verarbeiteten Dimensionen tatsächlich viel größer sind als bei AlphaGo. Daher ist der auf Verstärkungslernen basierende Anpassungsmechanismus nicht durchführbar. Die zweite besteht darin, mithilfe des Generative Adversary Network (GAN) so viele Kanalszenarien wie möglich in ein großes tiefes neuronales Netzwerkmodell zu lernen.Allerdings handelt es sich hierbei um eine empirische Methode und es kann nicht nachgewiesen werden, dass die Methode alle Kanalszenarien abdecken kann.。

Aus Berücksichtigung der oben genannten Probleme gehen Autoencoder mit MPA einen anderen technischen Weg. In der Inferenzphase passt MPA die Dimensionsreduktionsschichtkoeffizienten in der aktuellen Kanalmessfunktion für jede Datenübertragung an. Daher verwendet die adaptive Inferenz in der Trainingsphase ein grobes Kanalmodell, das wir „grobes Lernen“ nennen. Wenn grobes Lernen dasselbe oder ein ähnliches Kanalmodell sowohl für die Trainings- als auch für die Inferenzphase simuliert, ist es schwierig, den Vorteil des groben Lernens nachzuweisen, dieser Vorteil kann jedoch in tatsächlichen Feldtests nachgewiesen werden.

Zweitens können Autoencoder mit MPA mit Kanalmodellen zusammenarbeiten, die auf generativen gegnerischen Netzwerken basieren. Erfahrungsgemäß hängen die tatsächlichen Bedingungen der meisten Kanäle vom Benutzerstandort und der Umgebungstopologie ab, z. B. Hochhäusern, Hügeln, Straßen usw. Referenzen schlugen die Verwendung bedingter generativer gegnerischer Netzwerke zur Modellierung unbekannter Kanäle vor und erzielten eine gute Leistung.Mit dieser Methode können wir ein Kanalmodell erstellen, das die Trainingsphase gut unterstützt。

Während der Inferenzphase empfehlen wir, sich auf Kanalschätzungen von Piloten, Feedback zu Kanalmessungen oder Kanalreziprozität zu verlassen, um die neuesten Kanalbedingungen zu erhalten. Es ist bekannt, dass MPA auch von Sparsity profitiert und Offsets und Offsets besser tolerieren kann (weshalb LDPC-Decoder effektiv arbeiten können). Aus dieser Perspektive besteht keine Notwendigkeit, eine volldimensionale Kanalmessung durchzuführen, sondern nur ein Teil der Dimensionen muss gemessen werden. Selbst wenn ein gewisser Schätzfehler vorliegt, weist unser Schema immer noch eine gute Robustheit in Bezug auf die Gesamtleistung auf. Darüber hinaus können die Residuen durch den Empfang tiefer neuronaler Schichten mit höherer Fehlertoleranz gehandhabt werden. Da die Dimensionsreduktionsschicht während der Inferenz- und Trainingsphase angepasst wurde, können wir die Dimensionsreduktionsschicht als Vorcodierer der gesamten Übertragungskette verwenden, sodass keine Notwendigkeit besteht, die tiefe neuronale Schicht neu zu trainieren. Dies bringt nicht nur Vorteile beim Energiesparen, sondern ist auch ein großer Vorteil bei der Verlängerung der Akkulaufzeit der Benutzergeräte. "

2. Schnelles Lesen von Artikeln

Tatsächlich bin ich persönlich immer noch skeptisch gegenüber der im Artikel vorgeschlagenen Methode. Werfen wir einen kurzen Blick auf die Methode des Artikels.

Artikelübersicht

Der Artikel schlägt einen Autoencoder-Transceiver vor, der auf dem Message Passing Algorithm (MPA) basiert, um das Problem der schlechten Generalisierungsleistung herkömmlicher Autoencoder beim Umgang mit zufälligen Kanalwechseln zu lösen. Durch die Einführung von MPA in den Autoencoder implementiert der Autor einen flexiblen Transceiver, der in verschiedenen Nutzungsszenarien eine bessere Generalisierungsleistung bieten kann. Dieser Ansatz ermöglicht grobes Lernen in der Trainingsphase und adaptive Inferenz in der Inferenzphase.

Hauptprobleme gelöst

Probleme mit der Generalisierungsleistung: Wenn herkömmliche Autoencoder-Transceiver mit zufälligen Kanalwechseln konfrontiert werden, ist die Generalisierungsleistung schlecht, da die Neuronen nach Abschluss des Trainings fixiert sind.
Abweichung zwischen Modell und realem Kanal: Die Verwendung von Autoencodern, die auf der Grundlage der stochastischen Gradientenabstiegsmethode und des Backpropagation-Algorithmus trainiert wurden, basiert auf dem konstruierten Kanalmodell und nicht auf dem realen Kanal, was zu Leistungseinbußen in der Inferenzphase führen kann.
Anpassungsfähigkeit an Kanaländerungen: Der globale Autoencoder-Transceiver kann zu einem Empfängerausfall führen, wenn die Kanaländerungen die Trainingserwartungen überschreiten.
Verarbeitung von Proben außerhalb der Verteilung: Zufällige Änderungen in drahtlosen Kanälen führen zu Proben außerhalb der Verteilung oder zu Ausreißern, und bestehende Lösungen sind schwierig, den geringen Energieverbrauch, die geringe Latenz und den geringen Overhead-Anforderungen drahtloser Kommunikationsgeräte zu erfüllen.

Hauptmethode

Message-Passing-Algorithmus (MPA): Einführung der MPA-Funktion, um eine adaptive Anpassung über die Vorcodiererschicht zu erreichen und die Generalisierungsleistung des Transceivers bei dynamischen Kanaländerungen zu verbessern.
Ebene zur Dimensionsreduzierung: Fügen Sie die Dimensionsreduktionsschicht in das Autoencoder-Framework ein, führen Sie eine lineare Dimensionsreduktionstransformation durch und passen Sie die Koeffizienten der Dimensionsreduktionsschicht iterativ über MPA an.
Eigenständige MPA-Iteration: Verwenden Sie Vorwärtsiteration (ähnlich einer nichtlinearen Support-Vektor-Maschine) und Rückwärtsiteration (ähnlich einem tiefen neuronalen Netzwerk mit Aufmerksamkeit), um die Dimensionsreduktionsschicht unabhängig anzupassen, ohne sich auf die Rückwärtsausbreitung des ursprünglichen Autoencoders zu verlassen.
globales verkettetes Lernen: Durch das Serientrainingsschema werden die Dimensionsreduktionsschicht und die tiefe neuronale Schicht separat trainiert, um grobes Lernen und adaptives Denken zu erreichen.
Grobes Lernen und adaptives Denken: Ein vereinfachtes Kanalmodell wird für das grobe Lernen in der Trainingsphase verwendet, während die Dimensionsreduktionsschicht durch MPA in der Inferenzphase angepasst wird, um sich an die aktuelle Kanalmesssituation anzupassen.

Durch diese Methoden zielt der Artikel darauf ab, die Leistung und Generalisierungsfähigkeit von Autoencoder-Transceivern bei zufälligen Kanalwechseln zu verbessern.
Fügen Sie hier eine Bildbeschreibung ein
Für die MPA-Methode des Artikels können Sie sich einen Überblick verschaffen, indem Sie sich die Abbildungen 16 und 17 ansehen.
Die Hauptsache besteht darin, die MPA-Schicht hinzuzufügen, um eine Dimensionstransformation zwischen dem Übertragungsvektor und dem Kanal durchzuführen. Anschließend wird die MPA-Schicht zunächst eingefroren. Nach Abschluss des Trainings wird die MPA-Schicht iterativ trainiert. Die MPA-Schicht kann als Vorcodierungsabbildung für die Übertragung betrachtet werden. Die spezifischen Abmessungen können durch Messung des Kanals ermittelt werden. Hier wird weiterhin die übliche Mehrwegeannahme für den Kanal übernommen. Das Training der MPA-Schicht basiert auf der Aufmerksamkeit zwischen dem empfangenen Signal und dem übertragenen Vektor.Das tiefe neuronale Aufmerksamkeitsnetzwerk ist eine effektive Methode, um die Ähnlichkeit zweier Merkmale zwischen verschiedenen Dimensionen zu messen . Dabei ist zu beachten, dass die Anzahl der Aufmerksamkeiten kleiner ist als die Anzahl der empfangenen Signale, also L

Technologieaustausch