[Lettura rapida del documento] "Passaggio congiunto di messaggi e codificatori automatici per l'apprendimento profondo"

2024-07-11

Questo articolo proviene dall'Ottawa Wireless Advanced System Competence Center e dal Wireless Technology Laboratory di Huawei. Tra gli autori c'è il famoso Tong Wen.
Inserisci qui la descrizione dell'immagine

1. Principali problemi affrontati dai ricetrasmettitori globali con architettura autocodifica

La parte più stimolante dell'articolo per me è che menziona i principali problemi affrontati dai ricetrasmettitori globali con architettura di autocodifica:
Domanda 1: In base al metodo di discesa del gradiente stocastico, l'utilizzo dell'algoritmo di propagazione all'indietro per addestrare l'autocodificatore richiede uno o più livelli di modello di canale differenziabili per connettere lo strato neurale profondo del trasmettitore e lo strato neurale profondo del ricevitore. Poiché il canale reale deve contenere molti componenti non lineari (come la predistorsione e la conversione digitale o analogica) e coinvolge fasi non differenziabili come l'upsampling e il downsampling, il modello addestrato dallo strato neurale profondo del ricetrasmettitore si basa piuttosto sul canale costruito rispetto al canale vero. Negli scenari di canale reale, il modello così ottenuto può causare perdite di prestazioni durante la fase di inferenza.
Inserisci qui la descrizione dell'immagine
Domanda 2: tutti gli strati nascosti o intermedi vengono addestrati in base alla probabilità a posteriori del segnale di ingresso. Nel ricetrasmettitore globale dell'autoencoder, il primo strato dello strato neurale profondo del ricevitore è uno strato intermedio il cui segnale di ingresso è suscettibile alla distorsione del canale corrente. Questo effetto permea inevitabilmente tutti gli strati neurali profondi del ricevente. Se il canale cambia in misura tale da superare le aspettative di addestramento, ciò causerà il malfunzionamento del ricevitore durante la fase di inferenza.
Inserisci qui la descrizione dell'immagine

Problema 3: c'è una mancanza di interpretabilità tra gli strati neurali ed è impossibile sapere quali neuroni e quali connessioni tra strati neurali influenzeranno effettivamente l'accuratezza dell'apprendimento finale. Goodfellow et al. hanno fornito l'esempio di un classificatore di rete neurale profonda che, sebbene ben addestrato con immagini non rumorose, potrebbe comunque classificare erroneamente le immagini di panda rumorose come gibboni. Questo esempio mostra che il classificatore basato su reti neurali profonde fa molto affidamento su alcuni "percorsi critici" (riferiti ad alcuni pixel nell'immagine del panda, noti anche come "caratteristiche locali") quando prende la decisione finale. Se il percorso critico è integro verrà effettuata una classificazione corretta; se il percorso critico è disturbato verrà effettuata una classificazione errata. Allo stesso tempo, questo tipo di classificazione errata causata dal rumore è solo una situazione occasionale in presenza di rumore casuale additivo, il che dimostra che la rete neurale profonda si basa sul presupposto che il "percorso critico" venga elaborato dal canale del rumore intatto. Le reti neurali profonde sono suscettibili al rumore casuale additivo, che è quasi fatale per la loro applicazione nella progettazione di ricetrasmettitori wireless.
Inserisci qui la descrizione dell'immagine

L'essenza di questi tre problemi può essere attribuita allo stesso problema fondamentale, ovvero che le prestazioni di generalizzazione delle reti neurali profonde sono troppo scarse di fronte a cambiamenti casuali nei canali wireless. Nessun modello (anche un modello di canale molto superiore) può catturare completamente tutti i possibili scenari di propagazione radio, quindi l'elaborazione di campioni o valori anomali fuori distribuzione (OOD) è ciò che gli autocodificatori devono sempre affrontare.
A peggiorare le cose, le soluzioni esistenti a questi problemi devono ancora affrontare molti ostacoli, perché le soluzioni proposte devono soddisfare i requisiti pratici di basso consumo energetico, bassa latenza e basso sovraccarico per le apparecchiature e le infrastrutture di comunicazione wireless. Da un lato, in un ambiente dinamico, il costo di accumulazione, miglioramento e riqualificazione del ricetrasmettitore autocodificatore stesso è troppo elevato, dall'altro l'intero processo di accumulazione, miglioramento e riqualificazione stesso viola anche la "rete neurale profonda"; La strategia "Once-for-All", cioè imparare una volta ed essere efficace a lungo termine, non può soddisfare adeguatamente le esigenze reali e le esigenze di consumo energetico.

Negli scenari wireless, i valori anomali sono spesso causati da cambiamenti casuali nel canale. Durante la fase di inferenza, se il canale cambia e si discosta dal modello di canale utilizzato nella fase di training, il problema degli outlier è particolarmente evidente. Man mano che il ragionamento procede, appariranno più valori anomali, che influenzeranno la forma di distribuzione del segnale ricevuto. Bengio attribuisce a questo le scarse prestazioni di generalizzazione del deep learning. Attualmente esistono alcuni rimedi, come la formazione aggiuntiva, inclusa la formazione al trasferimento, le reti ricorrenti basate sull'attenzione o l'apprendimento per rinforzo. Tuttavia, di fronte ai requisiti di basso consumo energetico, bassa latenza e basso sovraccarico di controllo nelle future comunicazioni wireless, questi rimedi sono diventati poco pratici e poco fattibili.

Per quanto riguarda il metodo MPA proposto nell'articolo, l'articolo analizza anche le idee di soluzione, soffermandosi sulle parti che ho segnato in nero qui sotto:
"In primo luogo, per ottenere differenziabilità, il modello di canale deve essere semplificato, ma questa semplificazione influisce negativamente sulle prestazioni del ricetrasmettitore dell'autocodificatore. La ragione del danno prestazionale è che il modello di canale utilizzato per addestrare l'autocodificatore è un modello semplificato, piuttosto che un modello reale. Cioè, esiste un offset tra il modello di canale semplificato utilizzato nella fase di training e il canale reale elaborato nella fase di inferenza. Questo offset comporta una perdita di prestazioni se l'offset aumenta oltre le aspettative ci sono due rimedi per mitigare questo degrado delle prestazioni. Il primo consiste nell'utilizzare l'apprendimento per rinforzo per registrare continuamente lo stato del canale e addestrare continuamente la policy DNN e/o la valutazione DNN. Tuttavia, in termini di complessità delle dimensioni, l’apprendimento per rinforzo è troppo complesso per i sistemi wireless, perché le dimensioni elaborate dall’apprendimento per rinforzo sono in realtà molto più grandi di AlphaGo. Pertanto, il meccanismo di aggiustamento basato sull’apprendimento per rinforzo non è fattibile. Il secondo consiste nell'utilizzare la Generative Adversary Network (GAN) per apprendere il maggior numero possibile di scenari di canale in un ampio modello di rete neurale profonda.Tuttavia, si tratta di un metodo empirico e non è possibile dimostrare che possa coprire tutti gli scenari di canale.。

In considerazione dei problemi di cui sopra, gli autoencoder con MPA seguono un percorso tecnico diverso. Nella fase di inferenza, MPA regolerà i coefficienti dello strato di riduzione della dimensionalità nella funzione di misurazione del canale corrente per ogni trasmissione di dati. Pertanto, l'inferenza adattiva utilizzerà un modello di canale grossolano nella fase di addestramento, che chiamiamo "apprendimento approssimativo". Se l'apprendimento grossolano simula lo stesso o un modello di canale simile sia per le fasi di addestramento che per quelle di inferenza, è difficile dimostrare il vantaggio dell'apprendimento grossolano, ma questo vantaggio può essere dimostrato in test sul campo reali.

In secondo luogo, gli autocodificatori con MPA possono lavorare insieme con modelli di canale basati su reti avversarie generative. Per esperienza, le condizioni effettive della maggior parte dei canali dipendono dalla posizione dell'utente e dalla topologia ambientale, come grattacieli, colline, strade, ecc. I riferimenti proposti utilizzano reti avversarie generative condizionali per modellare canali sconosciuti e hanno ottenuto buone prestazioni.Possiamo utilizzare questo metodo per costruire un modello di canale per fornire un buon supporto per la fase di formazione。

Durante la fase di inferenza, si consiglia di fare affidamento sulle stime dei canali fornite dai progetti pilota, sul feedback sulla misurazione dei canali o sulla reciprocità dei canali per ottenere le condizioni del canale più recenti. È noto che anche l'MPA beneficia della scarsità ed è in grado di tollerare meglio offset e offset (motivo per cui i decoder LDPC possono funzionare in modo efficace). Da questo punto di vista, non è necessario eseguire la misurazione del canale a dimensione intera, è necessario misurare solo una parte delle dimensioni. Anche se esiste un certo errore di stima, il nostro schema ha comunque una buona robustezza in termini di prestazioni complessive. Inoltre, i residui possono essere gestiti ricevendo strati neurali profondi con una maggiore tolleranza agli errori. Poiché lo strato di riduzione della dimensionalità è stato regolato durante le fasi di inferenza e addestramento, possiamo utilizzare lo strato di riduzione della dimensionalità come precodificatore dell'intera catena di trasmissione, quindi non è necessario riqualificare lo strato neurale profondo. Ciò non solo comporta vantaggi in termini di risparmio energetico, ma rappresenta anche un enorme vantaggio nel prolungare la durata della batteria dei dispositivi degli utenti. "

2. Lettura rapida degli articoli

Personalmente, infatti, sono ancora scettico riguardo al metodo proposto nell'articolo. Diamo una breve occhiata al metodo dell’articolo.

Riepilogo dell'articolo

L'articolo propone un ricetrasmettitore autoencoder basato sull'algoritmo Message Passing Algorithm (MPA) per risolvere il problema delle scarse prestazioni di generalizzazione degli autoencoder tradizionali quando si tratta di cambiamenti casuali di canale. Introducendo MPA nell'autoencoder, l'autore implementa un ricetrasmettitore flessibile in grado di fornire migliori prestazioni di generalizzazione in diversi scenari di utilizzo. Questo approccio consente l'apprendimento grossolano nella fase di addestramento e l'inferenza adattiva nella fase di inferenza.

Principali problemi risolti

Problemi di prestazione della generalizzazione: Quando i ricetrasmettitori autoencoder tradizionali affrontano cambiamenti casuali dei canali, poiché i neuroni vengono fissati una volta completato l'addestramento, le prestazioni di generalizzazione sono scarse.
Deviazione tra modello e canale reale: L'uso di autoencoder addestrati in base al metodo di discesa del gradiente stocastico e all'algoritmo di backpropagation si basa sul modello di canale costruito anziché sul canale reale, il che può portare a una perdita di prestazioni nella fase di inferenza.
Adattabilità ai cambiamenti dei canali: Il ricetrasmettitore globale con codifica automatica può causare guasti al ricevitore quando i cambiamenti di canale superano le aspettative di addestramento.
Elaborazione di campioni fuori distribuzione: I cambiamenti casuali nei canali wireless portano a campioni fuori distribuzione o valori anomali e le soluzioni esistenti sono difficili da soddisfare il basso consumo energetico, la bassa latenza e i bassi requisiti generali delle apparecchiature di comunicazione wireless.

metodo principale

Algoritmo di passaggio dei messaggi (MPA): Presentazione della funzione MPA per ottenere una regolazione adattiva attraverso lo strato precodificatore per migliorare le prestazioni di generalizzazione del ricetrasmettitore quando il canale cambia dinamicamente.
Strato di riduzione della dimensionalità: inserire lo strato di riduzione della dimensionalità nel framework del codificatore automatico, eseguire la trasformazione di riduzione della dimensionalità lineare e regolare in modo iterativo i coefficienti dello strato di riduzione della dimensionalità tramite MPA.
Iterazione AMP autonoma: utilizzare l'iterazione in avanti (simile alla macchina vettoriale di supporto non lineare) e l'iterazione all'indietro (simile alla rete neurale profonda dell'attenzione) per regolare in modo indipendente lo strato di riduzione della dimensionalità, senza fare affidamento sulla propagazione all'indietro dell'autocodificatore originale.
apprendimento concatenato globale: Attraverso lo schema di allenamento in serie, lo strato di riduzione della dimensionalità e lo strato neurale profondo vengono addestrati separatamente per ottenere l'apprendimento approssimativo e il ragionamento adattivo.
Apprendimento grossolano e ragionamento adattivo: Un modello di canale semplificato viene utilizzato per l'apprendimento approssimativo nella fase di training, mentre il livello di riduzione della dimensionalità viene regolato tramite MPA nella fase di inferenza per adattarsi all'attuale situazione di misurazione del canale.

Attraverso questi metodi, l'articolo mira a migliorare le prestazioni e la capacità di generalizzazione dei ricetrasmettitori autoencoder in caso di cambiamenti casuali dei canali.
Inserisci qui la descrizione dell'immagine
Per il metodo MPA dell'articolo, è possibile ottenere una panoramica guardando le Figure 16 e 17.
La cosa principale è aggiungere lo strato MPA per completare una trasformazione dimensionale tra il vettore di trasmissione e il canale. Quindi durante l'addestramento, lo strato MPA viene prima congelato. Dopo aver completato l'addestramento del ricetrasmettitore complessivo, lo strato MPA viene addestrato in modo iterativo. Lo strato MPA può essere considerato come una mappatura di precodifica per la trasmissione. Le dimensioni specifiche possono essere ottenute misurando il canale. In questo caso, per il canale viene ancora adottato il presupposto multipercorso comune. L'addestramento dello strato MPA si basa sull'attenzione tra il segnale ricevuto e il vettore trasmesso.La rete neurale profonda dell'attenzione è un metodo efficace per misurare la somiglianza di due caratteristiche tra dimensioni diverse . Va notato che il numero di attenzioni è inferiore al numero di segnali ricevuti, ovvero L

Condivisione della tecnologia