Tecnologia di regolarizzazione nel deep learning-rumore robustness

Tecnologia di regolarizzazione nel deep learning: robustezza del rumore

2024-07-12

Prefazione

Con il vigoroso sviluppo del deep learning, le prestazioni e la capacità di generalizzazione dei modelli sono diventate il focus dei ricercatori. Tuttavia, i dati nelle applicazioni pratiche sono spesso accompagnati da vari rumori. Questi rumori non solo derivano da limitazioni hardware nel processo di acquisizione dei dati, ma possono anche essere introdotti da fattori quali interferenze ambientali ed errori di trasmissione. L’esistenza del rumore influisce seriamente sull’effetto dell’addestramento e sull’accuratezza della previsione dei modelli di deep learning, soprattutto in compiti come il riconoscimento vocale e la classificazione delle immagini. Pertanto, migliorare la robustezza del rumore dei modelli di deep learning, ovvero migliorare le prestazioni stabili del modello e le capacità di riconoscimento in ambienti rumorosi, è diventata una direzione importante della ricerca attuale. Progettando algoritmi di preelaborazione dei dati più efficaci, ottimizzando le strutture dei modelli e introducendo formazione potenziata dal rumore e altri mezzi tecnici, la resistenza dei modelli di deep learning al rumore può essere significativamente migliorata, promuovendone così l'applicazione in scenari più complessi.

Robustezza al rumore

esistereTecnologia di regolarizzazione nel miglioramento del set di dati di deep learning hanno ispirato l'applicazione del rumore all'input come strategia di aumento del set di dati. Per alcuni modelli, aggiungere rumore con varianza minima all’input del modello equivale ad aggiungere una penalità di norma ai pesi (Bishop, 1995a,b). In generale, l'iniezione di rumore è molto più efficace della semplice riduzione dei parametri, soprattutto quando il rumore viene aggiunto a unità nascoste.L'aggiunta di rumore alle unità nascoste è un argomento importante degno di una propria discussione。
un altroIl rumore viene utilizzato in un modello regolarizzato aggiungendolo ai pesi . Questa tecnica è utilizzata principalmente nelle reti neurali ricorrenti (Jim et al., 1996; Graves, 2011). Ciò può essere interpretato come un'implementazione stocastica dell'inferenza bayesiana sui pesi. L'utilizzo di un approccio bayesiano al processo di apprendimento considera i pesi come incerti e questa incertezza può essere rappresentata da una distribuzione di probabilità. Aggiungere rumore ai pesi è un modo stocastico pratico per riflettere questa incertezza.
Sotto certi presupposti, il rumore applicato ai pesi può essere interpretato come equivalente a forme di regolarizzazione più tradizionali, favorendo la stabilità della funzione da apprendere.
Studiamo il caso della regressione, ovvero dell'addestramento di un insieme di funzionalità $X$ funzione mappata su uno scalare $y ^ ( x ) hat{y}(simbolo grassetto{x})$ e utilizzare la funzione di costo dei minimi quadrati per misurare il valore di previsione del modello $y ^ cappello{y}$ con vero valore $e$ errore：
$J=mathbb{E}_{p(x,y)}[(hat{y}(boldsymbol{x} )-y)^2]quadtextbf{dimensione nota a piè di pagina{---Formula 1}}$
Il set di formazione contiene $M$ Esempi di annotazioni $grassetto{x}^{(i)},y^{(i)}),punti,(simbolo in grassetto{x}^{(m)},y^{(m)})}$
Assumiamo ora che ad ogni rappresentazione di input venga aggiunta una perturbazione casuale dei pesi della rete $epsilon_wsimmathcal{N}(simbolo in grassetto{epsilon};0,simbolo in grassetto{I})$ Immaginiamo di avere uno standard $l$ strato $MLP$ .Indichiamo il modello perturbativo come $hat{y}_{epsilon_{simbolo in grassetto{W}}}(simbolo in grassetto{x})$ 。
Siamo interessati a ridurre il quadrato dell'errore di uscita della rete nonostante l'iniezione di rumore. Pertanto la funzione obiettivo è: $begin{cases}begin{aligned}hat{J}_{boldsymbol{W}}&=mathbb{E}_p(boldsymbol{x},y,epsilon_{boldsymbol{W}})[(hat{y}_{epsilon_{boldsymbol{W}}}(boldsymbol{x})-y)^2]quadtextbf{footnotesize{---公式2}}\&=mathbb{E}_p(boldsymbol{x},y,epsilon_{boldsymbol{W}})[hat{y}_{epsilon_{boldsymbol{W}}}^2(boldsymbol{x})-2yhat{y}_{epsilon_{boldsymbol{W}}}(boldsymbol{x})+y^2]quadtextbf{footnotesize{---公式3}}end{aligned}end{cases}$
per piccoli $η$ , minimizzando il rumore ponderato (la varianza è $η IOO$ )Di $J$ Equivale a ridurre al minimo il termine aggiuntivo di regolarizzazione $J:etamathbb{E}_{p(x,y)}sinistra[Vertnabla_{boldsymbol{W}}hat{y}(boldsymbol{x})Vert^2destra]$ 。
Questa forma di regolarizzazione incoraggia i parametri a entrare in regioni dello spazio dei parametri dove piccole perturbazioni nei pesi hanno un impatto relativamente scarso sull’output. In altre parole, spinge il modello in una regione che è relativamente insensibile a piccoli cambiamenti nei pesi, e i punti trovati non sono solo punti minimi, ma punti minimi circondati da aree pianeggianti (Hochreiter e Schmidhuber, 1995).
Nella regressione lineare semplificata (ad esempio, $grassetto{w}^simbolo in grassetto{x}+b$ , il termine regolare degenera in: $etamathbb{E}_{p(x)}[Vertgrassettosimbolo{x}Vert^2]$ , che non ha nulla a che fare con i parametri della funzione, quindi non lo farà $cosa{J}_w$ Contribuisce ai gradienti dei parametri del modello.

Iniettare rumore nel target di output

La maggior parte dei set di dati $e$ Ci sono alcuni errori nelle etichette.Quando $e$ è sbagliato massimizzare $Io G P (e ∣ X)$ sarebbe dannoso.
Un modo per evitare ciò è modellare esplicitamente il rumore sulle etichette.
- Ad esempio, possiamo supporre che per qualche piccola costante $ϵ$ , etichetta del set di allenamento $e$ La probabilità di avere ragione è $1 - ϵ$ , qualsiasi altra etichetta possibile potrebbe essere corretta.
- Questa ipotesi può essere facilmente combinata analiticamente con la funzione di costo senza prelevare esplicitamente campioni rumorosi.
- Per esempio,levigatura dell'etichetta(livellamento etichetta) in base a $K$ un'uscita $morbidomax$ funzione, che fa riferimento ad una chiara classificazione $0$ E $1$ Sostituirlo con $ϵ k − 1 stile di visualizzazionefrac{epsilon}{k-1}$ E $1 - ϵ$ , per regolarizzare il modello.
La perdita di entropia incrociata standard può essere utilizzata sull’output di questi obiettivi non esatti.utilizzo $morbidomax$ L'apprendimento con massima probabilità di funzioni e obiettivi espliciti potrebbe non convergere mai - $morbidomax$ Le funzioni non possono mai veramente prevedere $0$ probabilità o $1$ probabilità, quindi continua ad apprendere pesi sempre più grandi, rendendo le previsioni sempre più estreme. L’utilizzo di altre strategie di regolarizzazione come il decadimento del peso può impedirlo. Il label smoothing ha il vantaggio di impedire al modello di perseguire probabilità non ambigue senza ostacolare la corretta classificazione. Questa strategia è stata utilizzata dagli anni ’80 e continua ad avere un posto di rilievo nelle moderne reti neurali (Szegedy et al., 2015).

Riassumere

Migliorare la robustezza del rumore nel deep learning è fondamentale per garantire che il modello funzioni stabilmente negli ambienti del mondo reale. Attraverso una serie di mezzi tecnici innovativi, come il miglioramento dei dati, l'addestramento all'iniezione di rumore, l'ottimizzazione della struttura del modello, ecc., possiamo migliorare efficacemente la tolleranza del modello al rumore e l'accuratezza del riconoscimento. Questi sforzi non solo promuovono l’ulteriore sviluppo della tecnologia di deep learning, ma portano anche soluzioni più affidabili ed efficienti per applicazioni pratiche nel riconoscimento vocale, nel riconoscimento delle immagini, nell’elaborazione del linguaggio naturale e in altri campi.
In futuro, con l’approfondimento della ricerca e il continuo progresso della tecnologia, abbiamo motivo di credere che la robustezza del rumore dei modelli di deep learning sarà ulteriormente migliorata, portando cambiamenti rivoluzionari in più campi.

Ritorno di contenuti passati

Tecnologia di regolarizzazione nel miglioramento del set di dati di deep learning

Condivisione della tecnologia