Condivisione della tecnologia

Tecnologia di regolarizzazione nel deep learning: robustezza del rumore

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Prefazione

Con il vigoroso sviluppo del deep learning, le prestazioni e la capacità di generalizzazione dei modelli sono diventate il focus dei ricercatori. Tuttavia, i dati nelle applicazioni pratiche sono spesso accompagnati da vari rumori. Questi rumori non solo derivano da limitazioni hardware nel processo di acquisizione dei dati, ma possono anche essere introdotti da fattori quali interferenze ambientali ed errori di trasmissione. L’esistenza del rumore influisce seriamente sull’effetto dell’addestramento e sull’accuratezza della previsione dei modelli di deep learning, soprattutto in compiti come il riconoscimento vocale e la classificazione delle immagini. Pertanto, migliorare la robustezza del rumore dei modelli di deep learning, ovvero migliorare le prestazioni stabili del modello e le capacità di riconoscimento in ambienti rumorosi, è diventata una direzione importante della ricerca attuale. Progettando algoritmi di preelaborazione dei dati più efficaci, ottimizzando le strutture dei modelli e introducendo formazione potenziata dal rumore e altri mezzi tecnici, la resistenza dei modelli di deep learning al rumore può essere significativamente migliorata, promuovendone così l'applicazione in scenari più complessi.

Robustezza al rumore

  • esistereTecnologia di regolarizzazione nel miglioramento del set di dati di deep learning hanno ispirato l'applicazione del rumore all'input come strategia di aumento del set di dati. Per alcuni modelli, aggiungere rumore con varianza minima all’input del modello equivale ad aggiungere una penalità di norma ai pesi (Bishop, 1995a,b). In generale, l'iniezione di rumore è molto più efficace della semplice riduzione dei parametri, soprattutto quando il rumore viene aggiunto a unità nascoste.L'aggiunta di rumore alle unità nascoste è un argomento importante degno di una propria discussione
  • un altroIl rumore viene utilizzato in un modello regolarizzato aggiungendolo ai pesi . Questa tecnica è utilizzata principalmente nelle reti neurali ricorrenti (Jim et al., 1996; Graves, 2011). Ciò può essere interpretato come un'implementazione stocastica dell'inferenza bayesiana sui pesi. L'utilizzo di un approccio bayesiano al processo di apprendimento considera i pesi come incerti e questa incertezza può essere rappresentata da una distribuzione di probabilità. Aggiungere rumore ai pesi è un modo stocastico pratico per riflettere questa incertezza.
  • Sotto certi presupposti, il rumore applicato ai pesi può essere interpretato come equivalente a forme di regolarizzazione più tradizionali, favorendo la stabilità della funzione da apprendere.
  • Studiamo il caso della regressione, ovvero dell'addestramento di un insieme di funzionalità x grassetto simbolo{x}Xfunzione mappata su uno scalare y ^ ( x ) hat{y}(simbolo grassetto{x})e^(X)e utilizzare la funzione di costo dei minimi quadrati per misurare il valore di previsione del modello y ^ cappello{y}e^con vero valore aa ...eerrore
    J = E p ( x , y ) [ ( y ^ ( x ) − y ) 2 ] —Formula 1 J=mathbb{E}_{p(x,y)}[(hat{y}(boldsymbol{x} )-y)^2]quadtextbf{dimensione nota a piè di pagina{---Formula 1}}J=EP(X,e)[(e^(X)e)2]formula1
  • Il set di formazione contiene mmMEsempi di annotazioni { ( x ( i ) , y ( i ) ) , … , ( x ( m ) , y ( m ) ) } {(simbolo in grassetto{x}^{(i)},y^{(i)}),punti,(simbolo in grassetto{x}^{(m)},y^{(m)})}{(X(ioo),e(ioo)),,(X(M),e(M))}
  • Assumiamo ora che ad ogni rappresentazione di input venga aggiunta una perturbazione casuale dei pesi della rete ϵ w ∼ N ( ϵ ; 0 , η I ) epsilon_wsimmathcal{N}(simbolo in grassetto{epsilon};0,simbolo in grassetto{I})ϵioN(ϵ;0,ηIOO)Immaginiamo di avere uno standard LLlstrato Testo MLP{MLP}MLP .Indichiamo il modello perturbativo come y ^ ϵ W ( x ) hat{y}_{epsilon_{simbolo in grassetto{W}}}(simbolo in grassetto{x})e^ϵL'(X)
  • Siamo interessati a ridurre il quadrato dell'errore di uscita della rete nonostante l'iniezione di rumore. Pertanto la funzione obiettivo è: { J ^ W = E p ( x , y , ϵ W ) [ ( y ^ ϵ W ( x ) − y ) 2 ] —Formula 2 = E p ( x , y , ϵ W ) [ y ^ ϵ W 2 ( x ) − 2 yy ^ ϵ W ( x ) + y 2 ] —Formula 3 {J^L'=EP(X,e,ϵL')[(e^ϵL'(X)e)2]formula2=EP(X,e,ϵL')[e^ϵL'2(X)2ee^ϵL'(X)+e2]formula3
  • per piccoli etaη, minimizzando il rumore ponderato (la varianza è η I etaboldsymbol{I}ηIOO)Di Il mio nome è J.J.JEquivale a ridurre al minimo il termine aggiuntivo di regolarizzazione J : η E p ( x , y ) [ ∥ ∇ W y ^ ( x ) ∥ 2 ] J:etamathbb{E}_{p(x,y)}sinistra[Vertnabla_{boldsymbol{W}}hat{y}(boldsymbol{x})Vert^2destra]J:ηEP(X,e)[L'e^(X)2]
  • Questa forma di regolarizzazione incoraggia i parametri a entrare in regioni dello spazio dei parametri dove piccole perturbazioni nei pesi hanno un impatto relativamente scarso sull’output. In altre parole, spinge il modello in una regione che è relativamente insensibile a piccoli cambiamenti nei pesi, e i punti trovati non sono solo punti minimi, ma punti minimi circondati da aree pianeggianti (Hochreiter e Schmidhuber, 1995).
  • Nella regressione lineare semplificata (ad esempio, y ^ ( x ) = w ⊤ x + b hat{y}(simbolo in grassetto{x})=simbolo in grassetto{w}^simbolo in grassetto{x}+be^(X)=ioX+B, il termine regolare degenera in: η E p ( x ) [ ∥ x ∥ 2 ] etamathbb{E}_{p(x)}[Vertgrassettosimbolo{x}Vert^2]ηEP(X)[X2], che non ha nulla a che fare con i parametri della funzione, quindi non lo farà J ^ cosa{J}_wJ^ioContribuisce ai gradienti dei parametri del modello.

Iniettare rumore nel target di output

  • La maggior parte dei set di dati aa ...e Ci sono alcuni errori nelle etichette.Quando aa ...eè sbagliato massimizzare log ⁡ p ( y ∣ x ) log p(ymidboldsymbol{x})IoGP(eX)sarebbe dannoso.
  • Un modo per evitare ciò è modellare esplicitamente il rumore sulle etichette.
    • Ad esempio, possiamo supporre che per qualche piccola costante ϵ epsilonϵ, etichetta del set di allenamento aa ...eLa probabilità di avere ragione è 1 − ϵ 1-epsilon1ϵ, qualsiasi altra etichetta possibile potrebbe essere corretta.
    • Questa ipotesi può essere facilmente combinata analiticamente con la funzione di costo senza prelevare esplicitamente campioni rumorosi.
    • Per esempio,levigatura dell'etichetta(livellamento etichetta) in base a ciaoKun'uscita testo softmax{softmax}morbidomaxfunzione, che fa riferimento ad una chiara classificazione 0 0 0E 1 1 1Sostituirlo con ϵ k − 1 stile di visualizzazionefrac{epsilon}{k-1}K1ϵE 1 − ϵ 1-epsilon1ϵ, per regolarizzare il modello.
  • La perdita di entropia incrociata standard può essere utilizzata sull’output di questi obiettivi non esatti.utilizzo testo softmax{softmax}morbidomaxL'apprendimento con massima probabilità di funzioni e obiettivi espliciti potrebbe non convergere mai - testo softmax{softmax}morbidomaxLe funzioni non possono mai veramente prevedere 0 0 0probabilità o 1 1 1 probabilità, quindi continua ad apprendere pesi sempre più grandi, rendendo le previsioni sempre più estreme. L’utilizzo di altre strategie di regolarizzazione come il decadimento del peso può impedirlo. Il label smoothing ha il vantaggio di impedire al modello di perseguire probabilità non ambigue senza ostacolare la corretta classificazione. Questa strategia è stata utilizzata dagli anni ’80 e continua ad avere un posto di rilievo nelle moderne reti neurali (Szegedy et al., 2015).

Riassumere

  • Migliorare la robustezza del rumore nel deep learning è fondamentale per garantire che il modello funzioni stabilmente negli ambienti del mondo reale. Attraverso una serie di mezzi tecnici innovativi, come il miglioramento dei dati, l'addestramento all'iniezione di rumore, l'ottimizzazione della struttura del modello, ecc., possiamo migliorare efficacemente la tolleranza del modello al rumore e l'accuratezza del riconoscimento. Questi sforzi non solo promuovono l’ulteriore sviluppo della tecnologia di deep learning, ma portano anche soluzioni più affidabili ed efficienti per applicazioni pratiche nel riconoscimento vocale, nel riconoscimento delle immagini, nell’elaborazione del linguaggio naturale e in altri campi.
  • In futuro, con l’approfondimento della ricerca e il continuo progresso della tecnologia, abbiamo motivo di credere che la robustezza del rumore dei modelli di deep learning sarà ulteriormente migliorata, portando cambiamenti rivoluzionari in più campi.

Ritorno di contenuti passati

Tecnologia di regolarizzazione nel miglioramento del set di dati di deep learning