Regularisierungstechnologie in Deep Learning – Noise Robustness

Regularisierungstechnologie im Deep Learning – Rauschrobustheit

2024-07-12

Vorwort

Mit der rasanten Entwicklung des Deep Learning sind die Leistung und die Generalisierungsfähigkeit von Modellen in den Fokus der Forscher gerückt. Allerdings gehen Daten in praktischen Anwendungen häufig mit verschiedenen Störungen einher. Diese Störungen sind nicht nur auf Hardwareeinschränkungen im Datenerfassungsprozess zurückzuführen, sondern können auch durch Faktoren wie Umgebungsstörungen und Übertragungsfehler verursacht werden. Das Vorhandensein von Rauschen beeinträchtigt den Trainingseffekt und die Vorhersagegenauigkeit von Deep-Learning-Modellen erheblich, insbesondere bei Aufgaben wie Spracherkennung und Bildklassifizierung. Daher ist die Verbesserung der Rauschrobustheit von Deep-Learning-Modellen, also die Verbesserung der stabilen Leistung und Erkennungsfähigkeit des Modells in verrauschten Umgebungen, zu einer wichtigen Richtung der aktuellen Forschung geworden. Durch die Entwicklung effektiverer Datenvorverarbeitungsalgorithmen, die Optimierung von Modellstrukturen und die Einführung von rauschunterstütztem Training und anderen technischen Mitteln kann die Widerstandsfähigkeit von Deep-Learning-Modellen gegenüber Rauschen erheblich verbessert und so ihre Anwendung in komplexeren Szenarien gefördert werden.

Robustheit gegenüber Geräuschen

existierenRegularisierungstechnologie zur Erweiterung von Deep-Learning-Datensätzen haben die Anwendung von Rauschen auf Eingaben als Strategie zur Datensatzerweiterung inspiriert. Bei einigen Modellen ist das Hinzufügen von Rauschen mit minimaler Varianz zur Eingabe des Modells gleichbedeutend mit dem Hinzufügen einer Normstrafe zu den Gewichten (Bishop, 1995a,b). Im Allgemeinen ist die Rauschinjektion weitaus leistungsfähiger als das bloße Verkleinern von Parametern, insbesondere wenn Rauschen zu versteckten Einheiten hinzugefügt wird.Das Hinzufügen von Lärm zu versteckten Einheiten ist ein wichtiges Thema, das einer eigenen Diskussion würdig ist。
ein andererRauschen wird in einem regulierten Modell verwendet, indem es zu den Gewichten addiert wird . Diese Technik wird hauptsächlich in wiederkehrenden neuronalen Netzen verwendet (Jim et al., 1996; Graves, 2011). Dies kann als stochastische Implementierung der Bayes'schen Folgerung über die Gewichte interpretiert werden. Bei Verwendung eines Bayes'schen Ansatzes für den Lernprozess werden die Gewichte als unsicher behandelt, und diese Unsicherheit kann durch eine Wahrscheinlichkeitsverteilung dargestellt werden. Das Hinzufügen von Rauschen zu den Gewichten ist eine praktische stochastische Möglichkeit, diese Unsicherheit widerzuspiegeln.
Unter bestimmten Annahmen kann das auf die Gewichte angewendete Rauschen als Äquivalent zu traditionelleren Formen der Regularisierung interpretiert werden, was die Stabilität der zu erlernenden Funktion fördert.
Wir untersuchen den Fall der Regression, also des Trainierens einer Reihe von Merkmalen $X$ Funktion, die einem Skalar zugeordnet ist $y ^ ( x ) hat{y}(fettes Symbol{x})$ und verwenden Sie die Kostenfunktion der kleinsten Quadrate, um den Modellvorhersagewert zu messen $y ^ Hut{y}$ mit wahrem Wert $j$ Fehler：
$J=mathbb{E}_{p(x,y)}[(hat{y}(boldsymbol{x} )-y)^2]quadtextbf{footnotesize{---Formel 1}}$
Das Trainingsset enthält $M$ Anmerkungsbeispiele ${(boldsymbol{x}^{(i)},y^{(i)}),dots,(boldsymbol{x}^{(m)},y^{(m)})}$
Nun gehen wir davon aus, dass zu jeder Eingabedarstellung eine zufällige Störung der Netzwerkgewichte hinzugefügt wird $epsilon_wsimmathcal{N}(boldsymbol{epsilon};0,etaboldsymbol{I})$ Stellen Sie sich vor, wir haben einen Standard $m$ Schicht $MLP$ .Wir bezeichnen das Störungsmodell als $hat{y}_{epsilon_{boldsymbol{W}}}(boldsymbol{x})$ 。
Wir sind daran interessiert, das Quadrat des Netzwerkausgangsfehlers trotz Rauschinjektion zu reduzieren. Daher ist die Zielfunktion: $begin{cases}begin{aligned}hat{J}_{boldsymbol{W}}&=mathbb{E}_p(boldsymbol{x},y,epsilon_{boldsymbol{W}})[(hat{y}_{epsilon_{boldsymbol{W}}}(boldsymbol{x})-y)^2]quadtextbf{footnotesize{---公式2}}\&=mathbb{E}_p(boldsymbol{x},y,epsilon_{boldsymbol{W}})[hat{y}_{epsilon_{boldsymbol{W}}}^2(boldsymbol{x})-2yhat{y}_{epsilon_{boldsymbol{W}}}(boldsymbol{x})+y^2]quadtextbf{footnotesize{---公式3}}end{aligned}end{cases}$
für klein $η$ , Minimierung des gewichteten Rauschens (Varianz ist $η ICHCH$ )von $J$ Entspricht der Minimierung des zusätzlichen Regularisierungsterms $J:etamathbb{E}_{p(x,y)}left[Vertnabla_{boldsymbol{W}}hat{y}(boldsymbol{x})Vert^2right]$ 。
Diese Form der Regularisierung ermutigt Parameter, in Bereiche des Parameterraums einzutreten, in denen kleine Störungen der Gewichte relativ geringe Auswirkungen auf die Ausgabe haben. Mit anderen Worten: Es verschiebt das Modell in einen Bereich, der relativ unempfindlich gegenüber kleinen Gewichtsänderungen ist, und die gefundenen Punkte sind nicht nur Minimalpunkte, sondern Minimalpunkte, die von flachen Bereichen umgeben sind (Hochreiter und Schmidhuber, 1995).
Bei der vereinfachten linearen Regression (z. B. $hat{y}(boldsymbol{x})=boldsymbol{w}^topboldsymbol{x}+b$ , der reguläre Begriff degeneriert zu: $etamathbb{E}_{p(x)}[Vertboldsymbol{x}Vert^2]$ , was nichts mit den Parametern der Funktion zu tun hat, also auch nicht $was{J}_w$ Trägt zu den Gradienten der Modellparameter bei.

Injizieren Sie Rauschen in das Ausgabeziel

Die meisten Datensätze $j$ Es gibt einige Fehler in den Etiketten.Wann $j$ Es ist falsch zu maximieren $oh G P (j ∣ X)$ wäre schädlich.
Eine Möglichkeit, dies zu verhindern, besteht darin, das Rauschen explizit auf den Etiketten zu modellieren.
- Das können wir zum Beispiel für eine kleine Konstante annehmen $ϵ$ , Trainingsset-Label $j$ Die Wahrscheinlichkeit, richtig zu liegen, beträgt $1 - ϵ$ , jede andere mögliche Bezeichnung könnte korrekt sein.
- Diese Annahme lässt sich leicht analytisch mit der Kostenfunktion kombinieren, ohne explizit verrauschte Stichproben zu nehmen.
- Zum Beispiel,Etikettenglättung(Etikettenglättung) basierend auf $k$ eine Ausgabe $Softmax$ Funktion, die sich auf eine eindeutige Klassifizierung bezieht $0$ Und $1$ Ersetzen mit $ϵ k − 1 displaystylefrac{epsilon}{k-1}$ Und $1 - ϵ$ , um das Modell zu regulieren.
Bei der Ausgabe dieser nicht genauen Ziele kann der Standard-Kreuzentropieverlust verwendet werden.verwenden $Softmax$ Das Maximum-Likelihood-Lernen von Funktionen und expliziten Zielen konvergiert möglicherweise nie - $Softmax$ Funktionen können nie wirklich vorhersagen $0$ Wahrscheinlichkeit oder $1$ Wahrscheinlichkeit, sodass immer größere Gewichte gelernt werden, wodurch die Vorhersagen extremer werden. Der Einsatz anderer Regularisierungsstrategien wie Gewichtsabnahme kann dies verhindern. Die Etikettenglättung hat den Vorteil, dass sie verhindert, dass das Modell eindeutige Wahrscheinlichkeiten anstrebt, ohne die korrekte Klassifizierung zu beeinträchtigen. Diese Strategie wird seit den 1980er Jahren verwendet und spielt in modernen neuronalen Netzen weiterhin eine herausragende Rolle (Szegedy et al., 2015).

Zusammenfassen

Die Verbesserung der Rauschrobustheit beim Deep Learning ist der Schlüssel, um sicherzustellen, dass das Modell in realen Umgebungen stabil funktioniert. Durch eine Reihe innovativer technischer Mittel wie Datenverbesserung, Rauschinjektionstraining, Modellstrukturoptimierung usw. können wir die Rauschtoleranz und Erkennungsgenauigkeit des Modells effektiv verbessern. Diese Bemühungen fördern nicht nur die Weiterentwicklung der Deep-Learning-Technologie, sondern bringen auch zuverlässigere und effizientere Lösungen für praktische Anwendungen in der Spracherkennung, Bilderkennung, Verarbeitung natürlicher Sprache und anderen Bereichen.
Mit der Vertiefung der Forschung und der kontinuierlichen Weiterentwicklung der Technologie haben wir Grund zu der Annahme, dass die Rauschrobustheit von Deep-Learning-Modellen in Zukunft weiter verbessert wird, was zu revolutionären Veränderungen in mehr Bereichen führen wird.

Rückkehr früherer Inhalte

Regularisierungstechnologie zur Erweiterung von Deep-Learning-Datensätzen

Technologieaustausch