Partage de technologie

Technologie de régularisation dans le Deep Learning - Robustesse au bruit

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Préface

Avec le développement vigoureux de l’apprentissage profond, les performances et la capacité de généralisation des modèles sont devenues au centre des préoccupations des chercheurs. Cependant, les données dans les applications pratiques sont souvent accompagnées de divers bruits. Ces bruits proviennent non seulement de limitations matérielles dans le processus d'acquisition de données, mais peuvent également être introduits par des facteurs tels que des interférences environnementales et des erreurs de transmission. L’existence de bruit affecte sérieusement l’effet d’entraînement et la précision des prédictions des modèles d’apprentissage profond, en particulier dans des tâches telles que la reconnaissance vocale et la classification d’images. Par conséquent, l’amélioration de la robustesse au bruit des modèles d’apprentissage profond, c’est-à-dire l’amélioration des performances stables et des capacités de reconnaissance du modèle dans des environnements bruyants, est devenue une direction importante de la recherche actuelle. En concevant des algorithmes de prétraitement des données plus efficaces, en optimisant les structures des modèles et en introduisant une formation améliorée par le bruit et d'autres moyens techniques, la résistance des modèles d'apprentissage profond au bruit peut être considérablement améliorée, favorisant ainsi son application dans des scénarios plus complexes.

Robustesse au bruit

  • existerTechnologie de régularisation dans l'amélioration des ensembles de données d'apprentissage en profondeur ont inspiré l’application du bruit à l’entrée en tant que stratégie d’augmentation des ensembles de données. Pour certains modèles, ajouter du bruit avec une variance minimale à l'entrée du modèle équivaut à ajouter une pénalité normative aux poids (Bishop, 1995a,b). En général, l’injection de bruit est bien plus puissante que la simple réduction de paramètres, en particulier lorsque du bruit est ajouté à des unités cachées.L'ajout de bruit aux unités cachées est un sujet important qui mérite sa propre discussion
  • un autreLe bruit est utilisé dans un modèle régularisé en l'ajoutant aux poids . Cette technique est principalement utilisée dans les réseaux de neurones récurrents (Jim et al., 1996 ; Graves, 2011). Cela peut être interprété comme une implémentation stochastique de l’inférence bayésienne sur les poids. L'utilisation d'une approche bayésienne du processus d'apprentissage traite les poids comme incertains, et cette incertitude peut être représentée par une distribution de probabilité. L'ajout de bruit aux poids est un moyen stochastique pratique de refléter cette incertitude.
  • Sous certaines hypothèses, le bruit appliqué aux poids peut être interprété comme équivalent à des formes de régularisation plus traditionnelles, favorisant la stabilité de la fonction à apprendre.
  • Nous étudions le cas de la régression, c'est-à-dire l'entraînement d'un ensemble de fonctionnalités x symbole gras {x}Xfonction mappée à un scalaire y ^ ( x ) chapeau{y}(symbole gras{x})et^(X), et utilisez la fonction de coût des moindres carrés pour mesurer la valeur de prédiction du modèle y ^ chapeau{y}et^avec une vraie valeur ouaiseterreur
    J = E p ( X , y ) [ ( y ^ ( x ) − y ) 2 ] —Formule 1 J=mathbb{E}_{p(x,y)}[(hat{y}(boldsymbol{x} )-y)^2]quadtextbf{footnotesize{---Formule 1}}J=Ep(X,et)[(et^(X)et)2]formule1
  • L'ensemble de formation contient mmmExemples d'annotations { ( x ( i ) , y ( i ) ) , … , ( x ( m ) , y ( m ) ) } {(symbole gras{x}^{(i)},y^{(i)}),points,(symbole gras{x}^{(m)},y^{(m)})}{(X(je),et(je)),,(X(m),et(m))}
  • Nous supposons maintenant que l'ajout d'une perturbation aléatoire des poids du réseau sur chaque représentation d'entrée ϵ w ∼ N ( ϵ ; 0 , η I ) epsilon_wsimmathcal{N}(boldsymbol{epsilon};0,etaboldsymbol{I})ϵmN(ϵ;0,ηje)Imaginez que nous ayons une norme lllcouche Texte MLP {MLP}MLP .Nous désignons le modèle de perturbation par y ^ ϵ W ( x ) hat{y}_{epsilon_{boldsymbol{W}}}(boldsymbol{x})et^ϵL(X)
  • Nous souhaitons réduire le carré de l’erreur de sortie du réseau malgré l’injection de bruit. La fonction objectif est donc : { J ^ W = E p ( X , y , ϵ W ) [ ( y ^ ϵ W ( x ) − y ) 2 ] —Formule 2 = E p ( X , y , ϵ W ) [ y ^ ϵ W 2 ( x ) − 2 yy ^ ϵ W ( x ) + y 2 ] —Formule 3 {J^L=Ep(X,et,ϵL)[(et^ϵL(X)et)2]formule2=Ep(X,et,ϵL)[et^ϵL2(X)2etet^ϵL(X)+et2]formule3
  • pour les petits η etaη, minimisant le bruit pondéré (la variance est η I estaboldsymbol{I}ηje)de JJJÉquivalent à minimiser la durée supplémentaire de régularisation J : η E p ( x , y ) [ ∥ ∇ W y ^ ( x ) ∥ 2 ] J:etamathbb{E}_{p(x,y)}gauche[Vertnabla_{boldsymbol{W}}hat{y}(boldsymbol{x})Vert^2droite]J:ηEp(X,et)[Let^(X)2]
  • Cette forme de régularisation encourage les paramètres à entrer dans des régions de l'espace des paramètres où de petites perturbations dans les poids ont relativement peu d'impact sur le résultat. En d’autres termes, cela pousse le modèle dans une région relativement insensible aux petits changements de poids, et les points trouvés ne sont pas seulement des points minimaux, mais des points minimaux entourés de zones plates (Hochreiter et Schmidhuber, 1995).
  • Dans la régression linéaire simplifiée (par exemple, y ^ ( x ) = w ⊤ x + b chapeau{y}(symbole gras{x})=symbole gras{w}^hautsymbole gras{x}+bet^(X)=mX+b, le terme régulier dégénère en : η E p ( x ) [ ∥ x ∥ 2 ] etamathbb{E}_{p(x)}[Vertboldsymbol{x}Vert^2]ηEp(X)[X2], ce qui n'a rien à voir avec les paramètres de la fonction, donc ça ne sera pas J ^ quoi{J}_wJ^mContribue au gradient des paramètres du modèle.

Injecter du bruit dans la cible de sortie

  • La plupart des ensembles de données ouaiset Il y a quelques erreurs dans les étiquettes.quand ouaisetc'est mal de maximiser log ⁡ p ( y ∣ x ) log p(ymidboldsymbol{x})logp(etX)serait nuisible.
  • Une façon d’éviter cela consiste à modéliser explicitement le bruit sur les étiquettes.
    • Par exemple, nous pouvons supposer que pour une petite constante ϵ epsilonϵ, étiquette de l'ensemble de formation ouaisetLa probabilité d'avoir raison est 1 − ϵ 1-epsilon1ϵ, toute autre étiquette possible pourrait être correcte.
    • Cette hypothèse peut facilement être combinée analytiquement avec la fonction de coût sans prendre explicitement d’échantillons bruités.
    • Par exemple,lissage des étiquettes(lissage des étiquettes) basé sur kkune sortie texte softmax{softmax}Softmaxfonction, qui fait référence à une classification claire 0 0 0et 1 1 1Remplacer par ϵ k − 1 displaystylefrac{epsilon}{k-1}k1ϵet 1 − ϵ 1-epsilon1ϵ, pour régulariser le modèle.
  • La perte d'entropie croisée standard peut être utilisée sur la sortie de ces cibles non exactes.utiliser texte softmax{softmax}SoftmaxL'apprentissage du maximum de vraisemblance des fonctions et des objectifs explicites peut ne jamais converger - texte softmax{softmax}SoftmaxLes fonctions ne peuvent jamais vraiment prédire 0 0 0probabilité ou 1 1 1 probabilité, il continue donc à apprendre des poids de plus en plus grands, rendant les prédictions plus extrêmes. L’utilisation d’autres stratégies de régularisation telles que la perte de poids peut empêcher cela. Le lissage des étiquettes présente l’avantage d’empêcher le modèle de rechercher des probabilités sans ambiguïté sans entraver une classification correcte. Cette stratégie est utilisée depuis les années 1980 et continue de figurer en bonne place dans les réseaux de neurones modernes (Szegedy et al., 2015).

Résumer

  • L'amélioration de la robustesse au bruit dans l'apprentissage profond est essentielle pour garantir que le modèle fonctionne de manière stable dans des environnements réels. Grâce à une série de moyens techniques innovants, tels que l'amélioration des données, la formation à l'injection de bruit, l'optimisation de la structure du modèle, etc., nous pouvons améliorer efficacement la tolérance du modèle au bruit et la précision de la reconnaissance. Ces efforts favorisent non seulement le développement ultérieur de la technologie d'apprentissage profond, mais apportent également des solutions plus fiables et plus efficaces aux applications pratiques dans les domaines de la reconnaissance vocale, de la reconnaissance d'images, du traitement du langage naturel et d'autres domaines.
  • À l’avenir, avec l’approfondissement de la recherche et les progrès continus de la technologie, nous avons des raisons de croire que la robustesse au bruit des modèles d’apprentissage profond sera encore améliorée, apportant des changements révolutionnaires dans davantage de domaines.

Retour du contenu passé

Technologie de régularisation dans l'amélioration des ensembles de données d'apprentissage en profondeur