Compartir tecnología

Tecnología de regularización en aprendizaje profundo: robustez del ruido

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Prefacio

Con el vigoroso desarrollo del aprendizaje profundo, el rendimiento y la capacidad de generalización de los modelos se han convertido en el foco de los investigadores. Sin embargo, los datos en aplicaciones prácticas suelen ir acompañados de diversos ruidos. Estos ruidos no sólo se originan por limitaciones del hardware en el proceso de adquisición de datos, sino que también pueden ser introducidos por factores como interferencias ambientales y errores de transmisión. La existencia de ruido afecta seriamente el efecto del entrenamiento y la precisión de la predicción de los modelos de aprendizaje profundo, especialmente en tareas como el reconocimiento de voz y la clasificación de imágenes. Por lo tanto, mejorar la robustez del ruido de los modelos de aprendizaje profundo, es decir, mejorar el rendimiento estable del modelo y las capacidades de reconocimiento en entornos ruidosos, se ha convertido en una dirección importante de la investigación actual. Al diseñar algoritmos de preprocesamiento de datos más efectivos, optimizar las estructuras del modelo e introducir entrenamiento mejorado con ruido y otros medios técnicos, se puede mejorar significativamente la resistencia de los modelos de aprendizaje profundo al ruido, promoviendo así su aplicación en escenarios más complejos.

Robustez al ruido

  • existirTecnología de regularización en la mejora del conjunto de datos de aprendizaje profundo han inspirado la aplicación del ruido a la entrada como estrategia de aumento del conjunto de datos. Para algunos modelos, agregar ruido con una variación mínima a la entrada del modelo equivale a agregar una penalización normal a las ponderaciones (Bishop, 1995a,b). En general, la inyección de ruido es mucho más poderosa que simplemente reducir parámetros, especialmente cuando se agrega ruido a unidades ocultas.Agregar ruido a unidades ocultas es un tema importante que merece su propia discusión
  • otroEl ruido se utiliza en un modelo regularizado agregándolo a los pesos. . Esta técnica se utiliza principalmente en redes neuronales recurrentes (Jim et al., 1996; Graves, 2011). Esto puede interpretarse como una implementación estocástica de la inferencia bayesiana sobre los pesos. El uso de un enfoque bayesiano en el proceso de aprendizaje trata los pesos como inciertos, y esta incertidumbre puede representarse mediante una distribución de probabilidad. Agregar ruido a las ponderaciones es una forma estocástica práctica de reflejar esta incertidumbre.
  • Bajo ciertos supuestos, el ruido aplicado a los pesos puede interpretarse como equivalente a formas más tradicionales de regularización, fomentando la estabilidad de la función que se va a aprender.
  • Estudiamos el caso de regresión, es decir, entrenar un conjunto de características. x símbolo en negrita{x}Xfunción asignada a un escalar y ^ ( x ) sombrero{y}(símbolo en negrita{x})y^(X)y utilice la función de costo de mínimos cuadrados para medir el valor de predicción del modelo y ^ sombrero{y}y^con valor verdadero yyyerror
    J = E p ( x , y ) [ ( y ^ ( x ) − y ) 2 ] —Fórmula 1 J=mathbb{E}_{p(x,y)}[(sombrero{y}(boldsymbol{x} )-y)^2]quadtextbf{footnotesize{---Fórmula 1}}Yo=mipagagagagagag(X,y)[(y^(X)y)2]fórmula1
  • El conjunto de entrenamiento contiene mmmetroetroetroEjemplos de anotaciones { ( x ( i ) , y ( i ) ) , … , ( x ( m ) , y ( m ) ) } {(boldsymbol{x}^{(i)},y^{(i)}),puntos,(boldsymbol{x}^{(m)},y^{(m)})}{(X(i),y(i)),,(X(metroetroetro),y(metroetroetro))}
  • Ahora asumimos que en cada representación de entrada se agrega una perturbación aleatoria de los pesos de la red. ϵ w ∼ N ( ϵ ; 0 , η I ) epsilon_wsimmathcal{N}(boldsymbol{epsilon};0,etaboldsymbol{I})ϵelnorte(ϵ;0,ηI)Imaginemos que tenemos un estándar todosyocapa Texto MLP{MLP}MLP .Denotamos el modelo de perturbación como y ^ ϵ W ( x ) sombrero{y}_{epsilon_{boldsymbol{W}}}(boldsymbol{x})y^ϵYo(X)
  • Estamos interesados ​​en reducir el cuadrado del error de salida de la red a pesar de la inyección de ruido. Por tanto la función objetivo es: { J ^ W = E p ( x , y , ϵ W ) [ ( y ^ ϵ W ( x ) − y ) 2 ] —Fórmula 2 = E p ( x , y , ϵ W ) [ y ^ ϵ W 2 ( x ) − 2 yy ^ ϵ W ( x ) + y 2 ] —Fórmula 3 {Yo^Yo=mipagagagagagag(X,y,ϵYo)[(y^ϵYo(X)y)2]fórmula2=mipagagagagagag(X,y,ϵYo)[y^ϵYo2(X)2yy^ϵYo(X)+y2]fórmula3
  • Para pequeños η etaη, minimizando el ruido ponderado (la variación es η I etaboldsymbol{I}ηI)de JJYoEquivale a minimizar el plazo adicional de regularización J : η E p ( x , y ) [ ∥ ∇ W y ^ ( x ) ∥ 2 ] J:etamathbb{E}_{p(x,y)}izquierda[Vertnabla_{boldsymbol{W}}hat{y}(boldsymbol{x})Vert^2derecha]Yo:ηmipagagagagagag(X,y)[Yoy^(X)2]
  • Esta forma de regularización fomenta que los parámetros entren en regiones del espacio de parámetros donde pequeñas perturbaciones en los pesos tienen relativamente poco impacto en la salida. En otras palabras, empuja el modelo a una región que es relativamente insensible a pequeños cambios en los pesos, y los puntos encontrados no son sólo puntos mínimos, sino puntos mínimos rodeados por áreas planas (Hochreiter y Schmidhuber, 1995).
  • En regresión lineal simplificada (por ejemplo, y ^ ( x ) = w ⊤ x + b sombrero{y}(símbolo en negrita{x})=símbolo en negrita{w}^símbolo en negrita{x}+by^(X)=elX+b, el término regular degenera en: η E p ( x ) [ ∥ x ∥ 2 ] etamathbb{E}_{p(x)}[Vertboldsymbol{x}Vert^2]ηmipagagagagagag(X)[X2], que no tiene nada que ver con los parámetros de la función, por lo que no J ^ ¿qué?{J}_wYo^elContribuye a los gradientes de los parámetros del modelo.

Inyectar ruido en el objetivo de salida.

  • La mayoría de los conjuntos de datos yyy Hay algunos errores en las etiquetas.cuando yyyestá mal maximizar log ⁡ p ( y ∣ x ) log p(ymidboldsymbol{x})Logramopagagagagagag(yX)sería perjudicial.
  • Una forma de evitar esto es modelar explícitamente el ruido en las etiquetas.
    • Por ejemplo, podemos suponer que para alguna pequeña constante épsilonϵ, etiqueta del conjunto de entrenamiento yyyLa probabilidad de acertar es 1 − ϵ 1-épsilon1ϵ, cualquier otra etiqueta posible podría ser correcta.
    • Este supuesto se puede combinar fácilmente analíticamente con la función de costos sin tomar explícitamente muestras ruidosas.
    • Por ejemplo,suavizado de etiquetas(suavizado de etiquetas) basado en yoauna salida texto softmax{softmax}Máximo suavefunción, que se refiere a una clasificación clara 0 0 0y 1 1 1Reemplazar con ϵ k − 1 displaystylefrac{épsilon}{k-1}a1ϵy 1 − ϵ 1-épsilon1ϵ, para regularizar el modelo.
  • La pérdida de entropía cruzada estándar se puede utilizar en la salida de estos objetivos no exactos.usar texto softmax{softmax}Máximo suaveEs posible que el aprendizaje de máxima probabilidad de funciones y objetivos explícitos nunca converjan. texto softmax{softmax}Máximo suaveLas funciones nunca pueden predecir realmente 0 0 0probabilidad o 1 1 1 probabilidad, por lo que continúa aprendiendo pesos cada vez mayores, lo que hace que las predicciones sean más extremas. El uso de otras estrategias de regularización, como la disminución de peso, puede evitarlo. El suavizado de etiquetas tiene la ventaja de evitar que el modelo busque probabilidades inequívocas sin obstaculizar la clasificación correcta. Esta estrategia se ha utilizado desde la década de 1980 y sigue ocupando un lugar destacado en las redes neuronales modernas (Szegedy et al., 2015).

Resumir

  • Mejorar la robustez del ruido en el aprendizaje profundo es clave para garantizar que el modelo funcione de manera estable en entornos del mundo real. A través de una serie de medios técnicos innovadores, como mejora de datos, entrenamiento de inyección de ruido, optimización de la estructura del modelo, etc., podemos mejorar efectivamente la tolerancia del modelo al ruido y la precisión del reconocimiento. Estos esfuerzos no solo promueven un mayor desarrollo de la tecnología de aprendizaje profundo, sino que también brindan soluciones más confiables y eficientes para aplicaciones prácticas en reconocimiento de voz, reconocimiento de imágenes, procesamiento del lenguaje natural y otros campos.
  • En el futuro, con la profundización de la investigación y el avance continuo de la tecnología, tenemos razones para creer que la robustez del ruido de los modelos de aprendizaje profundo mejorará aún más, trayendo cambios revolucionarios a más campos.

Devolución de contenido pasado

Tecnología de regularización en la mejora del conjunto de datos de aprendizaje profundo