Compartir tecnología

Algoritmo de descenso de gradiente de aprendizaje profundo-NLP (5)

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Introducción al algoritmo de descenso de gradiente en el aprendizaje profundo

Problema de búsqueda mínima

Introducción: Cuando entrenamos un modelo de inteligencia artificial, en pocas palabras, ajustamos los parámetros del modelo en función de los datos para queEl modelo predice el mismo valor que nuestros datos. .Pero definitivamente fue diferente al principio, así queIntroducir la función de pérdida, Úselo para calcular cuánta diferencia hay, podemos averiguar cuánta diferencia hay y ¿cómo ajustamos los parámetros en el modelo original?

¡Por qué! El propósito de ajustar los parámetros del modelo original es hacer que el valor predicho sea el mismo que el valor requerido. ¿Es posible encontrar un parámetro del modelo que minimice la brecha entre el valor previsto calculado y el valor requerido? ===》Este es el problema de encontrar el valor mínimo.

Básicamente, se trata de encontrar el valor mínimo de la función de pérdida.

Encuentra el valor mínimo matemáticamente

Insertar descripción de la imagen aquí
Instrucciones de desmontaje:
Objetivo: Encuentre el valor de x apropiado que minimice f(x).
lógica

1. Elija cualquier punto x0 y calcule el valor de la derivada f(x0) en este punto
2. Según el signo de la derivada, decida si x0 debe aumentarse o disminuirse;Si la derivada es positiva, entonces disminuye x porque a medida que aumenta, y también aumentará si la derivada es negativa, aumenta x;
3.迭代进行1,2步直到导数为0;或者导数变号了。
¿En qué circunstancias cambia de signo la derivada?
那就函数的值,之前在减小,现在在增大了,所以导数就会编号,那么最小值就在其中(救赎之道,就在其中)

degradado

degradado: Puede entenderse directamente como una derivada, pero en el aprendizaje profundo, generalmente no es una derivada, es decir, la derivada de una función multivariada.
Insertar descripción de la imagen aquí
Por ejemplo:
Función unaria:

Función original: y=5x^2
Función derivada: y= 10x
Es decir, cuando x=1, el valor de la derivada es 10

Multifunción

Función ternaria: y=2x^2 + 6z^2 + 7m^3
Función derivada (es decir, solución derivada parcial para tres números desconocidos): y={4x,12z,21m^2}
El gradiente en [1,1,1] es [4,12,21] y el gradiente es un vector;

Todos derivan funciones y puedes usar derivadas para comprender los gradientes.

algoritmo de descenso de gradiente

Definición: El algoritmo de descenso de gradiente es una lógica que calcula el gradiente del modelo en los datos de entrada y luego actualiza los parámetros de peso originales del modelo a través de la tasa de aprendizaje. Se utilizan muchos tipos de algoritmos, que presentaremos.
Insertar descripción de la imagen aquí

Encontrar el problema de valor mínimo en el proceso de aprendizaje profundo

Diagrama de flujo general del aprendizaje profundo

El siguiente diagrama esquemático es el diagrama de flujo del aprendizaje profundo, en el que el valor de encontrar el problema de valor mínimo corresponde aFunción de pérdida–>Optimizador–>Modelo
Insertar descripción de la imagen aquí

El objetivo de resolver la función de pérdida.

1. Cuanto menor sea la función de pérdida, mejor será el modelo.
2. El objetivo del aprendizaje es minimizar la función de pérdida.
3. El peso del modelo afecta la función de pérdida.
4. Encuentre el peso óptimo mediante el descenso en gradiente.

actualización de peso

lógica actualizada

1. Calcule el valor predicho y1 en función de la entrada x y el peso actual del modelo.
2. Utilice la función de pérdida para calcular la pérdida en función de y1 e y
3. Calcule el gradiente del peso del modelo en función de la pérdida.
4. Utilice gradiente y tasa de aprendizaje para ajustar el peso del modelo según el optimizador.

Método de actualización:

1. Todas las muestras calculan el descenso del gradiente (acumulación) juntas
2. Utilice una muestra a la vez para calcular el gradiente. Descenso del gradiente estocástico
3. Utilice n muestras cada vez para calcular el gradiente (acumulación) Descenso de gradiente de mini lotes