Algoritmo de descida gradiente de aprendizado profundo-PNL (5)

2024-07-12

algoritmo de descida gradiente

Introdução ao algoritmo de descida gradiente em aprendizagem profunda

Introdução ao algoritmo de descida gradiente em aprendizagem profunda

Problema mínimo de localização

Introdução: Quando treinamos um modelo de inteligência artificial, para simplificar, ajustamos os parâmetros do modelo com base nos dados para queO modelo prevê o mesmo valor que nossos dados .Mas foi definitivamente diferente no começo, então nósIntroduzir função de perda, use-o para calcular quanta diferença existe; podemos descobrir quanta diferença existe e como ajustamos os parâmetros no modelo original?

Por que! O objetivo de ajustar os parâmetros do modelo original é fazer com que o valor previsto seja igual ao valor requerido. É possível encontrar um parâmetro do modelo que minimize a lacuna entre o valor previsto calculado e o valor requerido? ===》Este é o problema de encontrar o valor mínimo

Então, essencialmente, trata-se de encontrar o valor mínimo da função de perda.

Encontre o valor mínimo matematicamente

Insira a descrição da imagem aqui
Instruções de desmontagem:
Alvo: Encontre o valor x apropriado que minimiza f(x).
lógica

1. Escolha qualquer ponto x0 e calcule o valor da derivada f(x0) neste ponto
2. De acordo com o sinal da derivada, decida se x0 deve ser aumentado ou diminuído;Se a derivada for positiva, então diminua x porque à medida que aumenta, y também aumentará; se a derivada for negativa, aumente x;
3.迭代进行1,2步直到导数为0；或者导数变号了。
Em que circunstâncias a derivada muda de sinal?
那就函数的值，之前在减小，现在在增大了，所以导数就会编号，那么最小值就在其中（救赎之道，就在其中）

gradiente

gradiente: Pode ser entendido diretamente como uma derivada, mas no aprendizado profundo geralmente não é uma derivada, ou seja, a derivada de uma função multivariada é derivada.
Insira a descrição da imagem aqui
por exemplo:
Função unária:

Função original: y=5x^2
Função derivada: y= 10x
Ou seja, quando x=1, o valor da derivada é 10

Multifuncional

Função ternária: y=2x^2 + 6z^2 + 7m^3
Função derivada (ou seja, solução derivada parcial para três incógnitas): y={4x,12z,21m^2}
O gradiente em [1,1,1] é [4,12,21] e o gradiente é um vetor;

Todos eles derivam funções e você pode usar derivadas para entender gradientes.

algoritmo de descida gradiente

Definição: O algoritmo de descida gradiente é uma lógica que calcula o gradiente do modelo nos dados de entrada e, em seguida, atualiza os parâmetros de peso originais do modelo por meio da taxa de aprendizagem. Existem muitos tipos de algoritmos usados, que apresentaremos.
Insira a descrição da imagem aqui

Encontrando o problema de valor mínimo no processo de aprendizagem profunda

Fluxograma geral de aprendizagem profunda

O diagrama esquemático a seguir é o fluxograma do aprendizado profundo, no qual o valor de encontrar o problema de valor mínimo corresponde aFunção de perda–> Otimizador–> Modelo
Insira a descrição da imagem aqui

O objetivo de resolver a função de perda

1. Quanto menor for a função de perda, melhor será o modelo.
2. O objetivo do aprendizado é minimizar a função de perda
3. O peso do modelo afeta a função de perda
4. Encontre o peso ideal por meio da descida gradiente

atualização de peso

lógica atualizada

1. Calcule o valor previsto y1 com base na entrada x e no peso atual do modelo
2. Use a função de perda para calcular a perda com base em y1 e y
3. Calcule o gradiente do peso do modelo com base na perda
4. Use gradiente e taxa de aprendizagem para ajustar o peso do modelo de acordo com o otimizador

Método de atualização:

1. Todas as amostras calculam gradiente (acumulação) gradiente descendente juntas
2. Use uma amostra de cada vez para calcular o gradiente Descida do gradiente estocástico
3. Use n amostras de cada vez para calcular o gradiente (acumulação) Descida do gradiente do minilote

Compartilhamento de tecnologia