minhas informações de contato
Correspondência[email protected]
2024-07-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Introdução: Quando treinamos um modelo de inteligência artificial, para simplificar, ajustamos os parâmetros do modelo com base nos dados para queO modelo prevê o mesmo valor que nossos dados .Mas foi definitivamente diferente no começo, então nósIntroduzir função de perda, use-o para calcular quanta diferença existe; podemos descobrir quanta diferença existe e como ajustamos os parâmetros no modelo original?
Por que! O objetivo de ajustar os parâmetros do modelo original é fazer com que o valor previsto seja igual ao valor requerido. É possível encontrar um parâmetro do modelo que minimize a lacuna entre o valor previsto calculado e o valor requerido? ===》Este é o problema de encontrar o valor mínimo
Então, essencialmente, trata-se de encontrar o valor mínimo da função de perda.
Instruções de desmontagem:
Alvo: Encontre o valor x apropriado que minimiza f(x).
lógica
1. Escolha qualquer ponto x0 e calcule o valor da derivada f(x0) neste ponto
2. De acordo com o sinal da derivada, decida se x0 deve ser aumentado ou diminuído;Se a derivada for positiva, então diminua x porque à medida que aumenta, y também aumentará; se a derivada for negativa, aumente x;
3.迭代进行1,2步直到导数为0;或者导数变号了。
Em que circunstâncias a derivada muda de sinal?
那就函数的值,之前在减小,现在在增大了,所以导数就会编号,那么最小值就在其中(救赎之道,就在其中)
gradiente: Pode ser entendido diretamente como uma derivada, mas no aprendizado profundo geralmente não é uma derivada, ou seja, a derivada de uma função multivariada é derivada.
por exemplo:
Função unária:
Função original: y=5x^2
Função derivada: y= 10x
Ou seja, quando x=1, o valor da derivada é 10
Multifuncional
Função ternária: y=2x^2 + 6z^2 + 7m^3
Função derivada (ou seja, solução derivada parcial para três incógnitas): y={4x,12z,21m^2}
O gradiente em [1,1,1] é [4,12,21] e o gradiente é um vetor;
Todos eles derivam funções e você pode usar derivadas para entender gradientes.
Definição: O algoritmo de descida gradiente é uma lógica que calcula o gradiente do modelo nos dados de entrada e, em seguida, atualiza os parâmetros de peso originais do modelo por meio da taxa de aprendizagem. Existem muitos tipos de algoritmos usados, que apresentaremos.
O diagrama esquemático a seguir é o fluxograma do aprendizado profundo, no qual o valor de encontrar o problema de valor mínimo corresponde aFunção de perda–> Otimizador–> Modelo
1. Quanto menor for a função de perda, melhor será o modelo.
2. O objetivo do aprendizado é minimizar a função de perda
3. O peso do modelo afeta a função de perda
4. Encontre o peso ideal por meio da descida gradiente
lógica atualizada
1. Calcule o valor previsto y1 com base na entrada x e no peso atual do modelo
2. Use a função de perda para calcular a perda com base em y1 e y
3. Calcule o gradiente do peso do modelo com base na perda
4. Use gradiente e taxa de aprendizagem para ajustar o peso do modelo de acordo com o otimizador
Método de atualização:
1. Todas as amostras calculam gradiente (acumulação) gradiente descendente juntas
2. Use uma amostra de cada vez para calcular o gradiente Descida do gradiente estocástico
3. Use n amostras de cada vez para calcular o gradiente (acumulação) Descida do gradiente do minilote