Algoritmo di discesa del gradiente di deep learning-NLP(5)

Algoritmo di discesa del gradiente di deep learning-NLP (5)

2024-07-12

algoritmo di discesa del gradiente

Introduzione all'algoritmo di discesa del gradiente nel deep learning

Introduzione all'algoritmo di discesa del gradiente nel deep learning

Problema di ricerca minima

Introduzione: Quando addestriamo un modello di intelligenza artificiale, per dirla semplicemente, adattiamo i parametri del modello in base ai dati in modo taleIl modello prevede lo stesso valore dei nostri dati .Ma all'inizio era decisamente diverso, quindi noiIntrodurre la funzione di perdita, usalo per calcolare quanta differenza c'è; possiamo scoprire quanta differenza c'è e come regoliamo i parametri nel modello originale?

Perché! Lo scopo della regolazione dei parametri del modello originale è rendere il valore previsto uguale al valore richiesto. È possibile trovare un parametro del modello che riduca al minimo il divario tra il valore previsto calcolato e il valore richiesto? ===》Questo è il problema di trovare il valore minimo

Quindi essenzialmente si tratta di trovare il valore minimo della funzione di perdita.

Trovare matematicamente il valore minimo

Inserisci qui la descrizione dell'immagine
Istruzioni per lo smontaggio:
Bersaglio: Trovare il valore x appropriato che minimizzi f(x).
logica

1. Scegli un punto x0 qualsiasi e calcola il valore della derivata f(x0) in questo punto
2. In base al segno della derivata, decidere se x0 deve essere aumentato o diminuito;Se la derivata è positiva, allora diminuisci x perché aumentando, anche y aumenterà; se la derivata è negativa, aumenta x;
3.迭代进行1,2步直到导数为0；或者导数变号了。
In quali circostanze la derivata cambia segno?
那就函数的值，之前在减小，现在在增大了，所以导数就会编号，那么最小值就在其中（救赎之道，就在其中）

pendenza

pendenza: Può essere inteso direttamente come derivato, ma nel deep learning di solito non è un derivato, ovvero viene derivata la derivata di una funzione multivariata.
Inserisci qui la descrizione dell'immagine
Per esempio:
Funzione unaria:

Funzione originale: y=5x^2
Funzione derivativa: y= 10x
Cioè, quando x=1, il valore della derivata è 10

Multifunzione

Funzione ternaria: y=2x^2 + 6z^2 + 7m^3
Funzione derivativa (cioè soluzione della derivata parziale per tre incognite): y={4x,12z,21m^2}
Il gradiente in [1,1,1] è [4,12,21] e il gradiente è un vettore

Tutti derivano funzioni e puoi utilizzare i derivati per comprendere i gradienti.

algoritmo di discesa del gradiente

Definizione: L'algoritmo di discesa del gradiente è una logica che calcola il gradiente del modello sui dati di input, quindi aggiorna i parametri di peso originali del modello attraverso il tasso di apprendimento. Esistono molti tipi di algoritmi utilizzati, che introdurremo.
Inserisci qui la descrizione dell'immagine

Trovare il problema del valore minimo nel processo di deep learning

Diagramma di flusso generale del deep learning

Il seguente diagramma schematico è il diagramma di flusso del deep learning, in cui corrisponde il valore di trovare il problema del valore minimoFunzione di perdita–>Ottimizzatore–>Modello
Inserisci qui la descrizione dell'immagine

L'obiettivo di risolvere la funzione di perdita

1. Quanto più piccola è la funzione di perdita, tanto migliore è il modello
2. L'obiettivo dell'apprendimento è minimizzare la funzione di perdita
3. Il peso del modello influenza la funzione di perdita
4. Trovare il peso ottimale attraverso la discesa in pendenza

aggiornamento del peso

logica aggiornata

1. Calcolare il valore previsto y1 in base all'input x e al peso corrente del modello
2. Utilizzare la funzione di perdita per calcolare la perdita in base a y1 e y
3. Calcolare il gradiente del peso del modello in base alla perdita
4. Utilizzare il gradiente e la velocità di apprendimento per regolare il peso del modello in base all'ottimizzatore

Metodo di aggiornamento:

1. Calcolare insieme il gradiente (accumulo) di tutti i campioni
2. Utilizzare un campione alla volta per calcolare la discesa del gradiente stocastico del gradiente
3. Utilizzare n campioni ogni volta per calcolare la discesa del gradiente del mini-batch del gradiente (accumulo).

Condivisione della tecnologia