le mie informazioni di contatto
Posta[email protected]
2024-07-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Introduzione: Quando addestriamo un modello di intelligenza artificiale, per dirla semplicemente, adattiamo i parametri del modello in base ai dati in modo taleIl modello prevede lo stesso valore dei nostri dati .Ma all'inizio era decisamente diverso, quindi noiIntrodurre la funzione di perdita, usalo per calcolare quanta differenza c'è; possiamo scoprire quanta differenza c'è e come regoliamo i parametri nel modello originale?
Perché! Lo scopo della regolazione dei parametri del modello originale è rendere il valore previsto uguale al valore richiesto. È possibile trovare un parametro del modello che riduca al minimo il divario tra il valore previsto calcolato e il valore richiesto? ===》Questo è il problema di trovare il valore minimo
Quindi essenzialmente si tratta di trovare il valore minimo della funzione di perdita.
Istruzioni per lo smontaggio:
Bersaglio: Trovare il valore x appropriato che minimizzi f(x).
logica
1. Scegli un punto x0 qualsiasi e calcola il valore della derivata f(x0) in questo punto
2. In base al segno della derivata, decidere se x0 deve essere aumentato o diminuito;Se la derivata è positiva, allora diminuisci x perché aumentando, anche y aumenterà; se la derivata è negativa, aumenta x;
3.迭代进行1,2步直到导数为0;或者导数变号了。
In quali circostanze la derivata cambia segno?
那就函数的值,之前在减小,现在在增大了,所以导数就会编号,那么最小值就在其中(救赎之道,就在其中)
pendenza: Può essere inteso direttamente come derivato, ma nel deep learning di solito non è un derivato, ovvero viene derivata la derivata di una funzione multivariata.
Per esempio:
Funzione unaria:
Funzione originale: y=5x^2
Funzione derivativa: y= 10x
Cioè, quando x=1, il valore della derivata è 10
Multifunzione
Funzione ternaria: y=2x^2 + 6z^2 + 7m^3
Funzione derivativa (cioè soluzione della derivata parziale per tre incognite): y={4x,12z,21m^2}
Il gradiente in [1,1,1] è [4,12,21] e il gradiente è un vettore
Tutti derivano funzioni e puoi utilizzare i derivati per comprendere i gradienti.
Definizione: L'algoritmo di discesa del gradiente è una logica che calcola il gradiente del modello sui dati di input, quindi aggiorna i parametri di peso originali del modello attraverso il tasso di apprendimento. Esistono molti tipi di algoritmi utilizzati, che introdurremo.
Il seguente diagramma schematico è il diagramma di flusso del deep learning, in cui corrisponde il valore di trovare il problema del valore minimoFunzione di perdita–>Ottimizzatore–>Modello
1. Quanto più piccola è la funzione di perdita, tanto migliore è il modello
2. L'obiettivo dell'apprendimento è minimizzare la funzione di perdita
3. Il peso del modello influenza la funzione di perdita
4. Trovare il peso ottimale attraverso la discesa in pendenza
logica aggiornata
1. Calcolare il valore previsto y1 in base all'input x e al peso corrente del modello
2. Utilizzare la funzione di perdita per calcolare la perdita in base a y1 e y
3. Calcolare il gradiente del peso del modello in base alla perdita
4. Utilizzare il gradiente e la velocità di apprendimento per regolare il peso del modello in base all'ottimizzatore
Metodo di aggiornamento:
1. Calcolare insieme il gradiente (accumulo) di tutti i campioni
2. Utilizzare un campione alla volta per calcolare la discesa del gradiente stocastico del gradiente
3. Utilizzare n campioni ogni volta per calcolare la discesa del gradiente del mini-batch del gradiente (accumulo).