Deep Learning-Gradient-Descent-Algorithmus-NLP(5)

Deep Learning-Gradient Descent-Algorithmus-NLP (5)

2024-07-12

Gradientenabstiegsalgorithmus

Einführung in den Gradientenabstiegsalgorithmus beim Deep Learning

Einführung in den Gradientenabstiegsalgorithmus beim Deep Learning

Minimales Findungsproblem

Einführung: Wenn wir ein Modell der künstlichen Intelligenz trainieren, passen wir vereinfacht gesagt die Parameter des Modells basierend auf den Daten anDas Modell sagt den gleichen Wert voraus wie unsere Daten .Aber am Anfang war es definitiv anders, also wirVerlustfunktion einführen, verwenden Sie es, um zu berechnen, wie groß der Unterschied ist. Wir können herausfinden, wie groß der Unterschied ist und wie wir die Parameter im Originalmodell anpassen?

Warum! Der Zweck der Anpassung der Parameter des Originalmodells besteht darin, den vorhergesagten Wert mit dem erforderlichen Wert in Einklang zu bringen. Ist es möglich, einen Modellparameter zu finden, der die Lücke zwischen dem berechneten vorhergesagten Wert und dem erforderlichen Wert minimiert? ===》Dies ist das Problem, den Mindestwert zu finden

Im Wesentlichen geht es also darum, den Minimalwert der Verlustfunktion zu ermitteln.

Finden Sie den Mindestwert mathematisch

Fügen Sie hier eine Bildbeschreibung ein
Demontageanleitung:
Ziel: Finden Sie den geeigneten x-Wert, der f(x) minimiert.
Logik

1. Wählen Sie einen beliebigen Punkt x0 und berechnen Sie den Ableitungswert f(x0) an diesem Punkt
2. Entscheiden Sie anhand des Vorzeichens der Ableitung, ob x0 erhöht oder verringert werden soll.Wenn die Ableitung positiv ist, verringern Sie x, denn wenn die Ableitung negativ ist, erhöht sich auch x
3.迭代进行1,2步直到导数为0；或者导数变号了。
Unter welchen Umständen ändert die Ableitung das Vorzeichen?
那就函数的值，之前在减小，现在在增大了，所以导数就会编号，那么最小值就在其中（救赎之道，就在其中）

Gradient

Gradient: Es kann direkt als Ableitung verstanden werden, beim tiefen Lernen ist es jedoch normalerweise keine Ableitung, dh die Ableitung einer multivariaten Funktion wird abgeleitet.
Fügen Sie hier eine Bildbeschreibung ein
Zum Beispiel:
Unäre Funktion:

Ursprüngliche Funktion: y=5x^2
Ableitungsfunktion: y= 10x
Das heißt, wenn x=1 ist, beträgt der Ableitungswert 10

Multifunktional

Ternäre Funktion: y=2x^2 + 6z^2 + 7m^3
Ableitungsfunktion (d. h. partielle Ableitungslösung für drei Unbekannte): y={4x,12z,21m^2}
Der Gradient bei [1,1,1] ist [4,12,21] und der Gradient ist ein Vektor

Sie alle leiten Funktionen ab, und Sie können Ableitungen verwenden, um Farbverläufe zu verstehen.

Gradientenabstiegsalgorithmus

Definition: Der Gradientenabstiegsalgorithmus ist eine Logik, die den Gradienten des Modells anhand der Eingabedaten berechnet und dann die ursprünglichen Gewichtsparameter des Modells durch die Lernrate aktualisiert. Es werden viele Arten von Algorithmen verwendet, die wir vorstellen werden.
Fügen Sie hier eine Bildbeschreibung ein

Finden des Minimalwertproblems im Deep-Learning-Prozess

Gesamtflussdiagramm des Deep Learning

Das folgende schematische Diagramm ist das Flussdiagramm des tiefen Lernens, in dem der Wert der Suche nach dem Minimalwertproblem entsprichtVerlustfunktion–>Optimierer–>Modell
Fügen Sie hier eine Bildbeschreibung ein

Das Ziel ist die Lösung der Verlustfunktion

1. Je kleiner die Verlustfunktion, desto besser das Modell
2. Das Ziel des Lernens besteht darin, die Verlustfunktion zu minimieren
3. Das Gewicht des Modells beeinflusst die Verlustfunktion
4. Finden Sie das optimale Gewicht durch Gefälleabstieg

Gewichtsaktualisierung

Aktualisierte Logik

1. Berechnen Sie den vorhergesagten Wert y1 basierend auf der Eingabe x und dem aktuellen Gewicht des Modells
2. Verwenden Sie die Verlustfunktion, um den Verlust basierend auf y1 und y zu berechnen
3. Berechnen Sie den Gradienten des Modellgewichts basierend auf dem Verlust
4. Verwenden Sie den Gradienten und die Lernrate, um das Gewicht des Modells entsprechend dem Optimierer anzupassen

Update-Methode:

1. Berechnen Sie den Gradienten (Akkumulation) aller Proben zusammen
2. Verwenden Sie jeweils eine Probe, um den stochastischen Gradientenabfall des Gradienten zu berechnen
3. Verwenden Sie jedes Mal n Proben, um den Gradienten (Akkumulation) zu berechnen. Mini-Batch-Gradientenabstieg

Technologieaustausch