2024-07-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Einführung: Wenn wir ein Modell der künstlichen Intelligenz trainieren, passen wir vereinfacht gesagt die Parameter des Modells basierend auf den Daten anDas Modell sagt den gleichen Wert voraus wie unsere Daten .Aber am Anfang war es definitiv anders, also wirVerlustfunktion einführen, verwenden Sie es, um zu berechnen, wie groß der Unterschied ist. Wir können herausfinden, wie groß der Unterschied ist und wie wir die Parameter im Originalmodell anpassen?
Warum! Der Zweck der Anpassung der Parameter des Originalmodells besteht darin, den vorhergesagten Wert mit dem erforderlichen Wert in Einklang zu bringen. Ist es möglich, einen Modellparameter zu finden, der die Lücke zwischen dem berechneten vorhergesagten Wert und dem erforderlichen Wert minimiert? ===》Dies ist das Problem, den Mindestwert zu finden
Im Wesentlichen geht es also darum, den Minimalwert der Verlustfunktion zu ermitteln.
Demontageanleitung:
Ziel: Finden Sie den geeigneten x-Wert, der f(x) minimiert.
Logik
1. Wählen Sie einen beliebigen Punkt x0 und berechnen Sie den Ableitungswert f(x0) an diesem Punkt
2. Entscheiden Sie anhand des Vorzeichens der Ableitung, ob x0 erhöht oder verringert werden soll.Wenn die Ableitung positiv ist, verringern Sie x, denn wenn die Ableitung negativ ist, erhöht sich auch x
3.迭代进行1,2步直到导数为0;或者导数变号了。
Unter welchen Umständen ändert die Ableitung das Vorzeichen?
那就函数的值,之前在减小,现在在增大了,所以导数就会编号,那么最小值就在其中(救赎之道,就在其中)
Gradient: Es kann direkt als Ableitung verstanden werden, beim tiefen Lernen ist es jedoch normalerweise keine Ableitung, dh die Ableitung einer multivariaten Funktion wird abgeleitet.
Zum Beispiel:
Unäre Funktion:
Ursprüngliche Funktion: y=5x^2
Ableitungsfunktion: y= 10x
Das heißt, wenn x=1 ist, beträgt der Ableitungswert 10
Multifunktional
Ternäre Funktion: y=2x^2 + 6z^2 + 7m^3
Ableitungsfunktion (d. h. partielle Ableitungslösung für drei Unbekannte): y={4x,12z,21m^2}
Der Gradient bei [1,1,1] ist [4,12,21] und der Gradient ist ein Vektor
Sie alle leiten Funktionen ab, und Sie können Ableitungen verwenden, um Farbverläufe zu verstehen.
Definition: Der Gradientenabstiegsalgorithmus ist eine Logik, die den Gradienten des Modells anhand der Eingabedaten berechnet und dann die ursprünglichen Gewichtsparameter des Modells durch die Lernrate aktualisiert. Es werden viele Arten von Algorithmen verwendet, die wir vorstellen werden.
Das folgende schematische Diagramm ist das Flussdiagramm des tiefen Lernens, in dem der Wert der Suche nach dem Minimalwertproblem entsprichtVerlustfunktion–>Optimierer–>Modell
1. Je kleiner die Verlustfunktion, desto besser das Modell
2. Das Ziel des Lernens besteht darin, die Verlustfunktion zu minimieren
3. Das Gewicht des Modells beeinflusst die Verlustfunktion
4. Finden Sie das optimale Gewicht durch Gefälleabstieg
Aktualisierte Logik
1. Berechnen Sie den vorhergesagten Wert y1 basierend auf der Eingabe x und dem aktuellen Gewicht des Modells
2. Verwenden Sie die Verlustfunktion, um den Verlust basierend auf y1 und y zu berechnen
3. Berechnen Sie den Gradienten des Modellgewichts basierend auf dem Verlust
4. Verwenden Sie den Gradienten und die Lernrate, um das Gewicht des Modells entsprechend dem Optimierer anzupassen
Update-Methode:
1. Berechnen Sie den Gradienten (Akkumulation) aller Proben zusammen
2. Verwenden Sie jeweils eine Probe, um den stochastischen Gradientenabfall des Gradienten zu berechnen
3. Verwenden Sie jedes Mal n Proben, um den Gradienten (Akkumulation) zu berechnen. Mini-Batch-Gradientenabstieg