Partage de technologie

Algorithme de descente de gradient d'apprentissage profond-PNL (5)

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Introduction à l'algorithme de descente de gradient dans l'apprentissage profond

Problème de recherche minimum

Introduction: Lorsque nous entraînons un modèle d'intelligence artificielle, pour faire simple, nous ajustons les paramètres du modèle en fonction des données afin queLe modèle prédit la même valeur que nos données .Mais c'était définitivement différent au début, alors nousIntroduire la fonction de perte, utilisez-le pour calculer la différence ; nous pouvons découvrir la différence et comment ajuster les paramètres dans le modèle d'origine ?

Pourquoi! Le but de l'ajustement des paramètres du modèle d'origine est de rendre la valeur prédite identique à la valeur requise. Est-il possible de trouver un paramètre de modèle qui minimise l'écart entre la valeur prédite calculée et la valeur requise ? ===》C'est le problème de trouver la valeur minimale

Il s’agit donc essentiellement de trouver la valeur minimale de la fonction de perte.

Trouver mathématiquement la valeur minimale

Insérer la description de l'image ici
Instructions de démontage :
Cible: Trouvez la valeur x appropriée qui minimise f(x).
logique

1. Choisissez n'importe quel point x0 et calculez la valeur dérivée f(x0) à ce point
2. Selon le signe de la dérivée, décidez si x0 doit être augmenté ou diminué ;Si la dérivée est positive, alors diminuez x car à mesure qu'elle augmente, y augmentera également si la dérivée est négative, augmentez x ;
3.迭代进行1,2步直到导数为0;或者导数变号了。
Dans quelles circonstances la dérivée change-t-elle de signe ?
那就函数的值,之前在减小,现在在增大了,所以导数就会编号,那么最小值就在其中(救赎之道,就在其中)

pente

pente: Elle peut être directement comprise comme une dérivée, mais dans l'apprentissage profond, ce n'est généralement pas une dérivée, c'est-à-dire que la dérivée d'une fonction multivariée est dérivée.
Insérer la description de l'image ici
Par exemple:
Fonction unaire :

Fonction d'origine : y=5x^2
Fonction dérivée : y= 10x
Autrement dit, lorsque x = 1, la valeur dérivée est 10

Multifonction

Fonction ternaire : y=2x^2 + 6z^2 + 7m^3
Fonction dérivée (c'est-à-dire solution dérivée partielle pour trois inconnues) : y={4x,12z,21m^2}
Le gradient en [1,1,1] est [4,12,21] et le gradient est un vecteur ;

Ils dérivent tous des fonctions et vous pouvez utiliser des dérivées pour comprendre les dégradés.

algorithme de descente de gradient

Définition: L'algorithme de descente de gradient est une logique qui calcule le gradient du modèle sur les données d'entrée, puis met à jour les paramètres de poids d'origine du modèle grâce au taux d'apprentissage. Il existe de nombreux types d'algorithmes utilisés, que nous présenterons.
Insérer la description de l'image ici

Trouver le problème de la valeur minimale dans le processus d'apprentissage en profondeur

Organigramme global de l'apprentissage profond

Le diagramme schématique suivant est l'organigramme de l'apprentissage profond, dans lequel la valeur de la recherche du problème de valeur minimale correspond àFonction de perte -> Optimiseur -> Modèle
Insérer la description de l'image ici

L'objectif de résoudre la fonction de perte

1. Plus la fonction de perte est petite, meilleur est le modèle.
2. Le but de l'apprentissage est de minimiser la fonction de perte
3. Le poids du modèle affecte la fonction de perte
4. Trouvez le poids optimal grâce à la descente en pente

mise à jour du poids

logique mise à jour

1. Calculez la valeur prédite y1 en fonction de l'entrée x et du poids actuel du modèle
2. Utilisez la fonction de perte pour calculer la perte en fonction de y1 et y
3. Calculer le gradient du poids du modèle en fonction de la perte
4. Utilisez le gradient et le taux d'apprentissage pour ajuster le poids du modèle en fonction de l'optimiseur

Méthode de mise à jour :

1. Tous les échantillons calculent ensemble le gradient (accumulation) Descente du gradient
2. Utilisez un échantillon à la fois pour calculer le gradient Descente du gradient stochastique
3. Utilisez n échantillons à chaque fois pour calculer le gradient (accumulation) Descente de gradient en mini-lots