2024-07-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Introduction: Lorsque nous entraînons un modèle d'intelligence artificielle, pour faire simple, nous ajustons les paramètres du modèle en fonction des données afin queLe modèle prédit la même valeur que nos données .Mais c'était définitivement différent au début, alors nousIntroduire la fonction de perte, utilisez-le pour calculer la différence ; nous pouvons découvrir la différence et comment ajuster les paramètres dans le modèle d'origine ?
Pourquoi! Le but de l'ajustement des paramètres du modèle d'origine est de rendre la valeur prédite identique à la valeur requise. Est-il possible de trouver un paramètre de modèle qui minimise l'écart entre la valeur prédite calculée et la valeur requise ? ===》C'est le problème de trouver la valeur minimale
Il s’agit donc essentiellement de trouver la valeur minimale de la fonction de perte.
Instructions de démontage :
Cible: Trouvez la valeur x appropriée qui minimise f(x).
logique
1. Choisissez n'importe quel point x0 et calculez la valeur dérivée f(x0) à ce point
2. Selon le signe de la dérivée, décidez si x0 doit être augmenté ou diminué ;Si la dérivée est positive, alors diminuez x car à mesure qu'elle augmente, y augmentera également si la dérivée est négative, augmentez x ;
3.迭代进行1,2步直到导数为0;或者导数变号了。
Dans quelles circonstances la dérivée change-t-elle de signe ?
那就函数的值,之前在减小,现在在增大了,所以导数就会编号,那么最小值就在其中(救赎之道,就在其中)
pente: Elle peut être directement comprise comme une dérivée, mais dans l'apprentissage profond, ce n'est généralement pas une dérivée, c'est-à-dire que la dérivée d'une fonction multivariée est dérivée.
Par exemple:
Fonction unaire :
Fonction d'origine : y=5x^2
Fonction dérivée : y= 10x
Autrement dit, lorsque x = 1, la valeur dérivée est 10
Multifonction
Fonction ternaire : y=2x^2 + 6z^2 + 7m^3
Fonction dérivée (c'est-à-dire solution dérivée partielle pour trois inconnues) : y={4x,12z,21m^2}
Le gradient en [1,1,1] est [4,12,21] et le gradient est un vecteur ;
Ils dérivent tous des fonctions et vous pouvez utiliser des dérivées pour comprendre les dégradés.
Définition: L'algorithme de descente de gradient est une logique qui calcule le gradient du modèle sur les données d'entrée, puis met à jour les paramètres de poids d'origine du modèle grâce au taux d'apprentissage. Il existe de nombreux types d'algorithmes utilisés, que nous présenterons.
Le diagramme schématique suivant est l'organigramme de l'apprentissage profond, dans lequel la valeur de la recherche du problème de valeur minimale correspond àFonction de perte -> Optimiseur -> Modèle
1. Plus la fonction de perte est petite, meilleur est le modèle.
2. Le but de l'apprentissage est de minimiser la fonction de perte
3. Le poids du modèle affecte la fonction de perte
4. Trouvez le poids optimal grâce à la descente en pente
logique mise à jour
1. Calculez la valeur prédite y1 en fonction de l'entrée x et du poids actuel du modèle
2. Utilisez la fonction de perte pour calculer la perte en fonction de y1 et y
3. Calculer le gradient du poids du modèle en fonction de la perte
4. Utilisez le gradient et le taux d'apprentissage pour ajuster le poids du modèle en fonction de l'optimiseur
Méthode de mise à jour :
1. Tous les échantillons calculent ensemble le gradient (accumulation) Descente du gradient
2. Utilisez un échantillon à la fois pour calculer le gradient Descente du gradient stochastique
3. Utilisez n échantillons à chaque fois pour calculer le gradient (accumulation) Descente de gradient en mini-lots