[Deep Learning] Bases du modèle graphique (7) : méthode de réduction de la variance dans l'optimisation de l'apprentissage automatique (1)

2024-07-12

Résumé

L'optimisation stochastique est un composant essentiel de l'apprentissage automatique et se trouve à la base de l'algorithme de descente de gradient stochastique (SGD), une méthode largement utilisée depuis sa première proposition il y a plus de 60 ans. Au cours des huit dernières années, nous avons assisté à un nouveau développement passionnant : les techniques de réduction de la variance pour les méthodes d’optimisation stochastique. Ces méthodes de réduction de la variance (méthodes VR) fonctionnent bien dans des scénarios qui permettent plusieurs itérations des données d'entraînement, montrant une convergence plus rapide que SGD, à la fois en théorie et en pratique. Cette augmentation de la vitesse met en évidence l’intérêt croissant pour les méthodes VR et l’accumulation rapide des résultats de recherche dans ce domaine. Cet article passe en revue les principes clés et les avancées majeures des méthodes VR pour l’optimisation d’ensembles de données limités, dans le but d’informer les lecteurs non experts. Nous nous concentrons principalement sur les environnements d'optimisation convexes et fournissons une référence aux lecteurs intéressés par les extensions à la minimisation des fonctions non convexes.

Mots clés Apprentissage automatique ; optimisation ;

1. Introduction

Dans le domaine de la recherche sur l’apprentissage automatique, une question fondamentale et importante est de savoir comment adapter le modèle à un vaste ensemble de données. Par exemple, on peut considérer le cas typique d’un modèle des moindres carrés linéaires :

$x^* dans argmin_{x dans mathbb{R}^d} frac{1}{n} somme_{i=1}^{n} (a_i^T x - b_i)^2$

Dans ce modèle nous avons $d$ paramètres, qui sont représentés par des vecteurs $mathbb{R}^d$ donné.En attendant, nous avons sous la main $n$ points de données, y compris les vecteurs de caractéristiques $a_i dans mathbb{R}^d$ et valeur cible $b_i dans mathbb{R}$ .Le processus d'adaptation du modèle consiste à ajuster ces paramètres afin que la sortie prévue du modèle $a_i^T x$ en moyenne aussi proche que possible de la valeur cible $b_i$ 。

Plus largement, nous pourrions utiliser une fonction de perte $f_i(x)$ Pour mesurer les prédictions du modèle et les $je$ À quel point les points de données sont proches :

$x^* dans argmin_{x dans mathbb{R}^d} f(x) := frac{1}{n} somme_{i=1}^{n} f_i(x)$

fonction de perte $f_i(x)$ S'il est plus grand, cela indique que les prédictions du modèle s'écartent considérablement des données ; $f_i(x)$ Égal à zéro, le modèle s’adapte parfaitement aux points de données.fonction $F (X)$ Reflète la perte moyenne du modèle sur l'ensemble des données.

Les problèmes comme la forme (2) ci-dessus s'appliquent non seulement aux problèmes des moindres carrés linéaires, mais également à de nombreux autres modèles étudiés en apprentissage automatique. Par exemple, dans un modèle de régression logistique, nous résolvons :

$x^* dans argmin_{x dans mathbb{R}^d} frac{1}{n} somme_{i=1}^{n} log(1 + e^{-b_i a_i^T x}) + frac{lambda}{2} |x|_2^2$

Ici, nous avons affaire à $b_i dans {-1, +1}$ Pour un problème de classification binaire, la prédiction est basée sur $a_i^T x$ symboles.Un terme de régularisation est également introduit dans la formule $|x|_2^2$ pour éviter de surajuster les données, où $x|_2^2$ exprimer $X$ Le carré de la norme euclidienne de .

Dans la plupart des modèles d'apprentissage supervisé, le processus de formation peut être exprimé sous la forme (2), comprenant les moindres carrés régularisés L1, la machine à vecteurs de support (SVM), l'analyse en composantes principales, les champs aléatoires conditionnels et les réseaux de neurones profonds, etc.

Un défi clé dans les instances de problèmes modernes est le nombre de points de données $n$ Probablement extrêmement grand. Nous traitons souvent d’ensembles de données qui dépassent largement la limite du téraoctet et peuvent provenir de sources aussi diverses qu’Internet, les satellites, les capteurs à distance, les marchés financiers et les expériences scientifiques. Pour traiter des ensembles de données aussi volumineux, une approche courante consiste à utiliser l’algorithme de descente de gradient stochastique (SGD), qui utilise uniquement un petit nombre de points de données sélectionnés au hasard à chaque itération. En outre, il y a eu récemment une forte augmentation de l'intérêt pour les méthodes de gradient stochastique de réduction de la variance (VR), qui ont des taux de convergence plus rapides que les méthodes de gradient stochastique traditionnelles.
Insérer la description de l'image ici
Figure 1. Sur le problème de régression logistique basé sur l'ensemble de données champignon [7], la descente de gradient (GD), la descente de gradient accélérée (AGD, GD accélérée dans [50]), la descente de gradient stochastique (SGD) et la méthode ADAM [30] ont été par rapport aux méthodes de réduction de la variance (VR) SAG et SVRG, où n = 8 124, d = 112.

1.1. Méthodes de descente de gradient et de gradient stochastique

La descente de gradient (GD) est un algorithme classique utilisé pour résoudre le problème ci-dessus (2), et sa formule de mise à jour itérative est la suivante :
$x_{k+1} = x_k - gamma frac{1}{n} somme_{i=1}^{n} nabla f_i(x_k)$

ici, $γ$ est une valeur de pas fixe supérieure à zéro.Lors de chaque itération de l'algorithme GD, chaque point de données doit être $je$ Calculer le dégradé $f_i(x_k)$ , ce qui signifie que GD nécessite tous $n$ effectuer un parcours complet des points de données.Lorsque la taille de l'ensemble de données $n$ Lorsqu’il devient très important, le coût de chaque itération de l’algorithme GD devient très élevé, limitant ainsi son application.

Comme alternative, nous pouvons considérer la méthode de descente de gradient stochastique (SGD), qui a été proposée pour la première fois par Robbins et Monro, et sa formule de mise à jour itérative est la suivante :
$x_{k+1} = x_k - gamma équation f_{i_k}(x_k)$

L'algorithme SGD fonctionne en utilisant uniquement le gradient d'un point de données sélectionné au hasard à chaque itération. $f_{i_k}(x_k)$ pour réduire le coût de chaque itération. Dans la figure 1, nous pouvons voir que SGD réalise des progrès plus significatifs que GD (y compris les méthodes GD accélérées) dans les premières étapes du processus d'optimisation.Le graphique montre la progression de l'optimisation en termes d'époques, qui sont définies comme le calcul de tous $n$ Le nombre de gradients pour les échantillons d’entraînement. L'algorithme GD effectue une itération à chaque tour, tandis que l'algorithme SGD effectue une itération à chaque tour. $n$ itérations.Nous utilisons les tours comme base pour comparer SGD et GD, car sous l'hypothèse $n$ Dans les très grands cas, le coût principal des deux méthodes est concentré dans le gradient $f_i(x_k)$ calcul.

1.2. Problème d'écart

Considérons l'indexation aléatoire $je_k$ de la collecte ${1, \dots, n}$ Dans le cas d'une sélection aléatoire uniforme, cela signifie que pour tous $je$ ,choisir $suis_k = je$ La probabilite $P[i_k = i]$ égal $1 n frac{1}{n}$ . dans ce cas, $f_{i_k}(x_k)$ comme $f(x_k)$ L’estimateur de est sans biais car, par la définition de l’espérance, nous avons :
$f_{i_k}(x_k) | x_k] = frac{1}{n} somme_{i=1}^{n} on obtient f_i(x_k) = on obtient f(x_k) quad (6)$

Bien que la méthode SGD (Stochastic Gradient Descent) ne garantisse pas le fonctionnement à chaque itération $F$ La valeur de diminuera, mais en moyenne elle se déplacera vers le gradient complet négatif, qui représente la direction vers le bas.

Cependant, disposer d’un estimateur de gradient sans biais n’est pas suffisant pour garantir la convergence des itérations SGD. Pour illustrer ce point, la figure 2 (à gauche) montre la trajectoire itérative de SGD lors de l'application d'une fonction de régression logistique utilisant un pas constant sur l'ensemble de données à quatre catégories fourni par LIBSVM [7].Les ellipses concentriques sur la figure représentent les contours de la fonction, c'est-à-dire la valeur de la fonction $F (X) = c$ point correspondant $X$ rassembler, $c$ est une constante spécifique dans l'ensemble des nombres réels.différentes valeurs constantes $c$ Correspond à différentes ellipses.

La trajectoire itérative de SGD ne converge pas vers la solution optimale (indiquée par un astérisque vert sur la figure), mais forme un nuage de points autour de la solution optimale. En revanche, nous montrons sur la figure 2 la trajectoire itérative d'une méthode de réduction de la variance (VR), gradient moyen stochastique (SAG), utilisant la même taille de pas constante, que nous introduirons plus tard. La raison pour laquelle SGD ne parvient pas à converger dans cet exemple est que le gradient stochastique lui-même ne converge pas vers zéro et que, par conséquent, la méthode SGD à pas constant (5) ne s'arrête jamais.Cela contraste fortement avec les méthodes de descente de gradient (GD), qui s'arrêtent naturellement dès que $x_k$ Approches $x^*$ ,pente $f(x_k)$ tendra vers zéro.
Insérer la description de l'image ici
Figure 2. Graphiques d'ensemble de niveaux pour la régression logistique bidimensionnelle utilisant les méthodes itératives SGD (à gauche) et SAG (à droite) à pas fixe. L'astérisque vert indique xdélier.

1.3. Méthode classique de réduction de la variance

traitement en raison de $f_i(x_k)$ Il existe plusieurs techniques classiques pour résoudre les problèmes de non-convergence causés par la variance des valeurs.Par exemple, Robbins et Monro [64] utilisent une série de pas décroissants $gamma_k$ pour résoudre le problème de variance, en garantissant que le produit $gamma_k est égal à f_{i_k}(x_k)$ peut converger vers zéro. Cependant, ajuster cette séquence d’étapes décroissantes pour éviter d’arrêter l’algorithme trop tôt ou trop tard est un problème difficile.

Une autre technique classique pour réduire la variance consiste à utiliser plusieurs $f_i(x_k)$ moyenne de pour obtenir le dégradé complet $\nabla F (X)$ une estimation plus précise. Cette approche est appelée minibatch et est particulièrement utile lorsque plusieurs gradients peuvent être évalués en parallèle. Cela donne une itération de la forme :
$x_{k+1} = x_k - gamma frac{1}{|B_k|} somme_{i dans B_k} nabla f_i(x_k) quad (7)$
dans $B_k$ est un ensemble d'index aléatoires, $B_k|$ exprimer $B_k$ la taille de.si $B_k$ En échantillonnant uniformément avec remplacement, alors la variance de cette estimation de gradient est liée à la "taille du lot" $B_k|$ est inversement proportionnel, la variance peut donc être réduite en augmentant la taille du lot.

Cependant, le coût de telles itérations est proportionnel à la taille du lot, donc cette forme de réduction de la variance se fait au prix d’un coût de calcul accru.

Une autre stratégie courante pour réduire la variance et améliorer les performances empiriques de SGD consiste à ajouter « élan », un terme supplémentaire basé sur la direction utilisée dans les étapes précédentes. En particulier, la forme du SGD avec élan est la suivante :
$x_{k+1} = x_k - gamma m_k quad (9)$
où le paramètre d'impulsion $β$ Situé dans la plage (0, 1).Si l'élan initial $m_0 = 0$ , et développez en (8) $m_k$ Pour les mises à jour, nous obtenons $m_k$ est la moyenne pondérée des gradients précédents :
$m_k = somme_{t=0}^{k} bêta^{kt} nabla f_{i_t}(x_t) quad (10)$
donc, $m_k$ est la somme pondérée des gradients stochastiques.parce que $somme_{t=0}^{k} bêta^{kt} = frac{1 - bêta^{k+1}}{1 - bêta}$ , nous pouvons convertir $bêta^k} m_k$ Considéré comme une moyenne pondérée de gradients stochastiques.Si nous comparons cela avec l'expression du dégradé complet $f(x_k) = frac{1}{n} somme_{i=1}^{n} nabla f_i(x_k)$ Pour comparer, nous pouvons $bêta^k} m_k$ (ainsi que $m_k$ ) est interprété comme une estimation du gradient complet. Même si cette somme pondérée réduit la variance, elle soulève également des questions clés.Puisque la somme pondérée (10) donne plus de poids aux gradients récemment échantillonnés, elle ne convergera pas vers le gradient complet. $f(x_k)$ , cette dernière est une moyenne simple. La première méthode de réduction de la variance que nous verrons dans la section II-A résout ce problème en utilisant une moyenne simple au lieu de toute moyenne pondérée.

1.4. Méthodes modernes de réduction de la variance

Contrairement aux méthodes classiques, elles utilisent directement un ou plusieurs $f_i(x_k)$ comme $f(x_k)$ À titre d'approximation, les méthodes modernes de réduction de la variance (VR) emploient une stratégie différente.Ces méthodes utilisent $f_i(x_k)$ pour mettre à jour l'estimation du gradient $g_k$ , dont le but est de faire $g_k$ approchant $f(x_k)$ .Plus précisément, nous espérons $g_k$ capable de satisfaire $g_k approximatif f(x_k)$ . Sur la base de ces estimations de gradient, nous effectuons ensuite une étape de gradient approximative de la forme :
$x_{k+1} = x_k - gamma g_k quad (11)$
ici $γ > 0$ est le paramètre de taille de pas.

Pour garantir qu'une taille de pas constante est utilisée $γ$ Lorsque l'itération (11) peut converger, nous devons nous assurer que l'estimation du gradient $g_k$ La variance tend vers zéro. Mathématiquement, cela peut s'exprimer comme suit :
$g_k - nabla f(x_k) |^2 droite] flèche droite 0 quad texte{comme } k flèche droite infty quad (12)$
attentes ici $E$ est basé sur l'algorithme jusqu'au $k$ Toutes les variables aléatoires sont calculées pour les itérations. La propriété (12) garantit que la méthode VR peut être arrêtée lorsque la solution optimale est atteinte. Nous considérons cette propriété comme une caractéristique distinctive de l’approche VR et c’est pourquoi nous l’appelons une propriété VR. Il est à noter que l’expression variance « réduite » peut être trompeuse, car en fait la variance tend vers zéro. La propriété (12) est un facteur clé qui permet aux méthodes VR d'atteindre une convergence plus rapide en théorie (sous des hypothèses appropriées) et en pratique (comme le montre la figure 1).

1.5. Premier exemple de méthode de réduction de variance : SGD²

Une méthode d'amélioration simple peut permettre à la formule récursive SGD (5) d'atteindre une convergence sans réduire la taille du pas, c'est-à-dire traduire chaque gradient. La méthode spécifique consiste à soustraire. $f_i(x^*)$ , cette méthode est définie comme suit :
$x_{k+1} = x_k - gamma (nabla f_{i_k}(x_k) - nabla f_{i_k}(x^*)) quad (13)$
Cette méthode est appelée SGD² [22].Même si nous ne pouvons généralement pas savoir avec certitude chaque $f_i(x^*)$ , mais SGD², à titre d'exemple, peut bien illustrer les caractéristiques de base de la méthode de réduction de la variance.De plus, de nombreuses méthodes de réduction de la variance peuvent être considérées comme une forme approximative de la méthode SGD² ; ces méthodes ne s'appuient pas sur les méthodes connues ; $f_i(x^*)$ , mais utilisez plutôt une méthode qui peut se rapprocher $f_i(x^*)$ valeur estimée.

Il convient de noter que SGD² utilise une estimation impartiale du gradient complet.parce que $f(x^*) = 0$ ,F:
$f_{i_k}(x_k) - nabla f_{i_k}(x^*)] = nabla f(x_k) - nabla f(x^*) = nabla f(x_k)$
De plus, lorsque SGD² atteint la solution optimale, il s'arrêtera naturellement car pour tout $je$ ,avoir:
$f_i(x) - nabla f_i(x^*)) bigg|_{x=x^*} = 0$

Après une observation plus approfondie, avec $x_k$ près $x^*$ (pour les consécutifs $f_i$ ), SGD² satisfait la propriété de réduction de variance (12) car :
$g_k - nabla f(x_k) |^2 droite] = \Egauche[ | nabla f_{i_k}(x_k) - nabla f_{i_k}(x^*) - nabla f(x_k) |^2 droite] leq Egauche[ | nabla f_{i_k}(x_k) - nabla f_{i_k}(x^*) |^2 droite]$
Ici nous utilisons le lemme 2, soit $f_{i_k}(x_k) - onde sinusoïdale f_{i_k}(x^*)$ , et a profité de $f_{i_k}(x_k) - nabla f_{i_k}(x^*)] = nabla f(x_k)$ nature. Cette propriété indique que SGD² a une vitesse de convergence plus rapide que les méthodes SGD traditionnelles, que nous avons détaillées dans l'annexe B.

1.6. Convergence rapide de la méthode de réduction de la variance

Dans cette section, nous présenterons deux hypothèses standard utilisées pour analyser la méthode de réduction de la variance (VR) et discuterons de l'effet d'accélération qui peut être obtenu sous ces hypothèses par rapport à la méthode SGD traditionnelle. Premièrement, nous supposons que le gradient a une continuité Lipschitzienne, ce qui signifie que le taux de changement du gradient est fini.

Hypothèse 1 (continuité Lipschitzienne)

Nous supposons que la fonction $F$ est différentiable et est $L$ - lisse, pour tous $X$ et $et$ et quelqu'un $0 < L < \infty$ ,Les conditions suivantes :
$∥\nabla F (X) - \nabla F (et) ∥ \leq L ∥ X - et ∥ (14)$
Cela signifie que chaque $mathbb{R}^d flèche droite mathbb{R}$ est différentiable, $L_i$ - lisse, nous définissons $L_{texte{max}}$ pour $max{L_1, . . . , L_n}$ 。

Bien que cela soit généralement considéré comme une hypothèse faible, dans les chapitres suivants, nous discuterons des méthodes VR adaptées aux problèmes non fluides. Pour une fonction univariée deux fois différentiable, $L$ -La douceur peut être intuitivement comprise comme : cela équivaut à supposer que la dérivée seconde est $L$ limite supérieure, c'est-à-dire $∣ F^{''} (X) ∣ \leq L$ pour tous $mathbb{R}^d$ .Pour les fonctions deux fois différentiables de plusieurs variables, cela équivaut à supposer une matrice hessienne $nabla^2 f(x)$ La valeur singulière de $L$ limite supérieure.

Hypothèse 2 (forte convexité)

La deuxième hypothèse que nous considérons est que la fonction (f) est $μ$ -Fortement convexe, ce qui signifie que pendant un certain temps $μ > 0$ ,fonction $frac{mu}{2}|x|^2$ C'est convexe.De plus, pour chaque $je = 1, ..., n$ ， $mathbb{R}^d flèche droite mathbb{R}$ C'est convexe.

C’est une hypothèse forte.Dans le problème des moindres carrés, chaque (fi$ est convexe, mais la fonction globale (f) n'est que dans la matrice de conception $a_1, . . . , un_n]$ Il n'est fortement convexe que s'il a un rang de ligne complet. Le problème de régression logistique régularisée L2 satisfait cette hypothèse en raison de l’existence du terme de régularisation, où $μ \geq λ$ 。

Une classe importante de problèmes qui satisfont à ces hypothèses sont les problèmes d’optimisation de la forme :
$x^* dans argmin_{x dans mathbb{R}^d} f(x) = frac{1}{n} somme_{i=1}^{n} ell_i(a_i^Tx) + frac{lambda}{2}|x|^2 quad (15)$
où chaque fonction "perte" $ell_i: mathbb{R} flèche droite mathbb{R}$ est deux fois différentiable, et sa dérivée seconde $ell_i''$ est limité à 0 et à une certaine limite supérieure $M$ entre. Cela inclut une variété de fonctions de perte avec régularisation L2 dans l'apprentissage automatique, telles que les moindres carrés, la régression logistique, la régression probit, la régression robuste de Huber, etc.Dans ce cas, pour tous $je$ ,Nous avons $L_i leq M|a_i|^2 + lambda$ et $μ \geq λ$ 。

Sous ces hypothèses, le taux de convergence de la méthode de descente de gradient (GD) est déterminé par le numéro de condition $κ := L / μ$ Décider. Le numéro de condition est toujours supérieur ou égal à 1, et lorsqu'il est significativement supérieur à 1, les contours de la fonction deviennent très elliptiques, faisant osciller les itérations de la méthode GD.Au contraire, quand $κ$ Lorsqu’il est proche de 1, la méthode GD converge plus rapidement.

Selon les hypothèses 1 et 2, la méthode VR converge à un rythme linéaire.On dit que la valeur de la fonction d'une méthode aléatoire ({f(x_k)}) est donnée par $0 < ρ \leq 1$ Le taux de convergence linéaire (sous attente), s'il existe une constante $C > 0$ Fait du:
$E[f(x_k)] - f(x^*) leq (1 - rho)^k C = O(exp(-krho)) quad pour tout k quad (16)$
Cela contraste avec les méthodes SGD classiques qui reposent uniquement sur des estimations non biaisées du gradient à chaque itération, qui n'obtiennent des taux sous-linéaires que sous ces hypothèses :
$E[f(x_k)] - f(x^*) leq O(1/k)$
Le minimum qui satisfait cette inégalité $k$ C'est ce qu'on appelle la complexité itérative de l'algorithme. Voici la complexité itérative et le coût d'une itération pour les variantes de base des méthodes GD, SGD et VR :

algorithme	Nombre d'itérations	coût d'une itération
GD	$O (κ lo g (1/ ϵ))$	$O (n)$
Dollars de Singapour	$O(kappa_{texte{max}} max(1/epsilon))$	$O (1)$
Réalité virtuelle	$O((kappa_{texte{max}} + n) log(1/epsilon))$	$O (1)$

La durée totale d’exécution d’un algorithme est déterminée par le produit de la complexité de l’itération et de la durée d’exécution de l’itération.utilisé ici $kappa_{texte{max}} := max_i L_i/mu$ .Avis $kappa_{texte{max}} geq kappa$ Par conséquent, la complexité itérative de GD est inférieure à celle de la méthode VR.

Cependant, comme le coût par itération de GD est celui de la méthode VR $n$ fois, la méthode VR est supérieure en termes de durée totale d’exécution.

L’avantage des méthodes SGD classiques est que leur temps d’exécution et leur taux de convergence ne dépendent pas de $n$ , mais il a une tolérance $ϵ$ La dépendance de est bien pire, ce qui explique les mauvaises performances du SGD lorsque la tolérance est faible.

En annexe B, nous fournissons une preuve simple montrant que la méthode SGD² a la même complexité itérative que la méthode VR.

2. Méthode de base de réduction de la variance

Le développement des méthodes de réduction de la variance (VR) a traversé plusieurs étapes et le premier lot de méthodes a abouti à des taux de convergence considérablement améliorés. Le début de cette série de méthodes est l’algorithme SAG. Par la suite, l'algorithme de montée stochastique à double coordonnée (SDCA), l'algorithme MISO, l'algorithme de gradient de réduction de variance stochastique (SVRG/S2GD) et l'algorithme SAGA (qui signifie SAG « amélioré ») sont apparus l'un après l'autre.

Dans ce chapitre, nous examinons de plus près ces méthodes VR pionnières. Au chapitre 4, nous explorerons certaines méthodes plus récentes qui présentent des caractéristiques supérieures par rapport à ces méthodes de base dans des scénarios d'application spécifiques.

2.1. Méthode du gradient moyen stochastique (SAG)

Notre exploration de la première méthode de réduction de la variance (VR) commence par l'imitation de la structure du gradient complet.Depuis le gradient complet $\nabla F (X)$ est tout $f_i(x)$ une simple moyenne des gradients, puis notre estimation du gradient complet $g_k$ Il devrait également s'agir de la moyenne de ces estimations de gradient. Cette idée a donné naissance à notre première méthode VR : la méthode du gradient moyen stochastique (SAG).

La méthode SAG [37], [65] est une version randomisée de la première méthode du gradient incrémental agrégé (IAG) [4]. L'idée centrale de SAG est que pour chaque point de données $je$ maintenir une estimation $v_{ik} approximatif f_i(x_k)$ .Ensuite, utilisez-les $v_{ik}$ La moyenne des valeurs est utilisée comme estimation du gradient complet, soit :
$bar{g}_k = frac{1}{n} somme_{j=1}^{n} v_{jk} approx frac{1}{n} somme_{j=1}^{n} nabla f_j(x_k) = nabla f(x_k) quad (18)$

Dans chaque itération de SAG, à partir de l'ensemble ${1, \dots, n}$ Extraire un index de $je_k$ , puis mis à jour selon les règles suivantes $v_{jk}$ ：
$begin{cases} nabla f_{i_k}(x_k), & text{if } j = i_k \ v_{jk}^k, & text{if } j neq i_k end{cases}$
Parmi eux, chacun $v_{0i}$ Peut être initialisé à zéro ou $f_i(x_0)$ valeur approximative.Avec la solution $x^*$ approximation, chacun $v_{ik}$ convergera progressivement vers $f_i(x^*)$ , satisfaisant ainsi la propriété VR (12).

Afin de mettre en œuvre efficacement SAG, nous devons prêter attention au calcul $bar{g}_k$ pour éviter de recommencer la somme à zéro à chaque fois $n$ vecteur, parce que c'est $n$ Le coût est élevé quand il est important.Heureusement, puisque chaque itération n'a qu'un seul $v_{ik}$ Les conditions changeront et nous n'aurons pas à recalculer la totalité de la somme à chaque fois.Plus précisément, supposons qu'en itérant $k$ Index extrait de $je_k$ , ensuite il y a:
$bar{g}_k = frac{1}{n} somme_{sous-pile{j=1 \ j neq i_k}}^{n} v_{jk} + frac{1}{n} v_{i_k}^k = bar{g}_{k-1} - frac{1}{n} v_{i_k}^{k-1} + frac{1}{n} v_{i_k}^k quad (20)$

Puisqu'en plus de $v_{i_k}$ tout sauf $v_{jk}$ Les valeurs restent toutes les mêmes, on stocke simplement chacune $j$ Un vecteur correspondant à $v_j$ . L'algorithme 1 montre l'implémentation spécifique de la méthode SAG.

SAG est la première méthode stochastique à atteindre une convergence linéaire, et sa complexité itérative est $O((kappa_{texte{max}} + n) log(1/epsilon))$ , en utilisant la taille du pas $O(1/L_{texte{max}})$ . Cette convergence linéaire peut être observée sur la figure 1.Il convient de noter qu'en raison de $L_{texte{max}}$ -Fonction fluide pour tout $L_{texte{max}}$ Aussi $L^{'}$ - Les méthodes SAG douces atteignent des taux de convergence linéaires pour des pas suffisamment petits, contrairement aux méthodes SGD classiques, qui n'atteignent des taux sublinéaires qu'avec des séquences de pas décroissants difficiles à ajuster en pratique.

À l’époque, la convergence linéaire de SAG constituait une avancée significative car elle ne calculait qu’un seul gradient stochastique (en traitant un seul point de données) à chaque itération. Cependant, la preuve de convergence fournie par Schmidt et al. [65] est très complexe et repose sur des étapes vérifiées par ordinateur. L’une des principales raisons pour lesquelles SAG est difficile à analyser est que $g_k$ est une estimation biaisée du gradient.

Ensuite, nous introduisons la méthode SAGA, une variante de SAG qui exploite le concept de covariables pour créer une variante impartiale de la méthode SAG qui a des performances similaires mais est plus facile à analyser.

Algorithme 1 : méthode SAG

Paramètres : taille du pas $γ > 0$
initialisation : $x_0$ ， $v_i = 0 dans mathbb{R}^d$ pour $je = 1, \dots, n$
droite $k = 1, \dots, T - 1$ mettre en œuvre:
une. Sélection aléatoire $i_k dans {1, ldots, n}$
b. Calculer $bar{g}_k = bar{g}_{k-1} - frac{1}{n} v_{i_k}^{k-1}$
c. Mise à jour $v_{i_k}^k = nabla f_{i_k}(x_k)$
d. Mettre à jour l'estimation du gradient $bar{g}_k = bar{g}_k + frac{1}{n} v_{i_k}^k$
e. Mise à jour $x_{k+1} = x_k - gamma bar{g}_k$
Sortir: $x_T$

2.2.Méthode SAGA

Une estimation de gradient impartiale de base réduite $f_{i_k}(x_k)$ L'approche de la variance repose sur l'utilisation de ce que l'on appelle des covariables ou variables de contrôle.pour $je = 1, \dots, n$ ,installation $v_i dans mathbb{R}^d$ est un vecteur.En utilisant ces vecteurs, nous pouvons convertir le dégradé complet $\nabla F (X)$ Réécrit comme suit :
$somme_{i=1}^{n}(nabla f_i(x) - v_i + v_i) = frac{1}{n} somme_{i=1}^{n} nabla f_i(x) - v_i + frac{1}{n} somme_{j=1}^{n} v_j$
$somme_{i=1}^{n} nabla f_i(x, v) quad (21)$
qui définit $f_i(x, v) := on obtient f_i(x) - v_i + frac{1}{n} somme_{j=1}^{n} v_j$ .Maintenant, nous pouvons échantillonner au hasard un $f_i(x, v)$ pour construire le dégradé complet $\nabla F (X)$ Une estimation impartiale de $je \in {1, \dots, n}$ , vous pouvez appliquer la méthode SGD et utiliser l'estimation du gradient :
$g_k = onde sinusoïdale f_{i_k}(x_k, v) = onde sinusoïdale f_{i_k}(x_k) - v_{i_k} + frac{1}{n} somme_{j=1}^{n} v_j quad (22)$

pour observation $v_i$ La différence entre les paires de sélection $g_k$ influencer, nous pouvons $g_k = nabla f_{i_k}(x_k, v)$ Substitut et utilisation $E_i sim frac{1}{n}[v_i] = frac{1}{n} somme_{j=1}^{n} v_j$ Pour calculer l’espérance, on obtient :
$f_i(x_k) - v_i + E_i sim frac{1}{n}[v_i - nabla f_i(x_k)]|^2 droite] leq E gauche[ |nabla f_i(x_k) - v_i|^2 droite] quad (23)$
Le lemme 2 est utilisé ici, où $f_i(x_k) - v_i$ .Cette borne (23) montre que si $v_i$ avec $k$ L'augmentation est proche de $f_i(x_k)$ , nous pouvons obtenir des attributs VR (12).C'est pourquoi nous appelons $v_i$ sont des covariables, et nous pouvons les sélectionner pour réduire la variance.

Par exemple, cette approche est également mise en œuvre par la méthode SGD² (13), où $v_i = nabla f_i(x^*)$ .Cependant, cela n’est pas couramment utilisé dans la pratique car nous ne savons généralement pas $f_i(x^*)$ .Une option plus pratique est $v_i$ comme nous le savons $bar{x}_i dans mathbb{R}^d$ dégradé à proximité $f_i(bar{x}_i)$ . SAGA pour chaque fonction $f_i$ utiliser un point de référence $bar{x}_i dans mathbb{R}^d$ , et utilisez des covariables $v_i = nabla f_i(bar{x}_i)$ , dont chacun $barre{x}_i$ sera notre dernière évaluation $f_i$ indiquer. En utilisant ces covariables, nous pouvons construire une estimation de gradient, suivant (22), donnant :
$g_k = onde sinusoïdale f_{i_k}(x_k) - onde sinusoïdale f_{i_k}(bar{x}_{i_k}) + frac{1}{n} somme_{j=1}^{n} onde sinusoïdale f_j(bar{x}_j) quad (24)$

Pour implémenter SAGA, nous pouvons stocker des dégradés $f_i(bar{x}_i)$ au lieu de $n$ point de référence $barre{x}_i$ .C'est-à-dire supposons $v_j = nabla f_j(bar{x}_j)$ pour $j \in {1, \dots, n}$ , à chaque itération, nous mettons à jour un gradient stochastique comme SAG $v_j$ 。

Algorithme 2 SAGA

Paramètres : taille du pas $γ > 0$
initialisation : $x_0$ ， $v_i = 0 dans mathbb{R}^d$ pour $je = 1, \dots, n$
conduire $k = 1, \dots, T - 1$ itérations :
une. Sélection aléatoire $i_k dans {1, ldots, n}$
b. Enregistrer l'ancienne valeur $v_{texte{ancien}} = v_{i_k}$
c. Mise à jour $v_{i_k} = nabla f_{i_k}(x_k)$
d. Mise à jour $x_{k+1} = x_k - gamma (v_{i_k} - v_{texte{ancien}} + bar{g}_k)$
e. Mettre à jour l'estimation du gradient $bar{g}_k = bar{g}_{k-1} + frac{1}{n} (v_{i_k} - v_{texte{ancien}})$
Sortir: $x_T$

La méthode SAGA a la même complexité itérative que SAG $O((kappa_{texte{max}} + n) log(1/epsilon))$ , en utilisant la taille du pas $O(1/L_{texte{max}})$ , mais la preuve est beaucoup plus simple.Cependant, comme SAG, la méthode SAGA nécessite un stockage $n$ vecteurs auxiliaires $v_i dans mathbb{R}^d$ pour $je = 1, \dots, n$ , ce qui signifie la nécessité $O (n d)$ d'espace de stockage.quand $d$ et $n$ Lorsque les deux sont importants, cela peut ne pas être réalisable. Dans la section suivante, nous détaillons comment réduire ce besoin de mémoire pour les modèles courants tels que les modèles linéaires régularisés.

quand il est capable de $n$ Lorsque deux vecteurs auxiliaires sont stockés en mémoire, SAG et SAGA ont tendance à se comporter de manière similaire. Si ce besoin en mémoire est trop élevé, la méthode SVRG, que nous reviendrons dans la section suivante, est une bonne alternative. La méthode SVRG atteint le même taux de convergence et est souvent presque aussi rapide en pratique, mais ne nécessite que $O (d)$ de mémoire, pour des questions générales.

2.3.Méthode SVRG

Avant l'émergence de la méthode SAGA, certains premiers travaux ont introduit pour la première fois des covariables pour résoudre le problème de mémoire élevée requis par la méthode SAG.Ces études s'appuient sur un point de référence fixe $mathbb{R}^d$ covariables, nous avons calculé le gradient complet à ce stade $\nabla F (\overset{X}{ˉ})$ .en stockant des points de référence $\overset{X}{ˉ}$ et le dégradé complet correspondant $\nabla F (\overset{X}{ˉ})$ , nous pouvons le faire sans stocker chacun $f_j(bar{x})$ Au cas où, utilisez $barre{x}_j = barre{x}$ à tous $j$ pour mettre en œuvre la mise à jour (24).Plus précisément, au lieu de stocker ces vecteurs, nous utilisons les points de référence stockés à chaque itération $\overset{X}{ˉ}$ calculer $f_{i_k}(bar{x})$ . Cette méthode a été initialement proposée par différents auteurs sous des noms différents, mais a ensuite été unifiée sous le nom de méthode SVRG, suivant la nomenclature de [28] et [84].

Nous formalisons la méthode SVRG dans l'algorithme 3.

En utilisant (23), nous pouvons dériver l’estimation du gradient $g_k$ La variance de est bornée :
$g_k - nabla f(x_k) |^2 droite] leq Egauche[ | nabla f_i(x_k) - nabla f_i(bar{x}) |^2 droite] leq L_{texte{max}}^2 | x_k - bar{x} |^2$
où la deuxième inégalité utilise chacun $f_i$ de $L_i$ -Douceur.

Il convient de noter que le point de référence $\overset{X}{ˉ}$ Plus on se rapproche du point actuel $x_k$ , plus la variance de l'estimation du gradient est petite.

Pour que la méthode SVRG soit efficace, nous devons mettre à jour fréquemment les points de référence $\overset{X}{ˉ}$ (nécessitant ainsi le calcul de la pente complète) est mis en balance avec l'avantage d'une variance réduite.Pour cette raison, nous chacun $t$ Mettez à jour le point de référence une fois à chaque itération pour le rapprocher de $x_k$ (Voir ligne 11 de l'algorithme II-C).Autrement dit, la méthode SVRG contient deux boucles : une boucle externe $m$ , où le gradient de référence est calculé $f(bar{x}_{s-1})$ (ligne 4), et une boucle interne dans laquelle le point de référence est fixe et l'itération interne est mise à jour sur la base de l'étape de gradient stochastique (22). $x_k$ (Ligne 10).

Contrairement à SAG et SAGA, SVRG ne nécessite que $O (d)$ de mémoire. Les inconvénients de SVRG incluent : 1) Nous avons un paramètre supplémentaire $t$ , c'est-à-dire la longueur de la boucle intérieure, doit être ajustée ; 2) Deux gradients doivent être calculés pour chaque itération, et le gradient complet doit être calculé à chaque fois que le point de référence est modifié.

Johnson et Zhang [28] ont montré que SVRG a une complexité itérative $O((kappa_{texte{max}} + n) log(1/epsilon))$ , similaire à SAG et SAGA.C'est le nombre de boucles dans l'hypothèse $t$ de la collecte ${1, \dots, m}$ Obtenu sous la condition d'un échantillonnage uniforme, où $L_{texte{max}}$ ， $μ$ , taille de pas $γ$ et $t$ Certaines dépendances doivent être satisfaites entre eux.En pratique, en utilisant $O(1/L_{texte{max}})$ et longueur de la boucle intérieure $t = n$ , SVRG a tendance à bien fonctionner, ce qui correspond exactement au paramètre que nous avons utilisé dans la figure 1.

Il existe désormais de nombreuses variantes de la méthode SVRG originale.Par exemple, certaines variantes utilisent $t$ distribution alternative [32], certaines variantes permettent la forme $O(1/L_{texte{max}})$ La taille du pas [27], [33], [35].Il existe également quelques variantes utilisant $\nabla F (\overset{X}{ˉ})$ approximation des mini-lots pour réduire le coût de ces évaluations de gradient complet et augmenter la taille des mini-lots pour préserver les propriétés VR.Il existe également quelques variantes où les mises à jour sont répétées dans la boucle interne selon [54] $g_k$ ：
[ g_k = nombre f_{i_k}(x_k) - nombre f_{i_k}(x_{k-1}) + g_{k-1} quad (25) ]
Cela fournit une approximation plus locale. L'utilisation de cette variante de mise à jour continue (25) présente des avantages uniques dans la minimisation des fonctions non convexes, comme nous le discutons brièvement dans la section IV.Notez enfin que SVRG peut profiter de $f(bar{x}_s)$ valeur pour aider à décider quand terminer l’algorithme.

Algorithme 3 Méthode SVRG

Paramètres : taille du pas $γ > 0$
Initialiser le point de référence $bar{x}_0 = x_0 dans mathbb{R}^d$
Réaliser une circulation externe $m = 1, 2, \dots$ ：
a. Calculer et stocker $f(bar{x}_{s-1})$
b. $x_0 = barre{x}_{s-1}$
c. Sélectionnez le nombre d'itérations de la boucle interne $t$
d. Effectuer la circulation interne $k = 0, 1, \dots, t - 1$ ：
i. Sélection aléatoire $i_k dans {1, ldots, n}$
ii. Calcul $g_k = onde sinusoïdale f_{i_k}(x_k) - onde sinusoïdale f_{i_k}(bar{x}_{s-1}) + onde sinusoïdale f(bar{x}_{s-1})$
iii. Mise à jour $x_{k+1} = x_k - gamma g_k$
e. Mettre à jour le point de référence $barre{x}_s = x_t$

2.4. SDCA et ses variantes

Un inconvénient des méthodes SAG et SVRG est que leur taille de pas repose sur des valeurs inconnues qui peuvent être inconnues dans certains problèmes. $L_{texte{max}}$ . Avant SVRG, la méthode SDCA [70], l’une des premières méthodes VR, a étendu la recherche sur les méthodes de descente de coordonnées aux problèmes à somme finie. L'idée derrière le SDCA et ses variantes est que les coordonnées du gradient fournissent une estimation naturelle du gradient réduisant la variance.Plus précisément, supposons $j \in {1, \dots, d}$ , et définir $nabla_j f(x) := gauche( frac{partiel f(x)}{partiel x_j} droite) e_j$ est le ième de (f(x)) $j$ dérivées dans des directions de coordonnées, où $e_j dans mathbb{R}^d$ C'est le premier $j$ vecteur unitaire.Une propriété clé des dérivées de coordonnées est que $nabla_j f(x^*) = 0$ , parce que nous savons $f(x^*) = 0$ .La dérivée de ceci avec chaque point de données $f_j$ différent, ce dernier est $x^*$ peut ne pas être nul. Nous avons donc :
$nabla_j f(x) |^2 flèche droite 0 quad texte{entier} quad x flèche droite x^* quad (26)$
Cela signifie que la dérivée de coordonnées satisfait la propriété de réduction de la variance (12).De plus, nous pouvons utiliser $nabla_j f(x)$ construire $\nabla F (X)$ une estimation impartiale de.Par exemple, supposons $j$ est de la collection ${1, \dots, d}$ Un index sélectionné de manière uniforme et aléatoire dans .Par conséquent, pour tout $je \in {1, \dots, d}$ ,Nous avons $P [ j = i ] = 1 d P[j = i] = frac{1}{d}$ . donc, $nabla_j f(x)$ Oui $\nabla F (X)$ Une estimation impartiale de parce que :
$nabla_j f(x) droite] = d somme_{i=1}^{d} P[j = i] frac{partiel f(x)}{partiel x_i} e_i = somme_{i=1}^{d} frac{partiel f(x)}{partiel x_i} e_i = nabla f(x)$

donc, $nabla_j f(x)$ Possède toutes les propriétés idéales auxquelles nous nous attendons pour l'estimation VR de gradients complets, sans avoir besoin d'utiliser des covariables. L’un des inconvénients de l’utilisation de ce gradient de coordonnées est qu’il est coûteux en calcul pour notre problème de somme (2).C'est parce que le calcul $nabla_j f(x)$ Besoin de parcourir l'intégralité de l'ensemble de données car $nabla_j f(x) = frac{1}{n} somme_{i=1}^{n} nabla_j f_i(x)$ . Par conséquent, l’utilisation de dérivées de coordonnées semble incompatible avec la structure de notre problème de somme. Cependant, nous pouvons souvent réécrire le problème original (2) dans une formulation dite duale, où les dérivées coordonnées peuvent exploiter la structure inhérente.

Par exemple, la formule duale du modèle linéaire régularisé L2 (15) est :
$v^* dans argmax_{v dans mathbb{R}^n} frac{1}{n} somme_{i=1}^{n} -ell_i^*(-v_i) - frac{lambda}{2} gauche| frac{1}{lambda} somme_{i=1}^{n} v_i a_i droite|^2 quad (27)$
dans $ell_i^*(v)$ Oui $ell_i$ conjugué convexe.Nous pouvons utiliser la cartographie $somme_{i=1}^{n} v_i a_i$ pour restaurer le problème d'origine (15) $X$ variable.résoudra $v^*$ En remplaçant par le côté droit de la cartographie ci-dessus, nous pouvons obtenir la solution de (15) $x^*$ 。

Notez que ce double problème a $n$ variables réelles $v_i dans mathbb{R}$ , correspondant à un pour chaque échantillon d'apprentissage.De plus, chaque fonction de double perte $ell_i^*$ seulement $v_i$ La fonction. Autrement dit, le premier terme de la fonction de perte est séparable de manière coordonnée. Cette séparabilité en coordonnées, couplée à la forme simple du deuxième terme, permet de mettre en œuvre efficacement la méthode de remontée de coordonnées.En effet, Shalev-Shwartz et Zhang ont montré que l'ascension coordonnée sur ce problème présente une complexité itérative similaire à celle de SAG, SAGA et SVRG. $O((kappa_{texte{max}} + n) log(1/epsilon))$ 。

Le coût d'itération et la structure de l'algorithme sont également très similaires : sommation par suivi $somme_{i=1}^{n} v_i a_i$ Pour gérer le deuxième terme de (27), chaque itération d'ascension à double coordonnée n'a besoin de considérer qu'un seul échantillon d'apprentissage, et le coût de chaque itération est le même que $n$ Rien à faire.De plus, nous pouvons utiliser une recherche de ligne 1D pour calculer efficacement la taille du pas afin de maximiser $v_i$ Double objectif de la fonction.Cela signifie que même sans $L_{texte{max}}$ En connaissant les quantités pertinentes, il est également possible d'obtenir des temps d'exécution rapides dans le pire des cas pour les méthodes VR.

3. Questions pratiques liées à la réduction de la variance

Afin de mettre en œuvre la méthode de base de réduction de la variance (VR) et d’obtenir des performances raisonnables, plusieurs problèmes de mise en œuvre doivent être résolus. Dans cette section, nous abordons plusieurs questions non abordées ci-dessus.

3.1.Taille du pas de réglage SAG/SAGA/SVRG

Dans le domaine des algorithmes d'optimisation, en particulier dans les méthodes de réduction de variation telles que le gradient moyen stochastique (SAG), l'algorithme de gradient moyen stochastique (SAGA) et le gradient stochastique (SVRG), le réglage de la taille du pas est une question clé.Bien que pour la méthode d'ascension stochastique à double coordonnée (SDCA), nous puissions utiliser le double objectif pour déterminer la taille du pas, la base théorique des méthodes variables originales de SAG, SAGA et SVRG est que la taille du pas doit être $Ogauche(frac{1}{L_{texte{max}}}droite)$ formulaire.Cependant, dans les applications pratiques, nous ne savons souvent pas $L_{texte{max}}$ La valeur exacte de et l'utilisation d'autres tailles de pas peuvent donner de meilleures performances.

Une stratégie classique pour définir la taille du pas dans la méthode de descente de gradient complet (full-GD) est la recherche de ligne Armijo.point actuel donné $x_k$ et direction de recherche $g_k$ , recherche de ligne Armijo dans $gamma_k$ s'effectue sur la ligne définie comme $gamma_k dans {gamma : x_k + gamma g_k}$ , et la fonction doit être suffisamment réduite, c'est-à-dire :
$f(x_k + gamma_kg_k) < f(x_k) - c gamma_k |nabla f(x_k)|^2$
Cependant, cette approche nécessite plusieurs étapes candidates $gamma_k$ Calcul $f(x_k + gamma_k g_k)$ , qui évalue $F (X)$ Coût prohibitif lorsqu'il s'agit de parcourir l'intégralité de l'ensemble de données.

Afin de résoudre ce problème, une méthode de variation aléatoire peut être utilisée pour trouver ceux qui remplissent les conditions suivantes $gamma_k$ ：
$f_{ik}(x_k + gamma_kg_k) < f_{ik}(x_k) - c gamma_k |nabla f_{ik}(x_k)|^2$
Cette approche fonctionne généralement bien dans la pratique, surtout lorsque $f_{ik}(x_k)|$ pas proche de zéro, bien qu’il n’existe actuellement aucune théorie pour soutenir cette approche.

De plus, Mairal a proposé une « technique Bottou » pour régler la taille du pas dans la pratique. Cette méthode effectue une recherche binaire en prenant une petite partie de l'ensemble de données (par exemple 5 %) pour essayer de trouver la taille de pas optimale en un seul passage dans cet échantillon. Semblable à la recherche linéaire Armijo, cette méthode fonctionne souvent bien dans la pratique, mais là encore, elle manque de fondement théorique.

Veuillez noter que le contenu ci-dessus est une reformulation du texte original, utilisant le format Markdown pour représenter des formules et des variables mathématiques.

Cependant, la méthode SDCA présente également certains inconvénients.Premièrement, cela nécessite de calculer le conjugué convexe $ell_i^*$ plutôt qu'un simple dégradé. Nous n’avons pas d’équivalent différentiel automatique pour les conjugués convexes, ce qui peut donc augmenter les efforts de mise en œuvre. Des travaux récents ont proposé des méthodes SDCA « doubles » qui ne nécessitent pas de conjugaison et utilisent plutôt directement des gradients. Cependant, dans ces méthodes, il n'est plus possible de suivre la double cible pour définir la taille du pas.Deuxièmement, même si la SDCA requiert uniquement $O (n + d)$ mémoire pour résoudre le problème (15), mais pour cette catégorie de problèmes, SAG/SAGA n'a besoin que $O (n + d)$ de mémoire (voir section 3).Une variante de SDCA adaptée à des problèmes plus généraux avec SAG/SAGA $O (n d)$ mémoire parce que $v_i$ devenir avoir $d$ vecteur d'éléments. Un dernier inconvénient subtil de la SDCA est qu’elle suppose implicitement une forte constante de convexité. $μ$ égal $λ$ .pour $μ$ plus que le $λ$ problème, la méthode VR originale surpasse généralement considérablement la SDCA.

3.2. Détermination des conditions de résiliation

Dans le domaine de l’optimisation des algorithmes, nous nous appuyons souvent sur des résultats théoriques de complexité itérative pour prédire le nombre d’itérations requis pour qu’un algorithme atteigne une précision spécifique. Cependant, ces limites théoriques reposent souvent sur des constantes que nous ne pouvons pas prédire, et dans les applications pratiques, l'algorithme peut souvent atteindre la précision attendue en moins d'itérations. Par conséquent, nous devons définir certains critères de test pour déterminer quand l’algorithme doit être terminé.

Dans la méthode traditionnelle de descente à gradient complet (full-GD), nous utilisons généralement la norme du gradient $f(x_k) |$ Ou une autre quantité liée à cela pour décider quand arrêter l'itération.Pour la méthode SVRG on peut adopter le même critère mais utiliser $∥\nabla F (\overset{X}{ˉ}_{m}) ∥$ comme base de jugement.Pour la méthode SAG/SAGA, bien que nous ne calculions pas explicitement le gradient complet, la quantité $ g_{bar{k}} $ se rapprochera progressivement $f(x_k)$ , on utilise donc $g_{bar{k}} |$ car une condition d'arrêt est une heuristique raisonnable.

Dans la méthode SDCA, avec quelques travaux d'enregistrement supplémentaires, nous pouvons suivre le gradient du double objectif sans ajouter de coût asymptotique supplémentaire.En outre, une approche plus systématique consisterait à suivre le double écart, même si cela augmenterait le $O (n)$ coût, mais il est capable de fournir des conditions de résiliation avec des preuves à double écart. De plus, basée sur la condition d’optimalité des cibles fortement convexes, la méthode MISO adopte une méthode fondée sur des principes basés sur une borne inférieure quadratique [41].

Les formules et variables mathématiques suivantes sont exprimées au format Markdown :

Norme de gradient : $f(x_k) |$
Norme de gradient dans la méthode SVRG : $∥\nabla F (\overset{X}{ˉ}_{m}) ∥$
La quantité de gradient d'approximation dans la méthode SAG/SAGA : $ g_{bar{k}} $
Augmentation du coût par itération : $O (n)$
Méthode MISO
borne inférieure quadratique

Veuillez noter que le contenu ci-dessus est une reformulation du texte original, utilisant le format Markdown pour représenter des formules et des variables mathématiques.

3.3. Réduire les besoins en mémoire

Bien que l'algorithme SVRG (Stochastic Variational Reduction of Gradient) élimine les besoins en mémoire des méthodes de réduction de variation antérieures, dans les applications pratiques, les algorithmes SAG (Stochastic Average Gradient Descent) et SAGA (Stochastic Average Gradient Descent with Gradient Accumulation) sont utilisés dans de nombreux problèmes. . ont tendance à nécessiter moins d’itérations que l’algorithme SVRG.Cela a déclenché une réflexion : existe-t-il certains problèmes qui permettent à SAG/SAGA de $O (n d)$ Les exigences en matière de mémoire sont implémentées ci-dessous. Cette section explore une classe de modèles linéaires pour lesquels les besoins en mémoire peuvent être considérablement réduits.

Considérons un modèle linéaire où chaque fonction $f_i(x)$ Cela peut être exprimé comme $xi_i(mathbf{a}_i^top x)$ .droite $X$ La dérivée donne la forme du gradient :
$f_i(x) = xi'(mathbf{a}_i^top x) mathbf{a}_i$
ici, $ξ^{'}$ exprimer $ξ$ la dérivée de.En supposant que nous ayons un accès direct aux vecteurs propres $mathbf{a}_i$ , alors pour implémenter la méthode SAG/SAGA, il suffit de stocker le scalaire $xi(mathbf{a}_i^top x)$ .De cette façon, les besoins en mémoire varient de $O (n d)$ réduit à $O (n)$ . L'algorithme SVRG peut également profiter de cette structure de gradients : en stockant cette $n$ scalaire, nous pouvons réduire le nombre d'évaluations de gradient requises par itération "interne" SVRG à 1 pour cette classe de problèmes.

Il existe d'autres types de problèmes, tels que les modèles graphiques probabilistes, qui offrent également la possibilité de réduire les besoins en mémoire [66]. Grâce à une structure de données spécifique et à l'optimisation de l'algorithme, les ressources mémoire requises par l'algorithme au moment de l'exécution peuvent être encore réduites.

Les formules et variables mathématiques suivantes sont exprimées au format Markdown :

Fonction du modèle linéaire : $f_i(x) = xi_i(mathbf{a}_i^top x)$
Expression du dégradé : $f_i(x) = xi'(mathbf{a}_i^top x) mathbf{a}_i$
Vecteur de caractéristiques : $mathbf{a}_i$
Les besoins en mémoire vont de $O (n d)$ Réduire à $O (n)$ 。

3.4. Traitement des dégradés clairsemés

Dans certains problèmes, le gradient $f_i(x)$ Peut contenir un grand nombre de valeurs nulles, comme un modèle linéaire avec des fonctionnalités clairsemées.Dans ce cas, l'algorithme traditionnel de descente de gradient stochastique (SGD) peut être mis en œuvre efficacement, avec une complexité de calcul linéaire dans le nombre d'éléments non nuls dans le gradient, qui est généralement beaucoup plus petit que la dimension du problème. $d$ . Cependant, dans les méthodes standards de réduction variationnelle (VR), cet avantage n’est pas exploité. Heureusement, il existe deux manières connues d’améliorer cela.

La première amélioration a été proposée par Schmidt et al., qui tire parti de la simplicité du processus de mise à jour et implémente une variante de calcul « à la volée » telle que le coût de chaque itération est proportionnel au nombre d'itérations non nulles. éléments.En prenant SAG comme exemple (mais cette approche fonctionne pour toutes les variantes), cela se fait en ne stockant pas le vecteur complet après chaque itération $v_{ik}$ , mais ne calcule que ceux correspondant aux éléments non nuls $v_{ik_j}$ , en mettant à jour chaque variable depuis la dernière fois que cet élément était différent de zéro $v_{ik_j}$ 。

La deuxième méthode d'amélioration a été proposée par Leblond et al. pour SAGA, qui met à jour la formule. $x_{k+1} = x_k - gamma(nabla f_{ik}(x_k) - nabla f_{ik}(bar{x}_{ik}) + bar{g}_k)$ Un caractère aléatoire supplémentaire est introduit. ici, $f_{ik}(x_k)$ et $f_{ik}(bar{x}_{ik})$ est clairsemé, et $bar{g}_k$ est dense.Dans cette méthode, le terme dense $(bar{g}_k)_j$ Chaque composant de est remplacé par $w_j (bar{g}_k)_j$ ,dans $mathbb{R}^d$ est un vecteur clairsemé aléatoire dont l'ensemble de supports est contenu dans $f_{ik}(x_k)$ , et devrait être un vecteur constant avec tous les éléments égaux à 1. De cette façon, le processus de mise à jour reste impartial (bien que désormais clairsemé) et la variance accrue n'affecte pas le taux de convergence de l'algorithme. Plus de détails sont fournis par Leblond et al.

Les formules et variables mathématiques suivantes sont exprimées au format Markdown :

pente: $f_i(x)$
Mise à jour SGD : $x_{k+1} = x_k - gamma(nabla f_{ik}(x_k) - nabla f_{ik}(bar{x}_{ik}) + bar{g}_k)$
Dégradé clairsemé : $f_{ik}(x_k)$ et $f_{ik}(bar{x}_{ik})$
Dégradé dense : $bar{g}_k$
Vecteurs clairsemés aléatoires : $m$
Attend un vecteur constant : un vecteur dont tous les éléments sont égaux à 1.

Partage de technologie