[Aprendizaje profundo] Conceptos básicos del modelo gráfico (7): método de reducción de varianza en la optimización del aprendizaje automático (1)

2024-07-12

Resumen

La optimización estocástica es un componente vital del aprendizaje automático y su núcleo es el algoritmo de descenso de gradiente estocástico (SGD), un método que se ha utilizado ampliamente desde que se propuso por primera vez hace más de 60 años. Durante los últimos ocho años, hemos sido testigos de un nuevo e interesante desarrollo: técnicas de reducción de varianza para métodos de optimización estocástica. Estos métodos de reducción de la varianza (métodos VR) funcionan bien en escenarios que permiten múltiples iteraciones de los datos de entrenamiento, mostrando una convergencia más rápida que SGD, tanto en teoría como en la práctica. Este aumento de la velocidad pone de relieve el creciente interés en los métodos de realidad virtual y la rápida acumulación de resultados de investigación en esta área. Este artículo revisa los principios clave y los principales avances en los métodos de realidad virtual para la optimización de conjuntos de datos limitados, con el objetivo de informar a los lectores no expertos. Nos centramos principalmente en entornos de optimización convexa y proporcionamos una referencia para los lectores interesados en extensiones para la minimización de funciones no convexas.

Palabras clave | Aprendizaje automático; optimización;

1. Introducción

En el campo de la investigación del aprendizaje automático, una cuestión básica e importante es cómo adaptar modelos a enormes conjuntos de datos. Por ejemplo, podemos considerar el caso típico de un modelo lineal de mínimos cuadrados:

$x^* en argmin_{x en mathbb{R}^d} frac{1}{n} suma_{i=1}^{n} (a_i^T x - b_i)^2$

En este modelo tenemos $d$ parámetros, que están representados por vectores $matemáticasbb{R}^d$ dado.Mientras tanto, tenemos a la mano $norteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorte$ puntos de datos, incluidos vectores de características $a_i en matemáticasbb{R}^d$ y valor objetivo $b_i en matemáticasbb{R}$ .El proceso de adaptación del modelo consiste en ajustar estos parámetros para que la salida prevista del modelo $a_i^Tx$ en promedio lo más cerca posible del valor objetivo $b_i$ 。

En términos más generales, podríamos utilizar una función de pérdida. $f_i(x)$ Para medir las predicciones del modelo y la $i$ Qué tan cerca están los puntos de datos:

$x^* en argmin_{x en mathbb{R}^d} f(x) := frac{1}{n} sum_{i=1}^{n} f_i(x)$

función de pérdida $f_i(x)$ Si es mayor, indica que las predicciones del modelo se desvían mucho de los datos; $f_i(x)$ Igual a cero, el modelo se ajusta perfectamente a los puntos de datos.función $F (X)$ Refleja la pérdida promedio del modelo en todo el conjunto de datos.

Problemas como el formulario (2) anterior se aplican no solo a problemas de mínimos cuadrados lineales, sino también a muchos otros modelos estudiados en aprendizaje automático. Por ejemplo, en un modelo de regresión logística resolvemos:

$x^* en argmin_{x en mathbb{R}^d} frac{1}{n} sum_{i=1}^{n} log(1 + e^{-b_i a_i^T x}) + frac{lambda}{2} |x|_2^2$

Aquí estamos tratando con $b_i en {-1, +1}$ Para un problema de clasificación binaria, la predicción se basa en $a_i^Tx$ símbolos.También se introduce un término de regularización en la fórmula. $|x|_2^2$ para evitar el sobreajuste de los datos, donde $x|_2^2$ expresar $X$ El cuadrado de la norma euclidiana de .

En la mayoría de los modelos de aprendizaje supervisado, el proceso de entrenamiento se puede expresar como la forma (2), incluidos mínimos cuadrados regularizados L1, máquina de vectores de soporte (SVM), análisis de componentes principales, campos aleatorios condicionales y redes neuronales profundas, etc.

Un desafío clave en los casos de problemas modernos es la cantidad de puntos de datos $norteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorte$ Probablemente extremadamente grande. A menudo tratamos con conjuntos de datos que van mucho más allá del rango de los terabytes y pueden provenir de fuentes tan diversas como Internet, satélites, sensores remotos, mercados financieros y experimentos científicos. Para manejar conjuntos de datos tan grandes, un enfoque común es utilizar el algoritmo de descenso de gradiente estocástico (SGD), que utiliza solo una pequeña cantidad de puntos de datos seleccionados aleatoriamente en cada iteración. Además, recientemente ha habido un fuerte aumento en el interés por los métodos de gradiente estocástico de reducción de la varianza (VR), que tienen tasas de convergencia más rápidas que los métodos de gradiente estocástico tradicionales.
Insertar descripción de la imagen aquí
Figura 1. En el problema de regresión logística basado en el conjunto de datos de hongos [7], se utilizaron el método de descenso de gradiente (GD), descenso de gradiente acelerado (AGD, GD acelerado en [50]), descenso de gradiente estocástico (SGD) y ADAM [30]. en comparación con los métodos de reducción de la varianza (VR) SAG y SVRG, donde n = 8124, d = 112.

1.1. Métodos de descenso de gradiente y estocástico.

El descenso de gradiente (GD) es un algoritmo clásico utilizado para resolver el problema anterior (2), y su fórmula de actualización iterativa es la siguiente:
$x_{k+1} = x_k - gamma frac{1}{n} suma_{i=1}^{n} en f_i(x_k)$

aquí, $γ$ es un valor de paso fijo mayor que cero.Durante cada iteración del algoritmo GD, cada punto de datos debe ser $i$ Calcular gradiente $f_i(x_k)$ , lo que significa que GD requiere todos $norteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorte$ realizar un recorrido completo de los puntos de datos.Cuando el tamaño del conjunto de datos $norteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorte$ Cuando se vuelve muy grande, el costo de cada iteración del algoritmo GD se vuelve muy alto, limitando así su aplicación.

Como alternativa, podemos considerar el método de descenso de gradiente estocástico (SGD), propuesto por primera vez por Robbins y Monro, y su fórmula de actualización iterativa es la siguiente:
$x_{k+1} = x_k - gamma sobre f_{i_k}(x_k)$

El algoritmo SGD funciona utilizando únicamente el gradiente de un punto de datos seleccionado aleatoriamente en cada iteración. $f_{i_k}(x_k)$ para reducir el costo de cada iteración. En la Figura 1, podemos ver que SGD logra un progreso más significativo que GD (incluidos los métodos GD acelerados) en las primeras etapas del proceso de optimización.El gráfico muestra el progreso de la optimización en términos de épocas, que se definen como el cálculo de todos $norteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorte$ El número de gradientes para muestras de entrenamiento. El algoritmo GD realiza una iteración en cada ronda, mientras que el algoritmo SGD realiza una iteración en cada ronda $norteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorte$ iteraciones.Usamos rondas como base para comparar SGD y GD, porque bajo el supuesto $norteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorte$ En casos muy grandes, el costo principal de ambos métodos se concentra en el gradiente. $f_i(x_k)$ cálculo.

1.2. Problema de varianza

Consideremos la indexación aleatoria $i_{a}$ de la colección ${1, \dots, norteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorte}$ En el caso de una selección aleatoria uniforme, esto significa que para todos $i$ ,elegir $yo_yo = yo$ La probabilidad $P[i_k = i]$ igual $1 n frac{1}{n}$ . en este caso, $f_{i_k}(x_k)$ como $f(x_k)$ El estimador de es insesgado porque, según la definición de expectativa, tenemos:
$f_{i_k}(x_k) | x_k] = frac{1}{n} suma_{i=1}^{n} resultante f_i(x_k) = resultante f(x_k) quad (6)$

Aunque el método SGD (Stochastic Gradient Descent) no garantiza la función en cada iteración $F$ El valor de disminuirá, pero en promedio se mueve hacia el gradiente completo negativo, que representa la dirección descendente.

Sin embargo, tener un estimador de gradiente insesgado no es suficiente para garantizar la convergencia de las iteraciones SGD. Para ilustrar este punto, la Figura 2 (izquierda) muestra la trayectoria iterativa de SGD cuando se aplica una función de regresión logística utilizando un tamaño de paso constante en el conjunto de datos de cuatro categorías proporcionado por LIBSVM [7].Las elipses concéntricas en la figura representan los contornos de la función, es decir, el valor de la función. $F (X) = C$ punto correspondiente $X$ recolectar, $C$ es una constante específica en el conjunto de los números reales.diferentes valores constantes $C$ Corresponde a diferentes elipses.

La trayectoria iterativa de SGD no converge a la solución óptima (indicada por un asterisco verde en la figura), sino que forma una nube de puntos alrededor de la solución óptima. Por el contrario, en la Figura 2 mostramos la trayectoria iterativa de un método de reducción de la varianza (VR), gradiente promedio estocástico (SAG), utilizando el mismo tamaño de paso constante, que presentaremos más adelante. La razón por la que SGD no converge en este ejemplo es que el gradiente estocástico en sí no converge a cero y, por lo tanto, el método SGD de paso constante (5) nunca se detiene.Esto contrasta fuertemente con los métodos de descenso de gradiente (GD), que naturalmente se detienen cuando $x_k$ Enfoques $x^*$ ,degradado $f(x_k)$ tenderá a cero.
Insertar descripción de la imagen aquí
Figura 2. Gráficos de conjuntos de niveles para regresión logística bidimensional utilizando métodos iterativos SGD (izquierda) y SAG (derecha) de paso fijo. El asterisco verde indica xdesatar.

1.3. Método clásico de reducción de varianza

procesamiento debido a $f_i(x_k)$ Existen varias técnicas clásicas para problemas de no convergencia causados por la varianza de valores.Por ejemplo, Robbins y Monro [64] utilizan una serie de pasos decrecientes $gama_k$ para resolver el problema de la varianza, asegurando que el producto $gamma_k de f_{i_k}(x_k)$ puede converger a cero. Sin embargo, ajustar esta secuencia de pasos decrecientes para evitar detener el algoritmo demasiado pronto o demasiado tarde es un problema difícil.

Otra técnica clásica para reducir la varianza es utilizar múltiples $f_i(x_k)$ promedio para obtener el gradiente completo $\nabla F (X)$ una estimación más precisa. Este enfoque se llama minibatch y es particularmente útil cuando se pueden evaluar múltiples gradientes en paralelo. Esto da como resultado una iteración de la forma:
$x_{k+1} = x_k - gamma frac{1}{|B_k|} suma_{i en B_k} en f_i(x_k) quad (7)$
en $B_k$ es un conjunto de índices aleatorios, $B_k|$ expresar $B_k$ la talla de.si $B_k$ Muestreo uniforme con reemplazo, luego la varianza de esta estimación de gradiente está relacionada con el "tamaño del lote" $B_k|$ es inversamente proporcional, por lo que la variación se puede reducir aumentando el tamaño del lote.

Sin embargo, el costo de tales iteraciones es proporcional al tamaño del lote, por lo que esta forma de reducción de la varianza tiene el costo de un mayor costo computacional.

Otra estrategia común para reducir la varianza y mejorar el desempeño empírico de SGD es agregar "impulso", un término adicional basado en la dirección utilizada en pasos anteriores. En particular, la forma de SGD con impulso es la siguiente:
$x_{k+1} = x_k - gamma m_k cuádruple (9)$
donde el parámetro de impulso $β$ Ubicado en el rango (0, 1).Si el impulso inicial $m_0 = 0$ , y expandir en (8) $m_k$ Para actualizaciones, obtenemos $m_k$ es el promedio ponderado de gradientes anteriores:
$m_k = suma_{t=0}^{k} beta^{kt} en f_{i_t}(x_t) cuádruple (10)$
por lo tanto, $m_k$ es la suma ponderada de gradientes estocásticos.porque $suma_{t=0}^{k} beta^{kt} = frac{1 - beta^{k+1}}{1 - beta}$ , podemos convertir $beta^k} m_k$ Considerado como un promedio ponderado de gradientes estocásticos.Si comparamos esto con la expresión del gradiente completo $f(x_k) = frac{1}{n} suma_{i=1}^{n} de manera que f_i(x_k)$ Para comparar podemos $beta^k} m_k$ (así como $m_k$ ) se interpreta como una estimación del gradiente completo. Si bien esta suma ponderada reduce la variación, también plantea cuestiones clave.Dado que la suma ponderada (10) da más peso a los gradientes muestreados recientemente, no convergerá al gradiente completo. $f(x_k)$ , este último es un promedio simple. El primer método de reducción de la varianza que veremos en la Sección II-A resuelve este problema utilizando un promedio simple en lugar de cualquier promedio ponderado.

1.4. Métodos modernos de reducción de la varianza.

A diferencia de los métodos clásicos, utilizan directamente uno o más $f_i(x_k)$ como $f(x_k)$ Como aproximación, los métodos modernos de reducción de la varianza (VR) emplean una estrategia diferente.Estos métodos utilizan $f_i(x_k)$ para actualizar la estimación del gradiente $gramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramo_{a}$ , cuyo objetivo es hacer $gramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramo_{a}$ acercarse $f(x_k)$ .En concreto, esperamos $gramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramo_{a}$ capaz de satisfacer $g_k aproximadamente igual a f(x_k)$ . Con base en dichas estimaciones de gradiente, luego realizamos un paso de gradiente aproximado de la forma:
$x_{k+1} = x_k - gamma g_k cuádruple (11)$
aquí $γ > 0$ es el parámetro de tamaño de paso.

Para garantizar que se utilice un tamaño de paso constante $γ$ Cuando la iteración (11) puede converger, debemos asegurarnos de que la estimación del gradiente $gramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramo_{a}$ La varianza tiende a cero. Matemáticamente, esto se puede expresar como:
$g_k - nabla f(x_k) |^2 right] flecha derecha 0 quad text{as } k flecha derecha infty quad (12)$
expectativas aquí $mi$ se basa en el algoritmo hasta el $a$ Todas las variables aleatorias se calculan para iteraciones. La propiedad (12) garantiza que el método VR pueda detenerse cuando se alcance la solución óptima. Consideramos esta propiedad como una característica distintiva del enfoque de realidad virtual y, por lo tanto, la llamamos propiedad de realidad virtual. Vale la pena señalar que la expresión varianza "reducida" puede inducir a error, porque en realidad la varianza tiende a cero. La propiedad (12) es un factor clave que permite que los métodos de realidad virtual logren una convergencia más rápida en la teoría (bajo supuestos apropiados) y en la práctica (como se muestra en la Figura 1).

1.5 Primer ejemplo de método de reducción de varianza: SGD².

Un método de mejora simple puede hacer que la fórmula recursiva SGD (5) alcance la convergencia sin reducir el tamaño del paso, es decir, traducir cada gradiente. El método específico es restar. $f_i(x^*)$ , este método se define de la siguiente manera:
$x_{k+1} = x_k - gamma (en el caso de f_{i_k}(x_k) - en el caso de f_{i_k}(x^*)) quad (13)$
Este método se llama SGD² [22].Aunque normalmente no podemos saber con seguridad cada $f_i(x^*)$ , pero SGD², como ejemplo, puede ilustrar bien las características básicas del método de reducción de la varianza.Además, muchos métodos de reducción de la varianza pueden verse como una forma aproximada del método SGD²; estos métodos no se basan en los conocidos; $f_i(x^*)$ , sino que utilice un método que pueda aproximarse $f_i(x^*)$ valor estimado.

Vale la pena señalar que SGD² utiliza una estimación insesgada del gradiente completo.porque $f(x^*) = 0$ ,F:
$f_{i_k}(x_k) - nabla f_{i_k}(x^*)] = nabla f(x_k) - nabla f(x^*) = nabla f(x_k)$
Además, cuando SGD² alcance la solución óptima, naturalmente se detendrá porque para cualquier $i$ ,tener:
$f_i(x) - por defecto f_i(x^*)) bigg|_{x=x^*} = 0$

Tras una observación adicional, con $x_k$ cerca $x^*$ (para consecutiva $f_i$ ), SGD² satisface la propiedad de reducción de la varianza (12) porque:
$g_k - nabla f(x_k) |^2 derecha] = \Eizquierda[ | nabla f_{i_k}(x_k) - nabla f_{i_k}(x^*) - nabla f(x_k) |^2 derecha] leq Eizquierda[ | nabla f_{i_k}(x_k) - nabla f_{i_k}(x^*) |^2 derecha]$
Aquí usamos el Lema 2, dejemos $X = f_{i_k}(x_k) - f_{i_k}(x^*)$ y aprovechó $f_{i_k}(x_k) - nabla f_{i_k}(x^*)] = nabla f(x_k)$ naturaleza. Esta propiedad indica que SGD² tiene una velocidad de convergencia más rápida que los métodos SGD tradicionales, que detallamos en el Apéndice B.

1.6. Método de convergencia rápida de reducción de la varianza.

En esta sección introduciremos dos supuestos estándar utilizados para analizar el método de reducción de la varianza (VR) y discutiremos el efecto de aceleración que se puede lograr bajo estos supuestos en comparación con el método SGD tradicional. Primero, asumimos que el gradiente tiene continuidad de Lipschitz, lo que significa que la tasa de cambio del gradiente es finita.

Supuesto 1 (continuidad de Lipschitz)

Suponemos que la función $F$ es diferenciable y es $yo$ - suave, para todos $X$ y $y$ y alguien $0 < yo < \infty$ ,Las siguientes condiciones:
$∥\nabla F (X) - \nabla F (y) ∥ \leq yo ∥ X - y ∥ (14)$
Esto significa que cada $mathbb{R}^d flecha derecha mathbb{R}$ es diferenciable, $yo_{i}$ - suave, definimos $L_{texto{máx}}$ para $máx{L_1, . . . , L_n}$ 。

Aunque esto generalmente se considera una suposición débil, en capítulos posteriores discutiremos métodos de realidad virtual que son adecuados para problemas no fluidos. Para una función univariada dos veces diferenciable, $yo$ -La suavidad se puede entender intuitivamente como: equivale a suponer que la segunda derivada es $yo$ límite superior, es decir $∣ F^{''} (X) ∣ \leq yo$ para todos $matemáticasbb{R}^d$ .Para funciones dos veces diferenciables de múltiples variables, es equivalente a asumir una matriz de Hesse $a^2 f(x)$ El valor singular de $yo$ limite superior.

Supuesto 2 (fuerte convexidad)

La segunda hipótesis que consideramos es que la función (f) es $μ$ -Fuertemente convexo, lo que significa que para un cierto $μ > 0$ ,función $frac{mu}{2}|x|^2$ Es convexo.Además, para cada $i = 1, ..., norteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorte$ ， $mathbb{R}^d flecha derecha mathbb{R}$ Es convexo.

Esta es una suposición fuerte.En el problema de mínimos cuadrados, cada (fi$ es convexa, pero la función general (f) está solo en la matriz de diseño $A := [a_1, . . . , a_n]$ Es fuertemente convexo sólo si tiene un rango de fila perfecto. El problema de regresión logística regularizada L2 satisface este supuesto debido a la existencia del término de regularización, donde $μ \geq λ$ 。

Una clase importante de problemas que satisfacen estos supuestos son los problemas de optimización de la forma:
$x^* en argmin_{x en mathbb{R}^d} f(x) = frac{1}{n} suma_{i=1}^{n} ell_i(a_i^Tx) + frac{lambda}{2}|x|^2 quad (15)$
donde cada función de "pérdida" $ell_i: mathbb{R} flecha derecha mathbb{R}$ es dos veces diferenciable y su segunda derivada $ell_i''$ está restringido a 0 y algún límite superior $METROETRO$ entre. Esto incluye una variedad de funciones de pérdida con regularización L2 en aprendizaje automático, como mínimos cuadrados, regresión logística, regresión probit, regresión robusta de Huber, etc.En este caso, para todos $i$ ,Tenemos $L_i leq M|a_i|^2 + lambda$ y $μ \geq λ$ 。

Bajo estos supuestos, la tasa de convergencia del método de descenso de gradiente (GD) está determinada por el número de condición $κ := yo / μ$ Decidir. El número de condición siempre es mayor o igual a 1, y cuando es significativamente mayor que 1, los contornos de la función se vuelven muy elípticos, haciendo que las iteraciones del método GD oscilen.Por el contrario, cuando $κ$ Cuando está cerca de 1, el método GD converge más rápido.

Según los Supuestos 1 y 2, el método VR converge a una tasa lineal.Decimos que el valor de la función de un método aleatorio ({f(x_k)}) viene dado por $0 < ρ \leq 1$ La tasa de convergencia lineal (bajo lo esperado), si existe una constante $C > 0$ Marcas:
$E[f(x_k)] - f(x^*) leq (1 - rho)^k C = O(exp(-krho)) cuádruple para todo k cuádruple (16)$
Esto contrasta con los métodos SGD clásicos que se basan únicamente en estimaciones insesgadas del gradiente en cada iteración, que solo obtienen tasas sublineales bajo estos supuestos:
$E[f(x_k)] - f(x^*) leq O(1/k)$
El mínimo que satisface esta desigualdad $a$ Se llama complejidad iterativa del algoritmo. Los siguientes son la complejidad iterativa y el costo de una iteración para variantes básicas de los métodos GD, SGD y VR:

algoritmo	Número de iteraciones	costo de una iteración
Dios bendiga	$Ohhhhhhhhhhhhhhhhhhhhhhhhhhhhhh (κ Lo gramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramo (1/ ϵ))$	$Ohhhhhhhhhhhhhhhhhhhhhhhhhhhhhh (norteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorte)$
Dólares singapurenses	$O(kappa_{text{máx}} máx(1/épsilon))$	$Ohhhhhhhhhhhhhhhhhhhhhhhhhhhhhh (1)$
realidad virtual	$O((kappa_{text{máx}} + n) log(1/épsilon))$	$Ohhhhhhhhhhhhhhhhhhhhhhhhhhhhhh (1)$

El tiempo total de ejecución de un algoritmo está determinado por el producto de la complejidad de la iteración y el tiempo de ejecución de la iteración.usado aquí $kappa_{text{máx}} := máx_i L_i/mu$ .Aviso $kappa_{text{máx}} geq kappa$ Por lo tanto, la complejidad de iteración de GD es menor que la del método VR.

Sin embargo, dado que el costo por iteración de GD es el del método VR $norteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorte$ veces, el método VR es superior en términos de tiempo total de ejecución.

La ventaja de los métodos SGD clásicos es que su tiempo de ejecución y tasa de convergencia no dependen de $norteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorte$ , pero tiene una tolerancia $ϵ$ La dependencia de es mucho peor, lo que explica el pobre desempeño del SGD cuando la tolerancia es pequeña.

En el Apéndice B, proporcionamos una prueba simple que muestra que el método SGD² tiene la misma complejidad iterativa que el método VR.

2. Método básico de reducción de la varianza

El desarrollo de métodos de reducción de la varianza (VR) ha pasado por varias etapas, y el lote inicial de métodos dio como resultado tasas de convergencia significativamente mejoradas. El comienzo de esta serie de métodos es el algoritmo SAG. Posteriormente, el algoritmo de ascenso estocástico de doble coordenada (SDCA), el algoritmo MISO, el algoritmo de gradiente estocástico de reducción de varianza (SVRG/S2GD) y el algoritmo SAGA (que significa SAG "mejorado") surgieron uno tras otro.

En este capítulo, detallaremos estos métodos pioneros de realidad virtual. En el Capítulo 4, exploraremos algunos métodos más nuevos que muestran características superiores en comparación con estos métodos básicos en escenarios de aplicación específicos.

2.1. Método de gradiente medio estocástico (SAG)

Nuestra exploración del primer método de reducción de la varianza (VR) comienza con la imitación de la estructura de gradiente completa.Desde el gradiente completo $\nabla F (X)$ es todo $f_i(x)$ Un promedio simple de los gradientes, luego nuestra estimación del gradiente completo $gramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramo_{a}$ También debería ser el promedio de estas estimaciones de gradiente. Esta idea dio origen a nuestro primer método de realidad virtual: el método del gradiente promedio estocástico (SAG).

El método SAG [37], [65] es una versión aleatoria del método temprano de gradiente agregado incremental (IAG) [4]. La idea central de SAG es que para cada punto de datos $i$ mantener una estimación $v_{ik} aproximadamente de f_i(x_k)$ .Entonces, usa estos $_v_{ik}$ El promedio de los valores se utiliza como estimación del gradiente completo, es decir:
$bar{g}_k = frac{1}{n} suma_{j=1}^{n} v_{jk} aprox frac{1}{n} suma_{j=1}^{n} nabla f_j(x_k) = nabla f(x_k) quad (18)$

En cada iteración de SAG, del conjunto ${1, \dots, norteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorte}$ Extraer un índice de $i_{a}$ y luego actualizado de acuerdo con las siguientes reglas $v_{jk}$ ：
$begin{cases} nabla f_{i_k}(x_k), & text{if } j = i_k \ v_{jk}^k, & text{if } j neq i_k end{cases}$
Entre ellos, cada $v_{0i}$ Se puede inicializar a cero o $f_i(x_0)$ valor aproximado.con la solución $x^*$ aproximación, cada $_v_{ik}$ convergerá gradualmente a $f_i(x^*)$ , satisfaciendo así la propiedad VR (12).

Para implementar SAG de manera eficiente, debemos prestar atención al cálculo $barra{g}_k$ para evitar comenzar la suma desde cero cada vez $norteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorte$ vector, porque esto es $norteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorte$ El costo es alto cuando es grande.Afortunadamente, dado que cada iteración sólo tiene una $_v_{ik}$ Los términos cambiarán y no tendremos que volver a calcular la suma completa cada vez.Específicamente, supongamos que mientras se itera $a$ Índice extraído de $i_{a}$ , entonces hay:
$barra{g}_k = frac{1}{n} suma_{subpila{j=1 \ j neq i_k}}^{n} v_{jk} + frac{1}{n} v_{i_k}^k = barra{g}_{k-1} - frac{1}{n} v_{i_k}^{k-1} + frac{1}{n} v_{i_k}^k cuádruple (20)$

Ya que además de $v_{i_k}$ todo excepto $v_{jk}$ Todos los valores siguen siendo los mismos, solo almacenamos cada uno $yo$ Un vector correspondiente a $en_{yo}$ . El algoritmo 1 muestra la implementación específica del método SAG.

SAG es el primer método estocástico que logra una convergencia lineal y su complejidad de iteración es $O((kappa_{text{máx}} + n) log(1/épsilon))$ , usando el tamaño del paso $O(1/L_{text{máx}})$ . Esta convergencia lineal se puede observar en la Figura 1.Vale la pena señalar que debido a $L_{texto{máx}}$ -Función suave para cualquier $L_{text{máx}}$ También $yo^{'}$ - Los métodos SAG suaves logran tasas de convergencia lineal para tamaños de paso suficientemente pequeños, en contraste con los métodos SGD clásicos, que solo logran tasas sublineales con secuencias de tamaños de paso decrecientes que son difíciles de ajustar en la práctica.

En ese momento, la convergencia lineal de SAG fue un avance significativo porque calculaba solo un gradiente estocástico (procesando un único punto de datos) en cada iteración. Sin embargo, la prueba de convergencia proporcionada por Schmidt et al. [65] es muy compleja y se basa en pasos verificados por computadora. Una razón clave por la que el SAG es difícil de analizar es que $gramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramo_{a}$ es una estimación sesgada del gradiente.

A continuación, presentamos el método SAGA, una variante de SAG que explota el concepto de covariables para crear una variante imparcial del método SAG que tiene un rendimiento similar pero es más fácil de analizar.

Algoritmo 1: método SAG

Parámetros: tamaño del paso $γ > 0$
inicialización: $x_0$ ， $v_i = 0 en mathbb{R}^d$ para $i = 1, \dots, norteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorte$
bien $a = 1, \dots, yo - 1$ implementar:
una selección aleatoria $i_k en {1, lpuntos, n}$
b.calcular $bar{g}_k = bar{g}_{k-1} - frac{1}{n} v_{i_k}^{k-1}$
c.actualizar $v_{i_k}^k = f_{i_k}(x_k)$
d. Actualizar estimación de gradiente $barra{g}_k = barra{g}_k + frac{1}{n} v_{i_k}^k$
e.actualizar $x_{k+1} = x_k - gamma bar{g}_k$
Producción: $x_T$

2.2.Método SAGA

Una estimación de gradiente básica e insesgada reducida $f_{i_k}(x_k)$ El enfoque de la varianza se realiza mediante el uso de las llamadas covariables o variables de control.para $i = 1, \dots, norteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorte$ ,configuración $v_i en mathbb{R}^d$ es un vector.Usando estos vectores, podemos convertir el gradiente completo. $\nabla F (X)$ Reescrito como:
$suma_{i=1}^{n}(nabla f_i(x) - v_i + v_i) = frac{1}{n} suma_{i=1}^{n} nabla f_i(x) - v_i + frac{1}{n} suma_{j=1}^{n} v_j$
$suma_{i=1}^{n} de f_i(x, v) quad (21)$
que define $f_i(x, v) := de f_i(x) - v_i + frac{1}{n} suma_{j=1}^{n} v_j$ .Ahora podemos muestrear aleatoriamente una $f_i(x, v)$ para construir el gradiente completo $\nabla F (X)$ Una estimación insesgada de $i \in {1, \dots, norteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorte}$ , puede aplicar el método SGD y utilizar la estimación de gradiente:
$g_k = nabla f_{i_k}(x_k, v) = nabla f_{i_k}(x_k) - v_{i_k} + frac{1}{n} suma_{j=1}^{n} v_j quad (22)$

para observación $v_i$ La diferencia del par de selección. $gramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramo_{a}$ influencia, podemos $g_k = f_{i_k}(x_k, v)$ Sustituir y usar $E_i sim frac{1}{n}[v_i] = frac{1}{n} suma_{j=1}^{n} v_j$ Para calcular la expectativa, obtenemos:
$f_i(x_k) - v_i + E_i sim frac{1}{n}[v_i - nabla f_i(x_k)]|^2 derecha] leq E izquierda[ |nabla f_i(x_k) - v_i|^2 derecha] quad (23)$
Aquí se utiliza el lema 2, donde $X = f_i(x_k) - v_i$ .Esta cota (23) muestra que si $v_i$ junto con $a$ El aumento es cercano a $f_i(x_k)$ , podemos obtener atributos de realidad virtual (12).Por eso llamamos $v_i$ son covariables y podemos seleccionarlas para reducir la varianza.

Por ejemplo, este enfoque también se implementa mediante el método SGD² (13), donde $v_i = nabla f_i(x^*)$ .Sin embargo, esto no se usa comúnmente en la práctica porque normalmente no sabemos $f_i(x^*)$ .Una opción más práctica es $v_i$ como la conocemos $bar{x}_i en mathbb{R}^d$ gradiente cercano $f_i(bar{x}_i)$ . SAGA para cada función $f_i$ utilizar un punto de referencia $bar{x}_i en mathbb{R}^d$ y utilizar covariables $v_i = nabla f_i(bar{x}_i)$ , cada uno de los cuales $barra{x}_i$ será nuestra última evaluación $f_i$ punto. Usando estas covariables, podemos construir una estimación de gradiente, siguiendo (22), dando:
$g_k = nabla f_{i_k}(x_k) - nabla f_{i_k}(bar{x}_{i_k}) + frac{1}{n} suma_{j=1}^{n} nabla f_j(bar{x}_j) quad (24)$

Para implementar SAGA podemos almacenar gradientes. $f_i(bar{x}_i)$ en lugar de $norteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorte$ punto de referencia $barra{x}_i$ .Es decir, supongamos $v_j = barra f_j(x_j)$ para $yo \in {1, \dots, norteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorte}$ , en cada iteración, actualizamos un gradiente estocástico como SAG $en_{yo}$ 。

Algoritmo 2 SAGA

Parámetros: tamaño del paso $γ > 0$
inicialización: $x_0$ ， $v_i = 0 en mathbb{R}^d$ para $i = 1, \dots, norteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorte$
conducta $a = 1, \dots, yo - 1$ iteraciones:
una selección aleatoria $i_k en {1, lpuntos, n}$
b. Guardar valor anterior $v_{text{antiguo}} = v_{i_k}$
c.actualizar $v_{i_k} = suma f_{i_k}(x_k)$
actualizar $x_{k+1} = x_k - gamma (v_{i_k} - v_{text{antiguo}} + barra{g}_k)$
e. Actualizar estimación de gradiente $bar{g}_k = bar{g}_{k-1} + frac{1}{n} (v_{i_k} - v_{text{antiguo}})$
Producción: $x_T$

El método SAGA tiene la misma complejidad de iteración que SAG. $O((kappa_{text{máx}} + n) log(1/épsilon))$ , usando el tamaño del paso $O(1/L_{text{máx}})$ , pero la prueba es mucho más sencilla.Sin embargo, al igual que SAG, el método SAGA requiere almacenamiento $norteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorte$ vectores auxiliares $v_i en mathbb{R}^d$ para $i = 1, \dots, norteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorte$ , lo que significa la necesidad $Ohhhhhhhhhhhhhhhhhhhhhhhhhhhhhh (norteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorte d)$ de espacio de almacenamiento.cuando $d$ y $norteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorte$ Cuando ambos son grandes, esto puede no ser factible. En la siguiente sección, detallamos cómo reducir este requisito de memoria para modelos comunes, como los modelos lineales regularizados.

cuando sea capaz de $norteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorte$ Cuando se almacenan dos vectores auxiliares en la memoria, SAG y SAGA tienden a comportarse de manera similar. Si este requisito de memoria es demasiado alto, el método SVGG, que revisaremos en la siguiente sección, es una buena alternativa. El método SVGG logra la misma tasa de convergencia y a menudo es casi tan rápido en la práctica, pero sólo requiere $Ohhhhhhhhhhhhhhhhhhhhhhhhhhhhhh (d)$ de la memoria, para cuestiones generales.

2.3.Método SVGG

Antes de la aparición del método SAGA, algunos de los primeros trabajos introdujeron covariables por primera vez para resolver el problema de alta memoria requerido por el método SAG.Estos estudios se basan en un punto de referencia fijo. $mathbb{R}^d$ covariables, hemos calculado el gradiente completo en ese punto $\nabla F (\overset{X}{ˉ})$ .almacenando puntos de referencia $\overset{X}{ˉ}$ y el gradiente completo correspondiente $\nabla F (\overset{X}{ˉ})$ , podemos hacer esto sin almacenar cada uno $f_j(barra{x})$ En caso de utilizar $barra{x}_j = barra{x}$ a todos $yo$ para implementar la actualización (24).Específicamente, en lugar de almacenar estos vectores, utilizamos los puntos de referencia almacenados en cada iteración. $\overset{X}{ˉ}$ calcular $f_{i_k}(bar{x})$ . Este método fue propuesto originalmente por diferentes autores con diferentes nombres, pero luego fue unificado como método SVGG, siguiendo la nomenclatura de [28] y [84].

Formalizamos el método SVGG en el Algoritmo 3.

Usando (23), podemos derivar la estimación del gradiente. $gramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramo_{a}$ La varianza de está acotada:
$g_k - nabla f(x_k) |^2 derecha] leq Eizquierda[ | nabla f_i(x_k) - nabla f_i(barra{x}) |^2 derecha] leq L_{texto{máx}}^2 | x_k - barra{x} |^2$
donde la segunda desigualdad usa cada $f_i$ de $yo_{i}$ -Suavidad.

Vale la pena señalar que el punto de referencia $\overset{X}{ˉ}$ Cuanto más cerca del punto actual $x_k$ , menor será la varianza de la estimación del gradiente.

Para que el método SVGG sea efectivo, necesitamos actualizar los puntos de referencia con frecuencia. $\overset{X}{ˉ}$ (lo que requiere el cálculo del gradiente completo) se sopesa frente al beneficio de una varianza reducida.Por esta razón, cada uno de nosotros $a$ Actualice el punto de referencia una vez en cada iteración para acercarlo a $x_k$ (Ver línea 11 del Algoritmo II-C).Es decir, el método SVGG contiene dos bucles: un bucle exterior $s$ , donde se calcula el gradiente de referencia $f(bar{x}_{s-1})$ (Línea 4), y un bucle interno donde el punto de referencia se fija y la iteración interna se actualiza en función del paso de gradiente estocástico (22) $x_k$ (Línea 10).

A diferencia de SAG y SAGA, SVGG sólo requiere $Ohhhhhhhhhhhhhhhhhhhhhhhhhhhhhh (d)$ de la memoria. Las desventajas de SVGG incluyen: 1) Tenemos un parámetro adicional $a$ , es decir, la longitud del bucle interno debe ajustarse; 2) Se deben calcular dos gradientes para cada iteración y se debe calcular el gradiente completo cada vez que se cambia el punto de referencia.

Johnson y Zhang [28] demostraron que SVGG tiene complejidad iterativa $O((kappa_{text{máx}} + n) log(1/épsilon))$ , similar a SAG y SAGA.Este es el número de bucles dentro de la hipótesis. $a$ de la colección ${1, \dots, metroetroetroetroetroetroetroetroetroetro}$ Obtenido bajo la condición de muestreo uniforme, donde $L_{texto{máx}}$ ， $μ$ , Numero de pie $γ$ y $a$ Se deben satisfacer ciertas dependencias entre ellos.En la práctica, utilizando $O(1/L_{text{máx}})$ y longitud del bucle interior $a = norteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorte$ , SVGG tiende a funcionar bien, que es exactamente la configuración que utilizamos en la Figura 1.

Ahora, existen muchas variaciones del método SVGG original.Por ejemplo, algunas variaciones utilizan $a$ distribución alternativa [32], algunas variantes permiten la forma $O(1/L_{text{máx}})$ El tamaño del paso [27], [33], [35].También hay algunas variaciones usando $\nabla F (\overset{X}{ˉ})$ aproximación de mini lotes para reducir el costo de estas evaluaciones de gradiente completo y aumentar el tamaño del mini lote para preservar las propiedades de la realidad virtual.También hay algunas variantes donde las actualizaciones se repiten en el bucle interno según [54] $gramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramo_{a}$ ：
[ g_k = f_{i_k}(x_k) - f_{i_k}(x_{k-1}) + g_{k-1} quad (25) ]
Esto proporciona una aproximación más local. El uso de esta variante de actualización continua (25) muestra ventajas únicas al minimizar funciones no convexas, como analizamos brevemente en la Sección IV.Finalmente, tenga en cuenta que SVGG puede aprovechar $f(bar{x}_s)$ valor para ayudar a decidir cuándo terminar el algoritmo.

Algoritmo 3 método SVGG

Parámetros: tamaño del paso $γ > 0$
Inicializar punto de referencia $bar{x}_0 = x_0 en mathbb{R}^d$
Realizar circulación externa. $s = 1, 2, \dots$ ：
a. Calcular y almacenar $f(bar{x}_{s-1})$
b. $x_0 = barra{x}_{s-1}$
c. Seleccione el número de iteraciones del bucle interno. $a$
d. Realizar circulación interna. $a = 0, 1, \dots, a - 1$ ：
yo. selección aleatoria $i_k en {1, lpuntos, n}$
Cálculo $g_k = nabla f_{i_k}(x_k) - nabla f_{i_k}(bar{x}_{s-1}) + nabla f(bar{x}_{s-1})$
iii.actualizar $x_{k+1} = x_k - gamma g_k$
e. Actualizar punto de referencia $barra{x}_s = x_t$

2.4. SDCA y sus variantes

Una desventaja de los métodos SAG y SVGG es que el tamaño de su paso depende de valores desconocidos que pueden ser desconocidos en algunos problemas. $L_{texto{máx}}$ . Antes de SVRG, el método SDCA [70], como uno de los primeros métodos de realidad virtual, extendió la investigación sobre métodos de descenso de coordenadas a problemas de suma finita. La idea detrás de SDCA y sus variantes es que las coordenadas del gradiente proporcionan una estimación del gradiente natural que reduce la varianza.Específicamente, supongamos $yo \in {1, \dots, d}$ y definir $nabla_j f(x) := izquierda( frac{parcial f(x)}{parcial x_j} derecha) e_j$ es el ésimo de (f(x)) $yo$ derivadas en direcciones de coordenadas, donde $e_j en mathbb{R}^d$ es el primero $yo$ vector unitario.Una propiedad clave de las derivadas de coordenadas es que $nabla_j f(x^*) = 0$ , porque sabemos $f(x^*) = 0$ .La derivada de esto con cada punto de datos. $f_j$ diferente, este último es $x^*$ puede que no sea cero. Por lo tanto tenemos:
$nabla_j f(x) |^2 flecha derecha 0 quad text{当} quad x flecha derecha x^* quad (26)$
Esto significa que la derivada de coordenadas satisface la propiedad de reducción de la varianza (12).Además, podemos utilizar $nabla_j f(x)$ para construir $\nabla F (X)$ una estimación insesgada de.Por ejemplo, supongamos $yo$ es de la coleccion ${1, \dots, d}$ Un índice seleccionado uniformemente al azar en .Por lo tanto, para cualquier $i \in {1, \dots, d}$ ,Tenemos $P [ j = i ] = 1 d P[j = i] = frac{1}{d}$ . por lo tanto, $nabla_j f(x)$ Sí $\nabla F (X)$ Una estimación insesgada de porque:
$nabla_j f(x) derecha] = d suma_{i=1}^{d} P[j = i] frac{parcial f(x)}{parcial x_i} e_i = suma_{i=1}^{d} frac{parcial f(x)}{parcial x_i} e_i = nabla f(x)$

por lo tanto, $nabla_j f(x)$ Tiene todas las propiedades ideales que esperaríamos de la realidad virtual para estimar gradientes completos, sin necesidad de utilizar covariables. Una desventaja de utilizar este gradiente de coordenadas es que es computacionalmente costoso para nuestro problema de suma (2).Esto se debe a que el cálculo $nabla_j f(x)$ Es necesario recorrer todo el conjunto de datos porque $nabla_j f(x) = frac{1}{n} suma_{i=1}^{n} nabla_j f_i(x)$ . Por lo tanto, el uso de derivadas de coordenadas parece incompatible con la estructura de nuestro problema de suma. Sin embargo, a menudo podemos reescribir el problema original (2) en la denominada formulación dual, donde las derivadas de coordenadas pueden explotar la estructura inherente.

Por ejemplo, la fórmula dual del modelo lineal regularizado L2 (15) es:
$v^* en argmax_{v en mathbb{R}^n} frac{1}{n} suma_{i=1}^{n} -ell_i^*(-v_i) - frac{lambda}{2} izquierda| frac{1}{lambda} suma_{i=1}^{n} v_i a_i derecha|^2 cuadrante (27)$
en $ell_i^*(v)$ Sí $ell_i$ conjugado convexo.Podemos usar el mapeo $suma_{i=1}^{n} v_i a_i$ para restaurar el problema original (15) $X$ variable.resolverá $v^*$ Sustituyendo en el lado derecho del mapeo anterior, podemos obtener la solución de (15) $x^*$ 。

Tenga en cuenta que este doble problema tiene $norteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorte$ variables reales $v_i en matemáticasbb{R}$ , correspondiente a uno para cada muestra de entrenamiento.Además, cada función de pérdida dual $ell_i^*$ solo $v_i$ La función. Es decir, el primer término de la función de pérdida es coordinadamente separable. Esta separabilidad en coordenadas, junto con la forma simple del segundo término, nos permite implementar eficientemente el método de ascenso de coordenadas.De hecho, Shalev-Shwartz y Zhang demostraron que el ascenso coordinado en este problema tiene una complejidad iterativa similar a SAG, SAGA y SVGG. $O((kappa_{text{máx}} + n) log(1/épsilon))$ 。

El costo de iteración y la estructura del algoritmo también son muy similares: suma por seguimiento $suma_{i=1}^{n} v_i a_i$ Para manejar el segundo término en (27), cada iteración de ascenso de coordenadas duales solo necesita considerar una muestra de entrenamiento, y el costo de cada iteración es el mismo que $norteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorte$ Nada que hacer.Además, podemos utilizar una búsqueda de líneas 1D para calcular eficientemente el tamaño del paso para maximizar como $v_i$ Doble objetivo de la función.Esto significa que incluso sin $L_{texto{máx}}$ O con el conocimiento de las cantidades relevantes, también es posible lograr tiempos de ejecución rápidos en el peor de los casos para los métodos de realidad virtual.

3. Cuestiones prácticas de reducción de la varianza

Para implementar el método básico de reducción de la varianza (VR) y lograr un rendimiento razonable, se deben abordar varios problemas de implementación. En esta sección, analizamos varios temas que no se trataron anteriormente.

3.1.SAG/SAGA/SVRG configuración del tamaño del paso

En el campo de los algoritmos de optimización, especialmente en los métodos de reducción de variación como el gradiente promedio estocástico (SAG), el algoritmo de gradiente promedio estocástico (SAGA) y el gradiente estocástico (SVRG), la configuración del tamaño del paso es una cuestión clave.Aunque para el método de ascenso estocástico de coordenadas duales (SDCA), podemos usar el objetivo dual para determinar el tamaño del paso, la base teórica para los métodos variables originales de SAG, SAGA y SVGG es que el tamaño del paso debe ser $(frac{1}{L_{text{máx}}} derecha)$ forma.Sin embargo, en aplicaciones prácticas, a menudo no sabemos $L_{texto{máx}}$ valor exacto y el uso de otros tamaños de paso puede proporcionar un mejor rendimiento.

Una estrategia clásica para establecer el tamaño del paso en el método de descenso de gradiente completo (GD completo) es la búsqueda de líneas de Armijo.dado el punto actual $x_k$ y dirección de búsqueda $gramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramoramo_{a}$ , Línea Armijo busca en $gama_k$ se lleva a cabo en la línea, que se define como $gamma_k en {gamma : x_k + gamma g_k}$ , y se requiere que la función se reduzca suficientemente, es decir:
$f(x_k + gamma_k g_k) < f(x_k) - c gamma_k |nabla f(x_k)|^2$
Sin embargo, este enfoque requiere múltiples pasos candidatos. $gama_k$ Cálculo $f(x_k + gamma_k g_k)$ , que evalúa $F (X)$ Costo prohibitivo cuando se trata de recorrer todo el conjunto de datos.

Para resolver este problema se puede utilizar un método de variación aleatoria para encontrar aquellos que cumplan las siguientes condiciones $gama_k$ ：
$f_{ik}(x_k + gamma_k g_k) < f_{ik}(x_k) - c gamma_k |nabla f_{ik}(x_k)|^2$
Este enfoque suele funcionar bien en la práctica, especialmente cuando $f_{ik}(x_k)|$ no está cerca de cero, aunque actualmente no existe ninguna teoría que respalde este enfoque.

Además, Mairal propuso una "técnica de Bottou" para establecer el tamaño del paso en la práctica. Este método realiza una búsqueda binaria tomando una pequeña porción del conjunto de datos (por ejemplo, 5%) para intentar encontrar el tamaño de paso óptimo en una sola pasada a través de esta muestra. Al igual que la búsqueda de líneas de Armijo, este método suele funcionar bien en la práctica, pero nuevamente carece de una base teórica.

Tenga en cuenta que el contenido anterior es una reformulación del texto original y utiliza el formato Markdown para representar fórmulas y variables matemáticas.

Sin embargo, el método SDCA también tiene algunas desventajas.Primero, requiere calcular el conjugado convexo. $ell_i^*$ en lugar de un simple gradiente. No tenemos un equivalente diferencial automático para conjugados convexos, por lo que esto puede aumentar el esfuerzo de implementación. Trabajos recientes han propuesto métodos SDCA "doble libre" que no requieren conjugación y, en cambio, utilizan gradientes directamente. Sin embargo, en estos métodos ya no es posible realizar un seguimiento del objetivo dual para establecer el tamaño del paso.En segundo lugar, aunque SDCA sólo exige $Ohhhhhhhhhhhhhhhhhhhhhhhhhhhhhh (norteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorte + d)$ memoria para resolver el problema (15), pero para esta categoría de problema, SAG/SAGA sólo necesita $Ohhhhhhhhhhhhhhhhhhhhhhhhhhhhhh (norteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorte + d)$ de la memoria (ver Sección 3).Una variante de SDCA adecuada para problemas más generales con SAG/SAGA $Ohhhhhhhhhhhhhhhhhhhhhhhhhhhhhh (norteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorte d)$ memoria porque $v_i$ convertirse en tener $d$ vector de elementos. Un último inconveniente sutil de SDCA es que implícitamente asume una constante de convexidad fuerte. $μ$ igual $λ$ .para $μ$ más que el $λ$ problema, el método de realidad virtual original generalmente supera significativamente a SDCA.

3.2. Determinación de las condiciones de terminación

En el campo de la optimización de algoritmos, a menudo nos basamos en resultados teóricos de complejidad iterativa para predecir el peor número de iteraciones necesarias para que un algoritmo alcance una precisión específica. Sin embargo, estos límites teóricos a menudo dependen de algunas constantes que no podemos predecir y, en aplicaciones prácticas, el algoritmo a menudo puede lograr la precisión esperada en menos iteraciones. Por lo tanto, necesitamos configurar algunos criterios de prueba para determinar cuándo se debe terminar el algoritmo.

En el método tradicional de descenso de gradiente completo (GD completo), generalmente usamos la norma del gradiente $f(x_k) |$ O alguna otra cantidad relacionada con esto para decidir cuándo detener la iteración.Para el método SVGG podemos adoptar el mismo criterio pero usando $f(bar{x}_s) |$ como base para el juicio.Para el método SAG/SAGA, aunque no calculamos explícitamente el gradiente completo, la cantidad $ g_{bar{k}} $ se aproximará gradualmente $f(x_k)$ , por lo tanto, utilice $g_{bar{k}} |$ como condición de parada es una heurística razonable.

En el método SDCA, con algo de trabajo de registro adicional, podemos rastrear el gradiente del objetivo dual sin agregar costos asintóticos adicionales.Además, un enfoque más sistemático sería rastrear la brecha dual, aunque esto aumentaría la $Ohhhhhhhhhhhhhhhhhhhhhhhhhhhhhh (norteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorte)$ costo, pero es capaz de proporcionar condiciones de terminación con pruebas de doble brecha. Además, basándose en la condición de optimización de objetivos fuertemente convexos, el método MISO adopta un método de principios basado en un límite inferior cuadrático [41].

Las siguientes son fórmulas matemáticas y variables expresadas en formato Markdown:

Norma de gradiente: $f(x_k) |$
Norma de gradiente en el método SVGG: $f(bar{x}_s) |$
La cantidad de gradiente de aproximación en el método SAG/SAGA: $ g_{bar{k}} $
Mayor costo por iteración: $Ohhhhhhhhhhhhhhhhhhhhhhhhhhhhhh (norteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorte)$
método MISO
límite inferior cuadrático

Tenga en cuenta que el contenido anterior es una reformulación del texto original y utiliza el formato Markdown para representar fórmulas y variables matemáticas.

3.3. Reducir los requisitos de memoria.

Aunque el algoritmo de reducción variacional estocástica de gradiente (SVRG) elimina los requisitos de memoria de los métodos anteriores de reducción de variación, en aplicaciones prácticas, los algoritmos SAG (descenso de gradiente promedio estocástico) y SAGA (descenso de gradiente promedio estocástico con acumulación de gradiente) se utilizan en muchos problemas. tienden a requerir menos iteraciones que el algoritmo SVGG.Esto desencadenó un pensamiento: ¿Existen algunos problemas que permitan a SAG/SAGA $Ohhhhhhhhhhhhhhhhhhhhhhhhhhhhhh (norteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorte d)$ Los requisitos de memoria se implementan a continuación. Esta sección explora una clase de modelos lineales para los cuales los requisitos de memoria se pueden reducir significativamente.

Considere un modelo lineal donde cada función $f_i(x)$ Se puede expresar como $xi_i(mathbf{a}_i^top x)$ .bien $X$ La derivada da la forma de gradiente:
$f_i(x) = xi'(mathbf{a}_i^top x) mathbf{a}_i$
aquí, $ξ^{'}$ expresar $ξ$ la derivada de.Suponiendo que tenemos acceso directo a los vectores propios $matemáticabf{a}_i$ , entonces para implementar el método SAG/SAGA, solo necesitamos almacenar el escalar $xi(mathbf{a}_i^top x)$ .De esta manera, los requisitos de memoria varían de $Ohhhhhhhhhhhhhhhhhhhhhhhhhhhhhh (norteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorte d)$ reducido a $Ohhhhhhhhhhhhhhhhhhhhhhhhhhhhhh (norteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorte)$ . El algoritmo SVGG también puede aprovechar esta estructura de gradientes: almacenando este $norteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorte$ escalar, podemos reducir el número de evaluaciones de gradiente requeridas por iteración "interna" de SVGG a 1 para esta clase de problemas.

Existen otro tipo de problemas, como los modelos gráficos probabilísticos, que también ofrecen la posibilidad de reducir los requisitos de memoria [66]. A través de una estructura de datos específica y la optimización del algoritmo, los recursos de memoria requeridos por el algoritmo en tiempo de ejecución se pueden reducir aún más.

Las siguientes son fórmulas matemáticas y variables expresadas en formato Markdown:

Función del modelo lineal: $f_i(x) = xi_i(mathbf{a}_i^top x)$
Expresión de gradiente: $f_i(x) = xi'(mathbf{a}_i^top x) mathbf{a}_i$
Vector de características: $matemáticabf{a}_i$
Los requisitos de memoria varían desde $Ohhhhhhhhhhhhhhhhhhhhhhhhhhhhhh (norteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorte d)$ Reducido a $Ohhhhhhhhhhhhhhhhhhhhhhhhhhhhhh (norteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorteorte)$ 。

3.4. Procesamiento de gradientes dispersos

En algunos problemas, el gradiente $f_i(x)$ Puede contener una gran cantidad de valores cero, como un modelo lineal con características escasas.En este caso, el algoritmo tradicional de descenso de gradiente estocástico (SGD) se puede implementar de manera eficiente, con una complejidad computacional lineal en el número de elementos distintos de cero en el gradiente, que generalmente es mucho menor que la dimensión del problema. $d$ . Sin embargo, en los métodos estándar de reducción variacional (VR), esta ventaja no se aprovecha. Afortunadamente, existen dos formas conocidas de mejorar esto.

La primera mejora fue propuesta por Schmidt et al., que aprovecha la simplicidad del proceso de actualización e implementa una variante de cálculo "sobre la marcha" de modo que el coste de cada iteración es proporcional al número de iteraciones distintas de cero. elementos.Tomando SAG como ejemplo (pero este enfoque funciona para todas las variantes), esto se hace no almacenando el vector completo después de cada iteración. $_v_{ik}$ , pero solo calcula aquellos correspondientes a elementos distintos de cero $v_{ik_j}$ , actualizando cada variable desde la última vez que ese elemento era distinto de cero $v_{ik_j}$ 。

El segundo método de mejora fue propuesto por Leblond et al. para SAGA, que actualiza la fórmula. $x_{k+1} = x_k - gamma(en la barra f_{ik}(x_k) - en la barra f_{ik}(bar{x}_{ik}) + bar{g}_k)$ Se introduce aleatoriedad adicional. aquí, $f_{ik}(x_k)$ y $f_{ik}(bar{x}_{ik})$ es escaso y $barra{g}_k$ es denso.En este método, el término denso $(barra{g}_k)_j$ Cada componente de es reemplazado por $w_j (barra{g}_k)_j$ ,en $matemáticasbb{R}^d$ es un vector disperso aleatorio cuyo conjunto de soporte está contenido en $f_{ik}(x_k)$ , y se espera que sea un vector constante con todos los elementos iguales a 1. De esta manera, el proceso de actualización sigue siendo imparcial (aunque ahora es escaso) y la mayor varianza no afecta la tasa de convergencia del algoritmo. Leblond et al. proporcionan más detalles.

Las siguientes son fórmulas matemáticas y variables expresadas en formato Markdown:

degradado: $f_i(x)$
Actualización de SGD: $x_{k+1} = x_k - gamma(en la barra f_{ik}(x_k) - en la barra f_{ik}(bar{x}_{ik}) + bar{g}_k)$
gradiente escaso: $f_{ik}(x_k)$ y $f_{ik}(bar{x}_{ik})$
gradiente denso: $barra{g}_k$
Vectores dispersos aleatorios: $el$
Espera un vector constante: un vector con todos los elementos iguales a 1.

Compartir tecnología