[Глубокое обучение] Основы графической модели (7): метод уменьшения дисперсии в оптимизации машинного обучения (1)

2024-07-12

Краткое содержание

Стохастическая оптимизация является жизненно важным компонентом машинного обучения, и в ее основе лежит алгоритм стохастического градиентного спуска (SGD), метод, который широко используется с момента его первого предложения более 60 лет назад. За последние восемь лет мы стали свидетелями новой интересной разработки: методов уменьшения дисперсии для методов стохастической оптимизации. Эти методы уменьшения дисперсии (методы VR) хорошо работают в сценариях, которые допускают несколько итераций обучающих данных, демонстрируя более быструю сходимость, чем SGD, как в теории, так и на практике. Такое увеличение скорости подчеркивает растущий интерес к методам виртуальной реальности и быстрое накопление результатов исследований в этой области. В этой статье рассматриваются ключевые принципы и основные достижения в методах VR для оптимизации ограниченных наборов данных с целью информирования читателей, не являющихся экспертами. Мы фокусируемся в первую очередь на средах выпуклой оптимизации и предоставляем справочную информацию для читателей, интересующихся расширениями минимизации невыпуклых функций.

Ключевые слова Оптимизация машинного обучения;

1. Введение

В области исследований машинного обучения основной и важный вопрос заключается в том, как адаптировать модели к огромным наборам данных. Например, мы можем рассмотреть типичный случай линейной модели наименьших квадратов:

$x^* в argmin_{x в mathbb{R}^d} frac{1}{n} sum_{i=1}^{n} (a_i^T x - b_i)^2$

В этой модели мы имеем $г$ параметры, которые представлены векторами $mathbb{R}^d$ данный.А пока у нас есть под рукой $н$ точки данных, включая векторы признаков $a_i в mathbb{R}^d$ и целевое значение $b_i в mathbb{R}$ .Процесс адаптации модели заключается в корректировке этих параметров таким образом, чтобы прогнозируемый результат модели $а_й^Т х$ в среднем как можно ближе к целевому значению $б_и$ 。

В более широком смысле мы могли бы использовать функцию потерь $f_i(x)$ Чтобы измерить предсказания модели и $я$ Насколько близки точки данных:

$x^* в argmin_{x в mathbb{R}^d} f(x) := frac{1}{n} sum_{i=1}^{n} f_i(x)$

функция потерь $f_i(x)$ Если оно больше, это означает, что прогнозы модели сильно отклоняются от данных; $f_i(x)$ Модель, равная нулю, идеально соответствует точкам данных.функция $ф (Икс)$ Отражает средние потери модели по всему набору данных.

Проблемы, подобные форме (2), приведенной выше, применимы не только к линейным задачам наименьших квадратов, но и ко многим другим моделям, изучаемым в машинном обучении. Например, в модели логистической регрессии мы решаем:

$x^* в argmin_{x в mathbb{R}^d} frac{1}{n} sum_{i=1}^{n} log(1 + e^{-b_i a_i^T x}) + frac{lambda}{2} |x|_2^2$

Здесь мы имеем дело с $b_i в {-1, +1}$ Для задачи бинарной классификации прогноз основан на $а_й^Т х$ символы.В формулу также введен регуляризационный член $|x|_2^2$ чтобы избежать переобучения данных, где $х|_2^2$ выражать $Икс$ Квадрат евклидовой нормы .

В большинстве моделей обучения с учителем процесс обучения может быть выражен в виде (2), включая регуляризованный метод наименьших квадратов L1, машину опорных векторов (SVM), анализ главных компонентов, условные случайные поля и глубокие нейронные сети и т. д.

Ключевой проблемой в современных примерах проблем является количество точек данных. $н$ Наверное, очень большой. Мы часто имеем дело с наборами данных, размер которых выходит далеко за пределы терабайта и которые могут поступать из самых разных источников, таких как Интернет, спутники, удаленные датчики, финансовые рынки и научные эксперименты. Для работы с такими большими наборами данных обычно используют алгоритм стохастического градиентного спуска (SGD), который использует лишь небольшое количество случайно выбранных точек данных на каждой итерации. Кроме того, в последнее время резко возрос интерес к методам стохастического градиента уменьшения дисперсии (VR), которые имеют более высокую скорость сходимости, чем традиционные методы стохастического градиента.
Вставьте сюда описание изображения
Рисунок 1. В задаче логистической регрессии, основанной на грибовидном наборе данных [7], градиентном спуске (GD), ускоренном градиентном спуске (AGD, ускоренном GD в [50]), стохастическом градиентном спуске (SGD) и методе ADAM [30] по сравнению с методами уменьшения дисперсии (VR) SAG и SVRG, где n = 8124, d = 112.

1.1. Градиентный и стохастический методы градиентного спуска.

Градиентный спуск (GD) — это классический алгоритм, используемый для решения вышеуказанной проблемы (2), и его формула итеративного обновления выглядит следующим образом:
$x_{k+1} = x_k - гамма-дробность{1}{n} сумма_{i=1}^{n} набла f_i(x_k)$

здесь, $γ$ — фиксированное значение шага, большее нуля.Во время каждой итерации алгоритма GD каждая точка данных должна быть $я$ Рассчитать градиент $f_i(x_k)$ , а это значит, что GD требует всех $н$ выполнить полный обход точек данных.Когда размер набора данных $н$ Когда он становится очень большим, стоимость каждой итерации алгоритма GD становится очень высокой, что ограничивает его применение.

В качестве альтернативы можно рассмотреть метод стохастического градиентного спуска (SGD), который впервые был предложен Роббинсом и Монро, и его формула итеративного обновления выглядит следующим образом:
$x_{k+1} = x_k - гамма набла f_{i_k}(x_k)$

Алгоритм SGD работает, используя только градиент одной случайно выбранной точки данных на каждой итерации. $f_{i_k}(x_k)$ снизить стоимость каждой итерации. На рисунке 1 мы видим, что SGD достигает более значительного прогресса, чем GD (включая ускоренные методы GD) на ранних этапах процесса оптимизации.На графике показан ход оптимизации с точки зрения эпох, которые определяются как расчет всех $н$ Количество градиентов для обучающих выборок. Алгоритм GD выполняет одну итерацию в каждом раунде, а алгоритм SGD выполняет одну итерацию в каждом раунде. $н$ итерации.Мы используем раунды в качестве основы для сравнения SGD и GD, поскольку по предположению $н$ В очень больших случаях основная стоимость обоих методов сосредоточена в градиенте. $f_i(x_k)$ расчет.

1.2. Проблема дисперсии

Рассмотрим случайную индексацию $и_к$ из коллекции ${1, \dots, н}$ В случае равномерного случайного отбора это означает, что для всех $я$ ,выбирать $i_k = я$ Вероятность $P[i_k = i]$ равный $\frac{1}{н}$ . в этом случае, $f_{i_k}(x_k)$ как $f(x_k)$ Оценка является несмещенной, поскольку по определению ожидания мы имеем:
$f_{i_k}(x_k) | x_k] = frac{1}{n} sum_{i=1}^{n} набла f_i(x_k) = набла f(x_k) quad (6)$

Хотя метод SGD (стохастический градиентный спуск) не гарантирует работоспособность функции на каждой итерации $ф$ Значение будет уменьшаться, но в среднем оно движется к отрицательному полному градиенту, который представляет собой направление вниз.

Однако наличия несмещенной оценки градиента недостаточно для обеспечения сходимости итераций SGD. Чтобы проиллюстрировать этот момент, на рисунке 2 (слева) показана итеративная траектория SGD при применении функции логистической регрессии с использованием постоянного размера шага к набору данных из четырех категорий, предоставленному LIBSVM [7].Концентрические эллипсы на рисунке представляют контуры функции, то есть значение функции $ф (Икс) = с$ соответствующая точка $Икс$ собирать, $с$ — это определенная константа в наборе действительных чисел.разные постоянные значения $с$ Соответствует различным эллипсам.

Итерационная траектория SGD не сходится к оптимальному решению (обозначен на рисунке зеленой звездочкой), а формирует облако точек вокруг оптимального решения. Напротив, на рисунке 2 мы показываем итерационную траекторию метода уменьшения дисперсии (VR), стохастического среднего градиента (SAG), с использованием того же постоянного размера шага, который мы представим позже. Причина, по которой SGD не сходится в этом примере, заключается в том, что сам стохастический градиент не сходится к нулю, и, следовательно, метод SGD с постоянным шагом (5) никогда не останавливается.Это резко контрастирует с методами градиентного спуска (GD), которые, естественно, прекращаются при $х_к$ Подходы $х^*$ ,градиент $f(x_k)$ будет стремиться к нулю.
Вставьте сюда описание изображения
Рисунок 2. Графики набора уровней для двумерной логистической регрессии с использованием итеративных методов SGD (слева) и SAG (справа) с фиксированным шагом. Зеленая звездочка обозначает xразвязать.

1.3. Классический метод уменьшения дисперсии.

обработка из-за $f_i(x_k)$ Существует несколько классических методов решения проблем несходимости, вызванных дисперсией значений.Например, Роббинс и Монро [64] используют серию убывающих ступеней. $гамма_k$ решить проблему дисперсии, гарантируя, что произведение $gamma_k набла f_{i_k}(x_k)$ может сходиться к нулю. Однако корректировка этой последовательности уменьшающихся шагов во избежание слишком ранней или слишком поздней остановки алгоритма является сложной проблемой.

Другой классический метод уменьшения дисперсии — использование нескольких $f_i(x_k)$ среднее значение для получения полного градиента $\nabla ф (Икс)$ более точная оценка. Этот подход называется мини-пакетом и особенно полезен, когда несколько градиентов можно оценивать параллельно. Это приводит к повторению формы:
$x_{k+1} = x_k - гамма-дробность{1}{|B_k|} сумма_{i в B_k} набла f_i(x_k) четверка (7)$
в $Б_к$ представляет собой случайный набор индексов, $Б_к|$ выражать $Б_к$ размер.если $Б_к$ При равномерной выборке с заменой дисперсия этой оценки градиента связана с «размером партии». $Б_к|$ обратно пропорциональна, поэтому дисперсию можно уменьшить, увеличив размер партии.

Однако стоимость таких итераций пропорциональна размеру пакета, поэтому такая форма уменьшения дисперсии достигается за счет увеличения вычислительных затрат.

Другая распространенная стратегия уменьшения дисперсии и улучшения эмпирических показателей SGD — добавление «импульса», дополнительного термина, основанного на направлении, использованном на прошлых этапах. В частности, форма SGD с импульсом выглядит следующим образом:
$x_{k+1} = x_k - гамма m_k квад (9)$
где параметр импульса $β$ Расположен в диапазоне (0, 1).Если начальный импульс $м_0 = 0$ , и разложим в (8) $м_к$ Для обновлений мы получаем $м_к$ представляет собой средневзвешенное значение предыдущих градиентов:
$m_k = sum_{t=0}^{k} beta^{kt} nabla f_{i_t}(x_t) quad (10)$
поэтому, $м_к$ представляет собой взвешенную сумму стохастических градиентов.потому что $сумма_{t=0}^{k} бета^{kt} = дробь{1 - бета^{k+1}}{1 - бета}$ , мы можем конвертировать $бета^k} м_к$ Рассматривается как средневзвешенное значение стохастических градиентов.Если мы сравним это с выражением для полного градиента $f(x_k) = frac{1}{n} sum_{i=1}^{n} набла f_i(x_k)$ Для сравнения мы можем $бета^k} м_к$ (а также $м_к$ ) интерпретируется как оценка полного градиента. Хотя эта взвешенная сумма уменьшает дисперсию, она также поднимает ключевые проблемы.Поскольку взвешенная сумма (10) придает больший вес недавно выбранным градиентам, она не будет сходиться к полному градиенту. $f(x_k)$ , последнее представляет собой простое среднее. Первый метод уменьшения дисперсии, который мы увидим в разделе II-A, решает эту проблему, используя простое среднее вместо любого взвешенного среднего.

1.4. Современные методы уменьшения дисперсии.

В отличие от классических методов, они напрямую используют один или несколько $f_i(x_k)$ как $f(x_k)$ В качестве приближения современные методы уменьшения дисперсии (VR) используют другую стратегию.Эти методы используют $f_i(x_k)$ обновить оценку градиента $г_к$ , цель которого – сделать $г_к$ подход $f(x_k)$ .В частности, мы надеемся $г_к$ способен удовлетворить $g_k приблизительно набла f(x_k)$ . На основе таких оценок градиента мы затем выполняем приблизительный шаг градиента в форме:
$x_{k+1} = x_k - гамма g_k квад (11)$
здесь $γ > 0$ — параметр размера шага.

Чтобы гарантировать использование постоянного размера шага $γ$ Когда итерация (11) может сойтись, нам нужно убедиться, что оценка градиента $г_к$ Дисперсия стремится к нулю. Математически это можно выразить так:
$g_k - nabla f(x_k) |^2 right] rightarrow 0 quad text{as } k rightarrow infty quad (12)$
ожидания здесь $Э$ основан на алгоритме с точностью до $к$ Все случайные величины рассчитываются для итераций. Свойство (12) обеспечивает возможность остановки метода VR при достижении оптимального решения. Мы считаем это свойство отличительной чертой подхода виртуальной реальности и поэтому называем его свойством виртуальной реальности. Стоит отметить, что выражение «приведенная» дисперсия может ввести в заблуждение, поскольку на самом деле дисперсия стремится к нулю. Свойство (12) является ключевым фактором, позволяющим методам VR достигать более быстрой сходимости в теории (при соответствующих предположениях) и на практике (как показано на рисунке 1).

1.5. Первый пример метода уменьшения дисперсии: SGD².

Простой метод улучшения может заставить рекурсивную формулу SGD (5) достичь сходимости без уменьшения размера шага, то есть перевода каждого градиента. Конкретный метод заключается в вычитании. $f_i(x^*)$ , этот метод определяется следующим образом:
$x_{k+1} = x_k - гамма (набла f_{i_k}(x_k) - набла f_{i_k}(x^*)) четверка (13)$
Этот метод называется SGD² [22].Хотя мы обычно не можем знать наверняка каждый $f_i(x^*)$ , но SGD², как пример, может хорошо проиллюстрировать основные характеристики метода уменьшения дисперсии.Более того, многие методы уменьшения дисперсии можно рассматривать как приблизительную форму метода SGD². Эти методы не полагаются на известные данные; $f_i(x^*)$ , но вместо этого используйте метод, который может аппроксимировать $f_i(x^*)$ расчетная стоимость.

Стоит отметить, что SGD² использует несмещенную оценку полного градиента.потому что $f(x^*) = 0$ ,Ф:
$f_{i_k}(x_k) - набла f_{i_k}(x^*)] = набла f(x_k) - набла f(x^*) = набла f(x_k)$
Кроме того, когда SGD² достигнет оптимального решения, он, естественно, остановится, поскольку для любого $я$ ,иметь:
$f_i(x) - набла f_i(x^*)) bigg|_{x=x^*} = 0$

При дальнейшем наблюдении с $х_к$ около $х^*$ (для последовательных $ф_и$ ), SGD² удовлетворяет свойству уменьшения дисперсии (12), потому что:
$g_k - набла f(x_k) |^2 вправо] = \Eвлево[ | набла f_{i_k}(x_k) - набла f_{i_k}(x^*) - набла f(x_k) |^2 вправо] leq Eleft[ | набла f_{i_k}(x_k) - набла f_{i_k}(x^*) |^2 вправо]$
Здесь воспользуемся леммой 2, пусть $f_{i_k}(x_k) - набла f_{i_k}(x^*)$ , и воспользовался $f_{i_k}(x_k) - набла f_{i_k}(x^*)] = набла f(x_k)$ природа. Это свойство указывает на то, что SGD² имеет более высокую скорость сходимости, чем традиционные методы SGD, которые мы подробно описали в Приложении B.

1.6. Метод быстрой сходимости дисперсии.

В этом разделе мы представим два стандартных предположения, используемые для анализа метода уменьшения дисперсии (VR), и обсудим эффект ускорения, которого можно достичь при этих предположениях по сравнению с традиционным методом SGD. Во-первых, мы предполагаем, что градиент обладает липшицевой непрерывностью, а это означает, что скорость изменения градиента конечна.

Предположение 1 (непрерывность Липшица)

Предположим, что функция $ф$ является дифференцируемым и $Л$ - гладко, для всех $Икс$ и $у$ и кто-то $0 < Л < \infty$ ,Следующие условия:
$∥\nabla ф (Икс) - \nabla ф (у) ∥ \leq Л ∥ Икс - у ∥ (14)$
Это означает, что каждый $mathbb{R}^d правая стрелка mathbb{R}$ является дифференцируемым, $Л_и$ - гладкая, определяем $L_{text{макс}}$ для $макс{L_1, . . . , Л_н}$ 。

Хотя обычно это предположение считается слабым, в последующих главах мы обсудим методы виртуальной реальности, подходящие для решения негладких задач. Для дважды дифференцируемой одномерной функции $Л$ - Гладкость можно интуитивно понимать как: это эквивалентно предположению, что вторая производная равна $Л$ верхний предел, то есть $∣ ф^{''} (Икс) ∣ \leq Л$ для всех $mathbb{R}^d$ .Для дважды дифференцируемых функций многих переменных это эквивалентно предположению матрицы Гессе $набла^2 f(x)$ Единственное значение $Л$ верхний предел.

Предположение 2 (сильная выпуклость)

Вторая гипотеза, которую мы рассматриваем, заключается в том, что функция (f) $μ$ -сильно выпуклый, что означает, что для определенного $μ > 0$ , функция $frac{mu}{2}|x|^2$ Он выпуклый.Более того, для каждого $я = 1, ..., н$ ， $mathbb{R}^d правая стрелка mathbb{R}$ Он выпуклый.

Это сильное предположение.В задаче наименьших квадратов каждая (fi$ выпукла, но общая функция (f) находится только в матрице плана $А := [а_1, . . . , а_н]$ Он сильно выпуклый только в том случае, если имеет совершенный ранг строки. Задача регуляризованной логистической регрессии L2 удовлетворяет этому предположению из-за существования члена регуляризации, где $μ \geq λ$ 。

Важным классом задач, удовлетворяющих этим предположениям, являются задачи оптимизации вида:
$x^* в argmin_{x в mathbb{R}^d} f(x) = frac{1}{n} sum_{i=1}^{n} ell_i(a_i^Tx) + frac{lambda}{2}|x|^2 quad (15)$
где каждая функция «потери» $ell_i: mathbb{R} стрелка вправо mathbb{R}$ дважды дифференцируема, а ее вторая производная $ell_i''$ ограничено 0 и некоторой верхней границей $М$ между. Сюда входят различные функции потерь с регуляризацией L2 в машинном обучении, такие как метод наименьших квадратов, логистическая регрессия, пробит-регрессия, робастная регрессия Хубера и т. д.В этом случае для всех $я$ ,У нас есть $L_i leq M|a_i|^2 + лямбда$ и $μ \geq λ$ 。

В этих предположениях скорость сходимости метода градиентного спуска (ГР) определяется числом обусловленности $κ := Л / μ$ Решать. Число обусловленности всегда больше или равно 1, а когда оно значительно больше 1, контуры функции становятся очень эллиптическими, что приводит к колебаниям итераций метода GD.Напротив, когда $κ$ Когда оно близко к 1, метод GD сходится быстрее.

При предположениях 1 и 2 метод VR сходится с линейной скоростью.Мы говорим, что значение функции случайного метода ({f(x_k)}) определяется выражением $0 < ρ \leq 1$ Скорость линейной сходимости (ожидаемая), если существует константа $С > 0$ Делает:
$E[f(x_k)] - f(x^*) leq (1 - rho)^k C = O(exp(-krho)) quad forall k quad (16)$
В этом отличие от классических методов SGD, которые полагаются только на несмещенные оценки градиента на каждой итерации, которые получают сублинейные скорости только при этих предположениях:
$E[f(x_k)] - f(x^*) leq O(1/k)$
Минимум, удовлетворяющий этому неравенству $к$ Это называется итеративной сложностью алгоритма. Ниже приведены итерационная сложность и стоимость одной итерации для базовых вариантов методов GD, SGD и VR:

алгоритм	Количество итераций	стоимость итерации
ГД	$О (κ вот г (1/ ϵ))$	$О (н)$
сингапурский доллар	$O(kappa_{text{max}} макс(1/эпсилон))$	$О (1)$
ВР	$O((kappa_{text{max}} + n) log(1/epsilon))$	$О (1)$

Общее время работы алгоритма определяется произведением сложности итерации и времени ее выполнения.используется здесь $каппа_{текст{макс}} := макс_i L_i/мю$ .Уведомление $каппа_{text{макс}} гэк каппа$ ; Следовательно, сложность итерации GD меньше, чем у метода VR;

Однако, поскольку стоимость одной итерации GD равна стоимости метода VR $н$ раз, метод VR превосходит по общему времени работы.

Преимущество классических методов SGD в том, что время их работы и скорость сходимости не зависят от $н$ , но у него есть толерантность $ϵ$ Зависимость гораздо хуже, что объясняет плохую работу SGD при малом допуске.

В Приложении B мы приводим простое доказательство того, что метод SGD² имеет ту же итерационную сложность, что и метод VR.

2. Базовый метод уменьшения дисперсии

Разработка методов уменьшения дисперсии (VR) прошла несколько этапов, и первая партия методов привела к значительному улучшению скорости сходимости. Началом этой серии методов является алгоритм SAG. Впоследствии один за другим появились алгоритм стохастического подъема двойной координаты (SDCA), алгоритм MISO, алгоритм уменьшения стохастического градиента (SVRG/S2GD) и алгоритм SAGA (что означает «улучшенный» SAG).

В этой главе мы подробно опишем эти новаторские методы виртуальной реальности. В главе 4 мы рассмотрим некоторые новые методы, которые демонстрируют превосходные характеристики по сравнению с этими базовыми методами в конкретных сценариях применения.

2.1. Метод стохастического среднего градиента (SAG).

Наше исследование первого метода уменьшения дисперсии (VR) начинается с имитации полной градиентной структуры.Поскольку полный градиент $\nabla ф (Икс)$ это все $f_i(x)$ Простое среднее градиентов, затем наша оценка полного градиента $г_к$ Это также должно быть среднее значение этих оценок градиента. Эта идея породила наш первый метод VR: метод стохастического среднего градиента (SAG).

Метод SAG [37], [65] представляет собой рандомизированную версию метода раннего инкрементного агрегированного градиента (IAG) [4]. Основная идея SAG заключается в том, что для каждой точки данных $я$ поддерживать оценку $v_{ik} приблизительно набла f_i(x_k)$ .Затем используйте эти $в_{ик}$ В качестве оценки полного градиента используется среднее значение, то есть:
$bar{g}_k = frac{1}{n} sum_{j=1}^{n} v_{jk} approx frac{1}{n} sum_{j=1}^{n} nabla f_j(x_k) = nabla f(x_k) quad (18)$

В каждой итерации SAG из набора ${1, \dots, н}$ Извлечь индекс из $и_к$ , а затем обновляется в соответствии со следующими правилами $в_{жк}$ ：
$begin{cases} nabla f_{i_k}(x_k), & text{if } j = i_k \ v_{jk}^k, & text{if } j neq i_k end{cases}$
Среди них каждый $в_{0i}$ Может быть инициализирован нулем или $f_i(x_0)$ приблизительная стоимость.С решением $х^*$ приближение, каждый $в_{ик}$ постепенно сойдется к $f_i(x^*)$ , тем самым удовлетворяя свойству VR (12).

Чтобы эффективно реализовать SAG, нам необходимо обратить внимание на расчет $бар{г}_к$ чтобы не начинать суммирование каждый раз с нуля $н$ вектор, потому что это $н$ Цена высока, когда она большая.К счастью, поскольку каждая итерация имеет только один $в_{ик}$ Условия изменятся и нам не придется каждый раз пересчитывать всю сумму.В частности, предположим, что при итерации $к$ Индекс извлечен из $и_к$ , то есть:
$бар{g}_k = фрак{1}{n} сумма_{подстек{j=1 \ j neq i_k}}^{n} v_{jk} + фрак{1}{n} v_{i_k}^k = бар{g}_{k-1} - фрак{1}{n} v_{i_k}^{k-1} + фрак{1}{n} v_{i_k}^k четверка (20)$

Поскольку помимо $в_{и_к}$ все, кроме $в_{жк}$ Все значения остаются прежними, мы просто сохраняем каждое $дж$ Вектор, соответствующий $в_ж$ . Алгоритм 1 показывает конкретную реализацию метода SAG.

SAG — первый стохастический метод, обеспечивающий линейную сходимость, сложность его итерации равна $O((kappa_{text{max}} + n) log(1/epsilon))$ , используя размер шага $O(1/L_{text{макс}})$ . Эту линейную сходимость можно наблюдать на рисунке 1.Стоит отметить, что из-за $L_{text{макс}}$ -Плавная функция для любого $L_{text{max}}$ Слишком $Л^{'}$ - Гладкие методы SAG достигают линейной скорости сходимости при достаточно малых размерах шагов, в отличие от классических методов SGD, которые достигают сублинейных скоростей только с последовательностями уменьшения размеров шагов, которые трудно регулировать на практике.

В то время линейная сходимость SAG была значительным достижением, поскольку она вычисляла только один стохастический градиент (обработка одной точки данных) на каждой итерации. Однако доказательство сходимости, предоставленное Шмидтом и др. [65], очень сложно и основано на компьютерно проверенных шагах. Основная причина, по которой SAG трудно анализировать, заключается в том, что $г_к$ является смещенной оценкой градиента.

Далее мы представляем метод SAGA, вариант SAG, который использует концепцию ковариат для создания несмещенного варианта метода SAG, который имеет аналогичную производительность, но его легче анализировать.

Алгоритм 1: метод SAG

Параметры: размер шага $γ > 0$
инициализация: $х_0$ ， $v_i = 0 в mathbb{R}^d$ для $я = 1, \dots, н$
верно $к = 1, \dots, Т - 1$ осуществлять:
а. Случайный выбор $i_k в {1, ldots, n}$
б. Рассчитать $бар{g}_k = бар{g}_{k-1} - frac{1}{n} v_{i_k}^{k-1}$
в. Обновление $v_{i_k}^k = набла f_{i_k}(x_k)$
d. Обновить оценку градиента. $бар{g}_k = бар{g}_k + фрак{1}{n} v_{i_k}^k$
е. Обновление $x_{k+1} = x_k - гамма-бар{g}_k$
Выход: $х_Т$

2.2.Метод САГА

Сокращенная базовая несмещенная оценка градиента $f_{i_k}(x_k)$ Дисперсионный подход заключается в использовании так называемых ковариат или контрольных переменных.для $я = 1, \dots, н$ ,настраивать $v_i в mathbb{R}^d$ является вектором.Используя эти векторы, мы можем преобразовать полный градиент $\nabla ф (Икс)$ Переписано как:
$sum_{i=1}^{n}(набла f_i(x) - v_i + v_i) = frac{1}{n} sum_{i=1}^{n} набла f_i(x) - v_i + frac{1}{n} sum_{j=1}^{n} v_j$
$sum_{i=1}^{n} nabla f_i(x, v) quad (21)$
который определяет $f_i(x, v) := набла f_i(x) - v_i + frac{1}{n} sum_{j=1}^{n} v_j$ .Теперь мы можем случайным образом выбрать $f_i(x, v)$ построить полный градиент $\nabla ф (Икс)$ Непредвзятая оценка $я \in {1, \dots, н}$ , вы можете применить метод SGD и использовать оценку градиента:
$g_k = набла f_{i_k}(x_k, v) = набла f_{i_k}(x_k) - v_{i_k} + frac{1}{n} sum_{j=1}^{n} v_j quad (22)$

для наблюдения $в_и$ Разница в паре выбора $г_к$ влияние, мы можем $g_k = набла f_{i_k}(x_k, v)$ Заменить и использовать $E_i сим дробь{1}{n}[v_i] = дробь{1}{n} сумма_{j=1}^{n} v_j$ Чтобы вычислить математическое ожидание, получим:
$f_i(x_k) - v_i + E_i сим фрак{1}{n}[v_i - набла f_i(x_k)]|^2 правое] левое E левое[ |набла f_i(x_k) - v_i|^2 правое] четверное (23)$
Здесь используется лемма 2, где $f_i(x_k) - v_i$ .Эта оценка (23) показывает, что если $в_и$ вместе с $к$ Увеличение близко к $f_i(x_k)$ , мы можем получить атрибуты VR (12).Вот почему мы звоним $в_и$ являются ковариатами, и мы можем выбрать их, чтобы уменьшить дисперсию.

Например, этот подход также реализуется методом SGD² (13), где $v_i = набла f_i(x^*)$ .Однако на практике это обычно не используется, поскольку мы обычно не знаем, $f_i(x^*)$ .Более практичный вариант $в_и$ как мы знаем $bar{x}_i в mathbb{R}^d$ ближайший градиент $f_i(bar{x}_i)$ . SAGA для каждой функции $ф_и$ использовать ориентир $bar{x}_i в mathbb{R}^d$ и используйте ковариаты $v_i = набла f_i(bar{x}_i)$ , каждый, из которых $бар{x}_i$ будет нашей последней оценкой $ф_и$ точка. Используя эти ковариаты, мы можем построить оценку градиента, следуя (22), давая:
$g_k = набла f_{i_k}(x_k) - набла f_{i_k}(bar{x}_{i_k}) + frac{1}{n} sum_{j=1}^{n} набла f_j(bar{x}_j) quad (24)$

Чтобы реализовать SAGA, мы можем хранить градиенты. $f_i(bar{x}_i)$ вместо $н$ ориентир $бар{x}_i$ .То есть предположим $v_j = набла f_j(bar{x}_j)$ для $дж \in {1, \dots, н}$ , на каждой итерации мы обновляем стохастический градиент, такой как SAG $в_ж$ 。

Алгоритм 2 САГА

Параметры: размер шага $γ > 0$
инициализация: $х_0$ ， $v_i = 0 в mathbb{R}^d$ для $я = 1, \dots, н$
руководить $к = 1, \dots, Т - 1$ итерации:
а. Случайный выбор $i_k в {1, ldots, n}$
б. Сохранить старое значение. $v_{text{old}} = v_{i_k}$
в. Обновление $v_{i_k} = набла f_{i_k}(x_k)$
д. Обновление $x_{k+1} = x_k - гамма (v_{i_k} - v_{text{old}} + bar{g}_k)$
e. Обновить оценку градиента. $bar{g}_k = bar{g}_{k-1} + frac{1}{n} (v_{i_k} - v_{text{old}})$
Выход: $х_Т$

Метод SAGA имеет ту же сложность итерации, что и SAG. $O((kappa_{text{max}} + n) log(1/epsilon))$ , используя размер шага $O(1/L_{text{макс}})$ , но доказательство гораздо проще.Однако, как и SAG, метод SAGA требует хранения $н$ вспомогательные векторы $v_i в mathbb{R}^d$ для $я = 1, \dots, н$ , что означает необходимость $О (н г)$ места для хранения.когда $г$ и $н$ Когда оба велики, это может быть неосуществимо. В следующем разделе мы подробно расскажем, как уменьшить требования к памяти для распространенных моделей, таких как регуляризованные линейные модели.

когда смогу $н$ Когда в памяти хранятся два вспомогательных вектора, SAG и SAGA имеют тенденцию вести себя одинаково. Если требования к памяти слишком высоки, хорошей альтернативой является метод SVRG, который мы рассмотрим в следующем разделе. Метод SVRG достигает той же скорости сходимости и на практике часто почти так же быстр, но требует только $О (г)$ памяти, по общим вопросам.

2.3.Метод СВРГ

До появления метода SAGA в некоторых ранних работах впервые были введены ковариаты для решения проблемы большого объема памяти, необходимой для метода SAG.Эти исследования основаны на фиксированной контрольной точке. $mathbb{R}^d$ ковариаты, мы вычислили полный градиент в этой точке $\nabla ф (\overset{Икс}{ˉ})$ .сохраняя контрольные точки $\overset{Икс}{ˉ}$ и соответствующий полный градиент $\nabla ф (\overset{Икс}{ˉ})$ , мы можем сделать это, не сохраняя каждый $f_j(bar{x})$ В случае, используйте $бар{x}_j = бар{x}$ все $дж$ для реализации обновления (24).В частности, вместо хранения этих векторов мы используем сохраненные опорные точки на каждой итерации. $\overset{Икс}{ˉ}$ вычислять $f_{i_k}(bar{x})$ . Первоначально этот метод был предложен разными авторами под разными названиями, но позже был унифицирован как метод SVRG, следуя номенклатуре [28] и [84].

Формализуем метод SVRG в алгоритме 3.

Используя (23), можно получить оценку градиента $г_к$ Дисперсия ограничена:
$g_k - набла f(x_k) |^2 справа] leq Eleft[ | набла f_i(x_k) - набла f_i(bar{x}) |^2 справа] leq L_{text{max}}^2 | x_k - bar{x} |^2$
где второе неравенство использует каждый $ф_и$ из $Л_и$ -Гладкость.

Стоит отметить, что ориентир $\overset{Икс}{ˉ}$ Чем ближе к текущей точке $х_к$ , тем меньше дисперсия оценки градиента.

Чтобы метод SVRG был эффективным, нам необходимо часто обновлять контрольные точки. $\overset{Икс}{ˉ}$ (тем самым требуя расчета полного градиента) сопоставляется с выгодой от уменьшения дисперсии.По этой причине каждый из нас $т$ Обновляйте контрольную точку один раз на каждой итерации, чтобы она была близка к $х_к$ (См. строку 11 алгоритма II-C).То есть метод SVRG содержит два цикла: внешний цикл $с$ , где вычисляется опорный градиент $f(bar{x}_{s-1})$ (строка 4) и внутренний цикл, в котором опорная точка фиксируется, а внутренняя итерация обновляется на основе шага стохастического градиента (22). $х_к$ (Строка 10).

В отличие от SAG и SAGA, SVRG требует только $О (г)$ памяти. К недостаткам SVRG относятся: 1) У нас есть дополнительный параметр. $т$ , то есть длину внутреннего цикла, необходимо скорректировать. 2) Для каждой итерации необходимо рассчитывать два градиента, а полный градиент необходимо рассчитывать каждый раз при изменении опорной точки;

Джонсон и Чжан [28] показали, что SVRG имеет итеративную сложность. $O((kappa_{text{max}} + n) log(1/epsilon))$ , аналогично SAG и SAGA.Это количество петель в гипотезе. $т$ из коллекции ${1, \dots, м}$ Получено при условии равномерной выборки, где $L_{text{макс}}$ ， $μ$ , размер шага $γ$ и $т$ Между ними должны быть удовлетворены определенные зависимости.На практике, используя $O(1/L_{text{макс}})$ и длина внутреннего цикла $т = н$ , SVRG имеет тенденцию работать хорошо, и это именно та настройка, которую мы использовали на рисунке 1.

Сейчас существует множество вариаций исходного метода SVRG.Например, в некоторых вариантах используется $т$ альтернативное распределение [32], некоторые варианты допускают вид $O(1/L_{text{макс}})$ Размер шага [27], [33], [35].Существуют также некоторые варианты использования $\nabla ф (\overset{Икс}{ˉ})$ аппроксимация мини-пакета, чтобы снизить стоимость этих полных оценок градиента, и увеличить размер мини-пакета, чтобы сохранить свойства VR.Существуют также варианты, в которых обновления повторяются во внутреннем цикле согласно [54] $г_к$ ：
[ g_k = набла f_{i_k}(x_k) - набла f_{i_k}(x_{k-1}) + g_{k-1} quad (25) ]
Это обеспечивает более локальное приближение. Использование этого варианта непрерывного обновления (25) показывает уникальные преимущества в минимизации невыпуклых функций, как мы кратко обсудим в разделе IV.Наконец, обратите внимание, что SVRG может воспользоваться преимуществами $f(bar{x}_s)$ значение, помогающее решить, когда завершить работу алгоритма.

Алгоритм 3. Метод СВРГ.

Параметры: размер шага $γ > 0$
Инициализировать контрольную точку $bar{x}_0 = x_0 в mathbb{R}^d$
Осуществить внешнюю циркуляцию $с = 1, 2, \dots$ ：
а. Рассчитайте и сохраните. $f(bar{x}_{s-1})$
б. Предположим $x_0 = бар{x}_{s-1}$
c. Выберите количество итераций внутреннего цикла. $т$
г. Осуществить внутреннюю циркуляцию. $к = 0, 1, \dots, т - 1$ ：
я. случайный выбор $i_k в {1, ldots, n}$
ii. Расчет $g_k = набла f_{i_k}(x_k) - набла f_{i_k}(bar{x}_{s-1}) + набла f(bar{x}_{s-1})$
3. Обновление $x_{k+1} = x_k - гамма g_k$
e. Обновление контрольной точки. $бар{x}_s = x_t$

2.4. СДКА и его варианты.

Одним из недостатков методов SAG и SVRG является то, что размер их шага зависит от неизвестных значений, которые могут быть неизвестны в некоторых задачах. $L_{text{макс}}$ . До SVRG метод SDCA [70], как один из первых методов VR, расширил исследования методов координатного спуска на задачи конечных сумм. Идея SDCA и его вариантов заключается в том, что координаты градиента обеспечивают естественную оценку градиента, уменьшающую дисперсию.В частности, предположим $дж \in {1, \dots, г}$ и определить $nabla_j f(x) := left( frac{partial f(x)}{partial x_j} right) e_j$ является числом (f(x)) $дж$ производные по координатным направлениям, где $e_j в mathbb{R}^d$ Это первый $дж$ единичный вектор.Ключевым свойством производных по координатам является то, что $набла_j f(x^*) = 0$ , потому что мы знаем $f(x^*) = 0$ .Производная этого с каждой точкой данных $f_j$ другое, последнее $х^*$ может быть не нулевым. Поэтому мы имеем:
$nabla_j f(x) |^2 стрелка вправо 0 квадратный текст{当} квадратный x стрелка вправо x^* квадратный (26)$
Это означает, что производная по координате удовлетворяет свойству уменьшения дисперсии (12).Кроме того, мы можем использовать $набла_j f(x)$ строить $\nabla ф (Икс)$ несмещенная оценка.Например, предположим $дж$ это из коллекции ${1, \dots, г}$ Равномерно случайно выбранный индекс в .Следовательно, для любого $я \in {1, \dots, г}$ ,У нас есть $P [ j = i ] = 1 d P[j = i] = frac{1}{d}$ . поэтому, $nabla_j f(x)$ да $\nabla ф (Икс)$ Непредвзятая оценка, потому что:
$nabla_j f(x) right] = d sum_{i=1}^{d} P[j = i] frac{partial f(x)}{partial x_i} e_i = sum_{i=1}^{d} frac{partial f(x)}{partial x_i} e_i = nabla f(x)$

поэтому, $набла_j f(x)$ Обладает всеми идеальными свойствами, которые мы ожидаем от VR-оценки полных градиентов, без необходимости использования ковариат. Одним из недостатков использования этого координатного градиента является то, что он требует больших вычислительных затрат для нашей задачи о суммах (2).Это связано с тем, что расчет $набла_j f(x)$ Необходимо пройти весь набор данных, потому что $набла_j f(x) = frac{1}{n} сумма_{i=1}^{n} набла_j f_i(x)$ . Поэтому использование производных по координатам кажется несовместимым со структурой нашей задачи о сумме. Однако мы часто можем переписать исходную задачу (2) в так называемую двойственную формулировку, в которой производные по координатам могут использовать внутреннюю структуру.

Например, двойственная формула регуляризованной линейной модели L2 (15):
$v^* в argmax_{v в mathbb{R}^n} дробь{1}{n} сумма_{i=1}^{n} -ell_i^*(-v_i) - дробь{лямбда}{2} левая| дробь{1}{лямбда} сумма_{i=1}^{n} v_i a_i правая|^2 четверка (27)$
в $ell_i^*(v)$ да $ell_i$ выпуклое сопряжение.Мы можем использовать отображение $сумма_{i=1}^{n} v_i a_i$ восстановить исходную проблему (15) $Икс$ переменная.решит $в^*$ Подставив в правую часть приведенного выше отображения, мы можем получить решение (15) $х^*$ 。

Обратите внимание, что эта двойная проблема имеет $н$ действительные переменные $v_i в mathbb{R}$ , что соответствует одному для каждой обучающей выборки.Более того, каждая функция двойных потерь $ell_i^*$ только $в_и$ Функция. То есть первый член функции потерь отделим по координатам. Такая разделимость по координатам в сочетании с простой формой второго слагаемого позволяет эффективно реализовать метод подъема координат.Действительно, Шалев-Шварц и Чжан показали, что подъем координат в этой задаче имеет аналогичную итерационную сложность, что и SAG, SAGA и SVRG. $O((kappa_{text{max}} + n) log(1/epsilon))$ 。

Стоимость итерации и структура алгоритма также очень похожи: суммирование путем отслеживания $сумма_{i=1}^{n} v_i a_i$ Чтобы обработать второй член в (27), каждая итерация подъема по двойной координате должна учитывать только одну обучающую выборку, а стоимость каждой итерации такая же, как и $н$ Нечего делать.Кроме того, мы можем использовать поиск по 1D-линии, чтобы эффективно вычислить размер шага для максимизации как $в_и$ Двойная цель функции.Это означает, что даже без $L_{text{макс}}$ Или знание соответствующих величин также позволяет добиться быстрого времени работы методов виртуальной реальности в наихудшем случае.

3. Практические вопросы уменьшения дисперсии

Чтобы реализовать базовый метод уменьшения дисперсии (VR) и добиться приемлемой производительности, необходимо решить несколько проблем реализации. В этом разделе мы обсудим несколько вопросов, не затронутых выше.

3.1.Размер шага настройки SAG/SAGA/SVRG

В области алгоритмов оптимизации, особенно в методах уменьшения вариаций, таких как стохастический средний градиент (SAG), алгоритм стохастического среднего градиента (SAGA) и стохастический градиент (SVRG), установка размера шага является ключевым вопросом.Хотя для метода стохастического подъема по двойной координате (SDCA) мы можем использовать двойную цель для определения размера шага, теоретическая основа исходных методов переменных SAG, SAGA и SVRG заключается в том, что размер шага должен быть равен $Oleft(frac{1}{L_{text{max}}}right)$ форма.Однако в практических приложениях мы часто не знаем, $L_{text{макс}}$ точное значение, а использование других размеров шага может дать лучшую производительность.

Классической стратегией установки размера шага в методе полного градиентного спуска (full-GD) является поиск линий Armijo.данная текущая точка $х_к$ и направление поиска $г_к$ , поиск линии Armijo в $гамма_k$ осуществляется на линии, которая определяется как $gamma_k в {gamma : x_k + gamma g_k}$ , причем функция должна быть достаточно редуцированной, т.е.:
$f(x_k + gamma_k g_k) < f(x_k) - c gamma_k |набла f(x_k)|^2$
Однако этот подход требует нескольких шагов-кандидатов. $гамма_k$ Расчет $f(x_k + gamma_k g_k)$ , который оценивает $ф (Икс)$ Стоимость обхода всего набора данных непомерно высока.

Для решения этой проблемы можно использовать метод случайных вариаций, чтобы найти те, которые удовлетворяют следующим условиям: $гамма_k$ ：
$f_{ik}(x_k + gamma_k g_k) < f_{ik}(x_k) - c gamma_k |набла f_{ik}(x_k)|^2$
Этот подход обычно хорошо работает на практике, особенно когда $ф_{ик}(x_k)|$ не близок к нулю, хотя в настоящее время не существует теории, подтверждающей этот подход.

Кроме того, Майрал предложил «технику Ботту» для практической установки размера шага. Этот метод выполняет двоичный поиск, беря небольшую часть набора данных (например, 5%), чтобы попытаться найти оптимальный размер шага за один проход по этой выборке. Подобно поиску по линии Армихо, этот метод часто хорошо работает на практике, но ему снова не хватает теоретической основы.

Обратите внимание, что приведенное выше содержимое представляет собой повторение исходного текста с использованием формата Markdown для представления математических формул и переменных.

Однако метод SDCA также имеет некоторые недостатки.Во-первых, для этого требуется вычислить выпуклое сопряжение $ell_i^*$ а не простой градиент. У нас нет автоматического дифференциального эквивалента для выпуклых сопряжений, поэтому это может увеличить усилия по реализации. В недавней работе были предложены методы SDCA с «двойной свободой», которые не требуют сопряжения и вместо этого напрямую используют градиенты. Однако в этих методах больше невозможно отслеживать двойную цель, чтобы установить размер шага.Во-вторых, хотя SDCA требует только $О (н + г)$ памяти для решения задачи (15), но для этой категории задач SAG/SAGA требуется только $О (н + г)$ памяти (см. раздел 3).Вариант SDCA, подходящий для более общих проблем с SAG/SAGA. $О (н г)$ память, потому что $в_и$ стать обладателем $г$ вектор элементов. Последний тонкий недостаток SDCA заключается в том, что он неявно предполагает сильную константу выпуклости. $μ$ равный $λ$ .для $μ$ больше, чем $λ$ Проблема заключается в том, что оригинальный метод VR обычно значительно превосходит SDCA.

3.2 Определение условий прекращения действия.

В области оптимизации алгоритмов мы часто полагаемся на теоретические результаты итеративной сложности, чтобы предсказать наихудшее количество итераций, необходимых алгоритму для достижения определенной точности. Однако эти теоретические границы часто основаны на некоторых константах, которые мы не можем предсказать, и в практических приложениях алгоритм часто может достичь ожидаемой точности за меньшее количество итераций. Поэтому нам необходимо установить некоторые критерии тестирования, чтобы определить, когда алгоритм следует завершить.

В традиционном методе полного градиентного спуска (full-GD) мы обычно используем норму градиента. $f(x_k) |$ Или какая-то другая величина, связанная с этим, чтобы решить, когда остановить итерацию.Для метода SVRG мы можем принять тот же критерий, но использовать $f(bar{x}_s) |$ как основание для приговора.Для метода SAG/SAGA, хотя мы и не рассчитываем явно полный градиент, величина $g_{bar{k}}$ будет постепенно приближаться $f(x_k)$ , поэтому используйте $г_{бар{к}} |$ в качестве условия остановки является разумной эвристикой.

В методе SDCA, с некоторой дополнительной работой по записи, мы можем отслеживать градиент двойной цели без добавления дополнительных асимптотических затрат.Кроме того, более систематическим подходом было бы отслеживание двойного разрыва, хотя это увеличило бы $О (н)$ стоимость, но он способен обеспечить условия завершения с двойным доказательством разрыва. Кроме того, на основе условия оптимальности сильно выпуклых целей метод MISO использует принципиальный метод, основанный на квадратичной нижней границе [41].

Ниже приведены математические формулы и переменные, выраженные в формате Markdown:

Норма градиента: $f(x_k) |$
Норма градиента в методе СВРГ: $f(bar{x}_s) |$
Величина градиента аппроксимации в методе SAG/SAGA: $ g_{bar{k}} $
Увеличение стоимости за итерацию: $О (н)$
МИСО-метод
квадратичная нижняя граница

3.3. Уменьшите требования к памяти.

Хотя алгоритм стохастического вариационного уменьшения градиента (SVRG) устраняет требования к памяти, присущие более ранним методам уменьшения вариации, в практических приложениях во многих задачах используются алгоритмы SAG (стохастический средний градиентный спуск) и SAGA (стохастический средний градиентный спуск с накоплением градиента). . обычно требуют меньше итераций, чем алгоритм SVRG.Это вызвало мысль: есть ли какие-то проблемы, которые позволяют SAG/SAGA $О (н г)$ Требования к памяти реализованы ниже. В этом разделе исследуется класс линейных моделей, для которых требования к памяти могут быть значительно снижены.

Рассмотрим линейную модель, в которой каждая функция $f_i(x)$ Это может быть выражено как $xi_i(mathbf{a}_i^top x)$ .верно $Икс$ Производная дает форму градиента:
$f_i(x) = xi'(mathbf{a}_i^top x) mathbf{a}_i$
здесь, $ξ^{'}$ выражать $ξ$ производная от.Предполагая, что у нас есть прямой доступ к собственным векторам $mathbf{a}_i$ , то для реализации метода SAG/SAGA нам нужно всего лишь сохранить скаляр $xi(mathbf{a}_i^top x)$ .Таким образом, требования к памяти варьируются от $О (н г)$ уменьшено до $О (н)$ . Алгоритм SVRG также может использовать эту структуру градиентов: сохраняя это $н$ скаляр, мы можем уменьшить количество оценок градиента, необходимых для каждой «внутренней» итерации SVRG, до 1 для этого класса задач.

Существуют и другие типы задач, например вероятностные графические модели, которые также предлагают возможность снижения требований к памяти [66]. Благодаря специальной структуре данных и оптимизации алгоритма ресурсы памяти, необходимые алгоритму во время выполнения, могут быть дополнительно сокращены.

Ниже приведены математические формулы и переменные, выраженные в формате Markdown:

Функция линейной модели: $f_i(x) = xi_i(mathbf{a}_i^top x)$
Градиентное выражение: $f_i(x) = xi'(mathbf{a}_i^top x) mathbf{a}_i$
Вектор признаков: $mathbf{a}_i$
Требования к памяти варьируются от $О (н г)$ Сократить до $О (н)$ 。

3.4. Обработка разреженных градиентов.

В некоторых задачах градиент $f_i(x)$ Может содержать большое количество нулевых значений, например, линейная модель с редкими функциями.В этом случае традиционный алгоритм стохастического градиентного спуска (SGD) может быть эффективно реализован, при этом вычислительная сложность линейно зависит от количества ненулевых элементов в градиенте, которое обычно намного меньше размерности задачи. $г$ . Однако в стандартных методах вариационного сокращения (VR) это преимущество не используется. К счастью, есть два известных способа улучшить это.

Первое улучшение было предложено Шмидтом и др., которое использует преимущества простоты процесса обновления и реализует вариант вычислений «на лету», так что стоимость каждой итерации пропорциональна количеству ненулевых вычислений. элементы.Если взять в качестве примера SAG (но этот подход работает для всех вариантов), это достигается за счет не сохранения полного вектора после каждой итерации. $в_{ик}$ , но вычисляет только те, которые соответствуют ненулевым элементам $в_{ик_дж}$ , обновляя каждую переменную с тех пор, как последний раз этот элемент был ненулевым $в_{ик_дж}$ 。

Второй метод улучшения был предложен Леблоном и др. для SAGA, который обновляет формулу. $x_{k+1} = x_k - гамма(набла f_{ik}(x_k) - набла f_{ik}(bar{x}_{ik}) + bar{g}_k)$ Вводится дополнительная случайность. здесь, $f_{ik}(x_k)$ и $f_{ik}(bar{x}_{ik})$ является редким, и $бар{г}_к$ плотный.В этом методе плотный член $(бар{г}_к)_j$ Каждый компонент заменяется на $w_j (бар{г}_к)_j$ ,в $mathbb{R}^d$ — случайный разреженный вектор, набор опорных элементов которого содержится в $f_{ik}(x_k)$ , и ожидается, что это постоянный вектор со всеми элементами, равными 1. Таким образом, процесс обновления остается несмещенным (хотя теперь и разреженным), а увеличенная дисперсия не влияет на скорость сходимости алгоритма. Более подробную информацию предоставили Leblond et al.

Ниже приведены математические формулы и переменные, выраженные в формате Markdown:

градиент: $f_i(x)$
Обновление SGD: $x_{k+1} = x_k - гамма(набла f_{ik}(x_k) - набла f_{ik}(bar{x}_{ik}) + bar{g}_k)$
Разреженный градиент: $f_{ik}(x_k)$ и $f_{ik}(bar{x}_{ik})$
Плотный градиент: $бар{г}_к$
Случайные разреженные векторы: $ж$
Ожидается постоянный вектор: вектор, все элементы которого равны 1.

Обмен технологиями