[Deep Learning] Graafisen mallin perusteet (7): Varianssin vähennysmenetelmä koneoppimisen optimoinnissa (1)

2024-07-12

Yhteenveto

Stokastinen optimointi on tärkeä osa koneoppimista, ja sen ytimessä on stokastinen gradienttilaskeutumisalgoritmi (SGD), menetelmä, jota on käytetty laajalti siitä lähtien, kun sitä ehdotettiin ensimmäisen kerran yli 60 vuotta sitten. Viimeisten kahdeksan vuoden aikana olemme nähneet jännittävän uuden kehityksen: stokastisten optimointimenetelmien varianssinvähennystekniikoita. Nämä varianssinvähennysmenetelmät (VR-menetelmät) toimivat hyvin skenaarioissa, jotka sallivat harjoitusdatan useita iteraatioita osoittaen nopeampaa konvergenssia kuin SGD, sekä teoriassa että käytännössä. Tämä nopeuden lisääntyminen korostaa kasvavaa kiinnostusta VR-menetelmiä kohtaan ja tällä alueella nopeasti kertyvää tutkimustulosta. Tässä artikkelissa tarkastellaan VR-menetelmien keskeisiä periaatteita ja suuria edistysaskeleita rajoitetun tietojoukon optimointiin. Tavoitteena on antaa tietoa ei-asiantuntijoille. Keskitymme ensisijaisesti konveksiin optimointiympäristöihin ja tarjoamme viitteen lukijoille, jotka ovat kiinnostuneita ei-kupereiden funktioiden minimoimista koskevista laajennuksista.

Avainsanat |. Koneoppiminen;

1. Esittely

Koneoppimisen tutkimuksen alalla peruskysymys ja tärkeä kysymys on mallien sovittaminen suuriin tietokokonaisuuksiin. Voimme esimerkiksi tarkastella tyypillistä lineaarisen pienimmän neliösumman mallin tapausta:

$x^* in argmin_{x in mathbb{R}^d} frac{1}{n} summa_{ i=1}^{n} (a_i^T x - b_i)^2$

Tässä mallissa meillä on $d$ parametrit, jotka esitetään vektoreilla $mathbb{R}^d:ssä$ annettu.Sillä välin meillä on käsillä $n$ tietopisteet, mukaan lukien piirrevektorit $a_i mathbb{R}^d:ssä$ ja tavoitearvo $b_i mathbb{R}$ .Mallin mukauttamisprosessina on säätää näitä parametreja niin, että mallin ennustettu tulos saadaan $a_i^T x$ keskimäärin mahdollisimman lähellä tavoitearvoa $b_i$ 。

Laajemmin voisimme käyttää häviöfunktiota $f_i(x)$ Mallin ennusteiden mittaamiseksi ja $i$ Kuinka lähellä datapisteet ovat:

$x^* in argmin_{x in mathbb{R}^d} f(x) := frac{1 }{n} summa_{i=1}^{n} f_i(x)$

häviötoiminto $f_i(x)$ Jos se on suurempi, se osoittaa, että mallin ennusteet poikkeavat suuresti tiedoista, jos $f_i(x)$ Nollaa vastaava malli sopii täydellisesti datapisteisiin.toiminto $f (x)$ Heijastaa mallin keskimääräistä menetystä koko tietojoukossa.

Yllä olevat muodon (2) kaltaiset ongelmat eivät koske vain lineaarisia pienimmän neliösumman ongelmia, vaan myös monia muita koneoppimisessa tutkittuja malleja. Esimerkiksi logistisessa regressiomallissa ratkaisemme:

$^* in argmin_{x matematiikassa{R}^ d} frac{1}{n} summa_{i=1}^{n} log(1 + e^{-b_i a_i^T x}) + frac{lambda}{2} |x|_2^2$

Tässä ollaan tekemisissä $b_i in {-1, +1}$ Binääriluokitteluongelman ennuste perustuu $a_i^T x$ symboleja.Kaavaan lisätään myös regularisointitermi $|x|_2^2$ tietojen liiallisen sovittamisen välttämiseksi $x|_2^2$ ilmaista $x$ Euklidisen normin neliö.

Useimmissa ohjatuissa oppimismalleissa harjoitusprosessi voidaan ilmaista muodossa (2), mukaan lukien L1-säännölliset pienimmän neliösumman, tukivektorikoneen (SVM), pääkomponenttianalyysin, ehdolliset satunnaiskentät ja syvät neuroverkot jne.

Keskeinen haaste nykyaikaisissa ongelmatapauksissa on datapisteiden määrä $n$ Todennäköisesti erittäin suuri. Käsittelemme usein tietojoukkoja, jotka ovat paljon teratavualueen ulkopuolella ja voivat olla peräisin niinkin erilaisista lähteistä kuin Internet, satelliitit, etäanturit, rahoitusmarkkinat ja tieteelliset kokeet. Tällaisten suurten tietojoukkojen käsittelyssä yleinen lähestymistapa on käyttää stokastisen gradientin laskeutumisalgoritmia (SGD), joka käyttää vain pientä määrää satunnaisesti valittuja datapisteitä kussakin iteraatiossa. Lisäksi kiinnostus varianssin vähentämisen (VR) stokastisiin gradienttimenetelmiin on viime aikoina lisääntynyt voimakkaasti, sillä niiden konvergenssinopeus on nopeampi kuin perinteisillä stokastisilla gradienttimenetelmillä.
Lisää kuvan kuvaus tähän
Kuva 1. Sieniaineistoon [7] perustuvassa logistisessa regressio-ongelmassa käytettiin gradienttilaskua (GD), kiihdytettyä gradienttilaskua (AGD, kiihdytetty GD vuonna [50]), stokastista gradienttilaskua (SGD) ja ADAM [30 ] -menetelmää. verrattuna varianssivähennysmenetelmiin (VR) SAG ja SVRG, joissa n = 8124, d = 112.

1.1 Gradientti- ja stokastinen gradienttilaskeutumismenetelmät

Gradient descent (GD) on klassinen algoritmi, jota käytetään ratkaisemaan yllä oleva ongelma (2), ja sen iteratiivinen päivityskaava on seuraava:
$x_{k+1} = x_k - gammafrak{1}{n} summa_{i=1}^{n} nabla f_i(x_k) )$

tässä, $γ$ on kiinteä askelarvo, joka on suurempi kuin nolla.Jokaisen GD-algoritmin iteraation aikana jokaisen datapisteen on oltava $i$ Laske gradientti $f_i(x_k)$ , mikä tarkoittaa, että GD vaatii kaiken $n$ suorittaa datapisteiden täydellisen läpikäynnin.Kun tietojoukon koko $n$ Kun siitä tulee erittäin suuri, GD-algoritmin kunkin iteraation kustannukset tulevat erittäin korkeaksi, mikä rajoittaa sen soveltamista.

Vaihtoehtona voidaan harkita stokastisen gradientin laskeutumisen (SGD) menetelmää, jonka ensimmäisenä ehdottivat Robbins ja Monro, ja sen iteratiivinen päivityskaava on seuraava:
$x_{k+1} = x_k - gamma nabla f_{i_k}(x_k)$

SGD-algoritmi toimii käyttämällä vain yhden satunnaisesti valitun datapisteen gradienttia kussakin iteraatiossa. $f_{i_k}(x_k)$ pienentääksesi kunkin iteroinnin kustannuksia. Kuvasta 1 näemme, että SGD saavuttaa merkittävämpää edistystä kuin GD (mukaan lukien nopeutetut GD-menetelmät) optimointiprosessin alkuvaiheessa.Kaavio näyttää optimoinnin edistymisen aikakausina, jotka määritellään kaikkien laskennaksi $n$ Harjoitusnäytteiden gradienttien määrä. GD-algoritmi suorittaa yhden iteraation jokaisella kierroksella, kun taas SGD-algoritmi suorittaa yhden iteraation kullakin kierroksella $n$ iteraatioita.Käytämme kierroksia SGD:n ja GD:n vertailun perustana, koska olettaen $n$ Erittäin suurissa tapauksissa molempien menetelmien pääkustannukset keskittyvät gradienttiin $f_i(x_k)$ laskeminen.

1.2 Varianssiongelma

Tarkastellaan satunnaista indeksointia $i_k$ kokoelmasta ${1, \dots, n}$ Tasaisen satunnaisvalinnan tapauksessa tämä tarkoittaa sitä kaikille $i$ ,valita $i_k = i$ Todennäköisyys $P[i_k = i]$ yhtä suuri $1 n frac{1}{n}$ . tässä tapauksessa, $f_{i_k}(x_k)$ kuten $f(x_k)$ Estimaattori on puolueeton, koska odotuksen määritelmän mukaan meillä on:
$f_{i_k}(x_k) | x_k] = murto{1}{n} summa_{i=1}^{n} nabla f_i(x_k) = nabla f(x_k) quad (6)$

Vaikka SGD (Stochastic Gradient Descent) -menetelmä ei takaa funktiota jokaisessa iteraatiossa $f$ Tahdon arvo pienenee, mutta keskimäärin se liikkuu kohti negatiivista täyttä gradienttia, joka edustaa suuntaa alaspäin.

Puolueeton gradienttiestimaattori ei kuitenkaan riitä varmistamaan SGD-iteraatioiden konvergenssia. Tämän kohdan havainnollistamiseksi kuva 2 (vasemmalla) näyttää SGD:n iteratiivisen liikeradan käytettäessä logistista regressiofunktiota käyttämällä vakioaskelkokoa LIBSVM:n tarjoamassa neljän kategorian tietojoukossa [7].Kuvan samankeskiset ellipsit edustavat funktion ääriviivoja eli funktion arvoa $f (x) = c$ vastaava kohta $x$ kerätä, $c$ on tietty vakio reaalilukujen joukossa.erilaisia vakioarvoja $c$ Vastaa erilaisia ellipsejä.

SGD:n iteratiivinen liikerata ei konvergoi optimaaliseen ratkaisuun (merkitty vihreällä tähdellä kuvassa), vaan muodostaa pistepilven optimaalisen ratkaisun ympärille. Sitä vastoin kuvassa 2 näytämme varianssivähennysmenetelmän (VR) iteratiivisen liikeradan, stokastisen keskigradientin (SAG), käyttäen samaa vakioaskelkokoa, jonka esittelemme myöhemmin. Syy, miksi SGD ei konvergoi tässä esimerkissä, on se, että itse stokastinen gradientti ei konvergoi nollaan, ja siksi vakioaskel SGD-menetelmä (5) ei koskaan pysähdy.Tämä on jyrkässä ristiriidassa gradienttilaskeutumismenetelmien (GD) kanssa, jotka luonnollisesti pysähtyvät $x_k$ Lähestymistapoja $x ^*$ ,kaltevuus $f(x_k)$ yleensä nollaan.
Lisää kuvan kuvaus tähän
Kuva 2. Tasojoukkokaaviot kaksiulotteiselle logistiselle regressiolle käyttäen kiinteän askeleen SGD (vasemmalla) ja SAG (oikealla) iteratiivisia menetelmiä. Vihreä tähti osoittaa x:nirrottaa.

1.3 Klassinen varianssin vähennysmenetelmä

käsittelyn takia $f_i(x_k)$ On olemassa useita klassisia tekniikoita arvojen varianssin aiheuttamiin ei-konvergenssiongelmiin.Esimerkiksi Robbins ja Monro [64] käyttävät sarjaa laskevia askeleita $gamma_k$ ratkaista varianssiongelma ja varmistaa, että tuote $gamma_k nabla f_{i_k}(x_k)$ voi supistua nollaan. Kuitenkin tämän pienentyvien vaiheiden sarjan säätäminen algoritmin pysäyttämisen estämiseksi liian aikaisin tai liian myöhään on vaikea ongelma.

Toinen klassinen tekniikka varianssin vähentämiseksi on käyttää useita $f_i(x_k)$ keskiarvo saadaksesi täyden gradientin $\nabla f (x)$ tarkempi arvio. Tätä lähestymistapaa kutsutaan minieräksi, ja se on erityisen hyödyllinen, kun useita gradientteja voidaan arvioida rinnakkain. Tämä johtaa lomakkeen iteraatioon:
$x_{k+1} = x_k - gammafrak{1}{|B_k|} summa_{i kohdassa B_k} nabla f_i(x_k) quad (7)$
sisään $B_k$ on satunnainen indeksijoukko, $B_k|$ ilmaista $B_k$ koko.jos $B_k$ Näytteenotto tasaisesti korvaamalla, tämän gradienttiarvion varianssi liittyy "erän kokoon" $B_k|$ on kääntäen verrannollinen, joten varianssia voidaan pienentää suurentamalla eräkokoa.

Tällaisten iteraatioiden kustannukset ovat kuitenkin verrannollisia eräkokoon, joten tämä varianssin pienentämisen muoto maksaa kohonneet laskentakustannukset.

Toinen yleinen strategia varianssin vähentämiseksi ja SGD:n empiirisen suorituskyvyn parantamiseksi on lisätä "momentum", ylimääräinen termi, joka perustuu aiemmissa vaiheissa käytettyyn suuntaan. Erityisesti SGD:n muoto vauhdilla on seuraava:
$x_{k+1} = x_k - gamma m_k quad (9)$
missä liikemääräparametri $β$ Sijaitsee alueella (0, 1).Jos alkuvauhti $m_0 = 0$ ja laajenna (8) $m_k$ Päivityksiä varten saamme $m_k$ on aiempien gradientien painotettu keskiarvo:
$m_k = summa_{t=0}^{k} beta^{kt} nabla f_{i_t}(x_t) quad (10)$
siksi, $m_k$ on stokastisten gradienttien painotettu summa.koska $summa_{t=0}^{k} beeta^{kt} = frac{1 - beeta^{k+1}}{1 - beeta}$ , voimme muuntaa $beta^k} m_k$ Pidetään stokastisten gradienttien painotettuna keskiarvona.Jos verrataan tätä täydellisen gradientin lausekkeeseen $f(x_k) = murto{1}{n} summa_{i=1}^{n} nabla f_i(x_k)$ Vertaillaksemme voimme $beta^k} m_k$ (yhtä hyvin kuin $m_k$ ) tulkitaan arvioksi täydellisestä gradientista. Vaikka tämä painotettu summa vähentää varianssia, se herättää myös keskeisiä kysymyksiä.Koska painotettu summa (10) antaa enemmän painoa äskettäin näytteitetyille gradienteille, se ei konvergoi koko gradienttiin $f(x_k)$ , jälkimmäinen on yksinkertainen keskiarvo. Ensimmäinen varianssin vähennysmenetelmä, jonka näemme luvussa II-A, ratkaisee tämän ongelman käyttämällä yksinkertaista keskiarvoa minkä tahansa painotetun keskiarvon sijaan.

1.4 Nykyaikaiset varianssin vähentämismenetelmät

Toisin kuin klassiset menetelmät, ne käyttävät suoraan yhtä tai useampaa $f_i(x_k)$ kuten $f(x_k)$ Approksimaationa nykyaikaiset varianssin vähentämismenetelmät (VR) käyttävät erilaista strategiaa.Nämä menetelmät käyttävät $f_i(x_k)$ päivittääksesi gradienttiarvion $g_k$ , jonka tavoitteena on tehdä $g_k$ lähestyä $f(x_k)$ .Erityisesti toivomme $g_k$ pystyvät tyydyttämään $g_k noin nabla f(x_k)$ . Tällaisten gradienttiarvioiden perusteella suoritamme sitten likimääräisen gradienttivaiheen muodossa:
$x_{k+1} = x_k - gamma g_k quad (11)$
tässä $γ > 0$ on askelkoon parametri.

Varmistaaksesi, että käytetään tasaista askelkokoa $γ$ Kun iteraatio (11) voi konvergoida, meidän on varmistettava, että gradienttiestimaatti $g_k$ Varianssi on yleensä nolla. Matemaattisesti tämä voidaan ilmaista seuraavasti:
$g_k - nabla f(x_k) |^2 right] rightarrow 0 quad text{as } k rightarrow infty quad (12)$
odotuksia täällä $E$ perustuu algoritmiin asti $k$ Kaikki satunnaismuuttujat lasketaan iteraatioita varten. Ominaisuus (12) varmistaa, että VR-menetelmä voidaan pysäyttää, kun optimaalinen ratkaisu on saavutettu. Pidämme tätä ominaisuutta VR-lähestymistavan tunnusomaisena piirteenä ja kutsumme sitä siksi VR-omaisuudeksi. On syytä huomata, että ilmaisu "alennettu" varianssi voi olla harhaanjohtava, koska itse asiassa varianssilla on taipumus olla nolla. Ominaisuus (12) on avaintekijä, joka mahdollistaa VR-menetelmien nopeamman konvergenssin teoriassa (oikein oletuksin) ja käytännössä (kuten kuvassa 1).

1.5 Ensimmäinen esimerkki varianssin vähennysmenetelmästä: SGD²

Yksinkertainen parannusmenetelmä voi saada SGD-rekursiivisen kaavan (5) saavuttamaan konvergenssin pienentämättä askelkokoa, toisin sanoen kääntää jokainen gradientti. Erityinen menetelmä on vähentää $f_i(x^*)$ , tämä menetelmä määritellään seuraavasti:
$x_{k+1} = x_k - gamma (nabla f_{i_k}(x_k) - nabla f_{i_k}( x^*)) quad (13)$
Tätä menetelmää kutsutaan nimellä SGD² [22].Vaikka emme yleensä voi tietää varmasti jokaista $f_i(x^*)$ , mutta esimerkkinä SGD² voi hyvin havainnollistaa varianssin vähennysmenetelmän perusominaisuuksia.Lisäksi monia varianssin vähentämismenetelmiä voidaan pitää SGD²-menetelmän likimääräisinä muotoina, nämä menetelmät eivät perustu tunnettuihin; $f_i(x^*)$ , mutta käytä sen sijaan menetelmää, joka voi arvioida $f_i(x^*)$ arvioitu arvo.

On syytä huomata, että SGD² käyttää puolueetonta arviota täydellisestä gradientista.koska $f(x^*) = 0$ ,F:
$f_{i_k}(x_k) - nabla f_{i_k} (x^*)] = nabla f(x_k) - nabla f(x^*) = nabla f(x_k)$
Lisäksi kun SGD² saavuttaa optimaalisen ratkaisun, se pysähtyy luonnollisesti, koska tahansa $i$ ,omistaa:
$f_i(x) - nabla f_i(x^*)) bigg|_{x=x^*} = 0$

Lisähavainnon jälkeen, kanssa $x_k$ lähellä $x ^*$ (peräkkäin $f_i$ ), SGD² täyttää varianssin vähennysominaisuuden (12), koska:
$g_k - nabla f(x_k) |^2 oikea] = \Vasen[ | nabla f_{i_k}(x_k) - nabla f_{i_k}(x^*) - nabla f(x_k) |^2 oikea] leq Eleft[ | nabla f_{i_k}(x_k) - nabla f_{i_k}(x^*) |^2 oikea]$
Tässä käytämme Lemma 2:ta, anna $f_{i_k}(x_k) - nabla f_{i_k}(x^*)$ , ja käytti hyväkseen $f_{i_k}(x_k) - nabla f_{i_k}(x^*)] = nabla f(x_k)$ luonto. Tämä ominaisuus osoittaa, että SGD²:llä on nopeampi konvergenssinopeus kuin perinteisillä SGD-menetelmillä, joita olemme selostaneet liitteessä B.

1.6 Varianssin nopean konvergenssin vähentämismenetelmä

Tässä osiossa esittelemme kaksi vakiooletusta, joita käytetään varianssivähennysmenetelmän (VR) analysointiin, ja käsittelemme kiihtyvyysvaikutusta, joka voidaan saavuttaa näillä olettamuksilla verrattuna perinteiseen SGD-menetelmään. Ensin oletetaan, että gradientilla on Lipschitzin jatkuvuus, mikä tarkoittaa, että gradientin muutosnopeus on äärellinen.

Oletus 1 (Lipschitzin jatkuvuus)

Oletetaan, että funktio $f$ on erotettavissa ja on $L$ - sileä, kaikille $x$ ja $y$ ja joku $0 < L < \infty$ ,Seuraavat ehdot:
$∥\nabla f (x) - \nabla f (y) ∥ \leq L ∥ x - y ∥ (14)$
Tämä tarkoittaa, että jokainen $mathbb{R}^d oikea nuoli mathbb{R}$ on erilaista, $L_i$ - sileä, määrittelemme $L_{teksti{max}}$ varten $max{L_1, . . . , L_n}$ 。

Vaikka tätä pidetään yleisesti heikona oletuksena, käsittelemme seuraavissa luvuissa VR-menetelmiä, jotka soveltuvat epäsujuisiin ongelmiin. Kaksinkertaisesti differentioituvassa yksimuuttujafunktiossa, $L$ -Sileys voidaan intuitiivisesti ymmärtää seuraavasti: se vastaa oletusta, että toinen derivaatta on $L$ yläraja, eli $∣ f^{''} (x) ∣ \leq L$ kaikille $mathbb{R}^d:ssä$ .Useiden muuttujien kahdesti differentioituville funktioille se vastaa Hessenin matriisin oletusta $nabla^2 f(x)$ Yksittäinen arvo $L$ yläraja.

Oletus 2 (voimakas kupera)

Toinen harkitsemamme hypoteesi on, että funktio (f) on $μ$ - Voimakkaasti kupera, mikä tarkoittaa, että tietyllä tavalla $μ > 0$ ,toiminto $frac{mu}{2}|x|^2$ Se on kupera.Lisäksi jokaiselle $i = 1, ..., n$ ， $mathbb{R}^d oikea nuoli mathbb{R}$ Se on kupera.

Tämä on vahva oletus.Pienimmän neliösumman tehtävässä jokainen (fi$ on konveksi, mutta kokonaisfunktio (f) on vain suunnittelumatriisissa $A := [a_1, . . . , a_n]$ Se on voimakkaasti kupera vain, jos sillä on täydellinen riviarvo. L2-reguloitu logistinen regressio-ongelma täyttää tämän oletuksen, koska on olemassa regularisointitermi, jossa $μ \geq λ$ 。

Tärkeä ongelmaluokka, joka täyttää nämä oletukset, ovat optimointiongelmat muodossa:
$x^* in argmin_{Rx in mathbb_{Rx }^d} f(x) = murto{1}{n} summa_{i=1}^{n} ell_i(a_i^Tx) + frac{lambda}{2}|x|^2-neliö (15)$
jossa jokainen "tappio" toimii $ell_i: mathbb{R} oikea nuoli mathbb{R}$ on kahdesti differentioituva ja sen toinen derivaatta $'ell_i''$ on rajoitettu nollaan ja johonkin ylärajaan $M$ välillä. Tämä sisältää erilaisia häviöfunktioita, joissa on L2-regulaatio koneoppimisessa, kuten pienimmän neliösumman, logistisen regression, probit-regression, Huberin robustin regression jne.Tässä tapauksessa kaikille $i$ ,Meillä on $L_i leq M|a_i|^2 + lambda$ ja $μ \geq λ$ 。

Näillä oletuksilla gradienttilaskeutumismenetelmän (GD) konvergenssinopeus määräytyy ehtonumeron mukaan $κ := L / μ$ Päättää. Ehtoluku on aina suurempi tai yhtä suuri kuin 1, ja kun se on merkittävästi suurempi kuin 1, funktion ääriviivat muuttuvat hyvin elliptisiksi, jolloin GD-menetelmän iteraatiot värähtelevät.Päinvastoin, milloin $κ$ Kun se on lähellä yhtä, GD-menetelmä konvergoi nopeammin.

Oletuksissa 1 ja 2 VR-menetelmä konvergoi lineaarisella nopeudella.Sanomme, että satunnaismenetelmän ({f(x_k)}) funktion arvo on annettu $0 < ρ \leq 1$ Lineaarisen konvergenssin nopeus (odotuksen alapuolella), jos vakio on olemassa $C > 0$ Valmistaa:
$E[f(x_k)] - f(x^* ) leq (1 - rho)^k C = O(exp(-krho)) quad for all k quad (16)$
Tämä eroaa klassisista SGD-menetelmistä, jotka luottavat vain gradientin puolueettomiin arvioihin kussakin iteraatiossa, jotka saavat vain alilineaariset nopeudet seuraavilla olettamuksilla:
$E[f(x_k)] - f(x^*) leq O(1/k)$
Minimi, joka tyydyttää tämän epätasa-arvon $k$ Sitä kutsutaan algoritmin iteratiiviseksi monimutkaiseksi. Seuraavat ovat GD-, SGD- ja VR-menetelmien perusversioille yhden iteroinnin iteratiivisuus ja hinta:

algoritmi	Iteraatioiden määrä	iteroinnin hinta
GD	$O (κ lo g (1/ ϵ))$	$O (n)$
SGD	$O(kappa_{teksti{max}} max(1/epsilon))$	$O (1)$
VR	$O((kappa_{teksti{max}} + n) log(1/epsilon))$	$O (1)$

Algoritmin kokonaisajoaika määräytyy iteroinnin monimutkaisuuden ja iteroinnin suoritusajan tulon perusteella.käytetty täällä $kappa_{teksti{max}} := max_i L_i/mu$ .Ilmoitus $kappa_{teksti{max}} geq kappa$ Siksi GD:n iteroinnin monimutkaisuus on pienempi kuin VR-menetelmän.

Kuitenkin, koska GD:n iteraatiokohtainen hinta on VR-menetelmän hinta $n$ kertaa, VR-menetelmä on ylivoimainen kokonaiskäyttöajan suhteen.

Klassisten SGD-menetelmien etuna on, että niiden ajoaika ja konvergenssinopeus eivät riipu $n$ , mutta siinä on toleranssi $ϵ$ Riippuvuus on paljon huonompi, mikä selittää SGD:n huonon suorituskyvyn, kun toleranssi on pieni.

Liitteessä B tarjoamme yksinkertaisen todisteen siitä, että SGD²-menetelmällä on sama iteratiivinen monimutkaisuus kuin VR-menetelmällä.

2. Perusvarianssin vähennysmenetelmä

Varianssivähennysmenetelmien (VR) kehittäminen on käynyt läpi useita vaiheita, ja ensimmäinen menetelmäerä johti merkittävästi parantuneisiin konvergenssinopeuksiin. Tämän menetelmäsarjan alku on SAG-algoritmi. Myöhemmin stokastinen kaksoiskoordinaattinen nousu (SDCA) -algoritmi, MISO-algoritmi, stokastinen varianssia vähentävä gradientti (SVRG/S2GD) ja SAGA-algoritmi (eli "parannettu" SAG) ilmestyivät peräkkäin.

Tässä luvussa kerromme yksityiskohtaisesti näistä uraauurtavista VR-menetelmistä. Luvussa 4 tutkimme joitain uudempia menetelmiä, jotka osoittavat ylivoimaisia ominaisuuksia verrattuna näihin perusmenetelmiin tietyissä sovellusskenaarioissa.

2.1 Stokastinen keskimääräinen gradienttimenetelmä (SAG)

Ensimmäisen varianssivähennysmenetelmän (VR) tutkiminen alkaa täyden gradienttirakenteen jäljittelemällä.Täydestä gradientista lähtien $\nabla f (x)$ on kaikki $f_i(x)$ Yksinkertainen gradienttien keskiarvo, sitten arviomme täydestä gradientista $g_k$ Sen pitäisi olla myös näiden gradienttiestimaattien keskiarvo. Tästä ideasta syntyi ensimmäinen VR-menetelmämme: stokastinen keskimääräinen gradientti (SAG).

SAG-menetelmä [37], [65] on satunnaistettu versio varhaisen inkrementaalisen aggregoidun gradientin (IAG) menetelmästä [4]. SAG:n ydinajatus on, että jokaiselle datapisteelle $i$ ylläpitää arviota $v_{ik} noin nabla f_i(x_k)$ .Käytä sitten näitä $v_{ik}$ Arvojen keskiarvoa käytetään arviona täydellisestä gradientista, eli:
$bar{g}_k = murto{1}{n} summa_{j= 1}^{n} v_{jk} noin murto{1}{n} summa_{j=1}^{n} nabla f_j(x_k) = nabla f(x_k) quad (18)$

Jokaisessa SAG:n iteraatiossa joukosta ${1, \dots, n}$ Poimi hakemisto kohteesta $i_k$ ja päivitetään sitten seuraavien sääntöjen mukaisesti $v_{jk}$ ：
$begin{cases} nabla f_{i_k}(x_k), & text{if } j = i_k \ v_{jk}^k, & text{if } j neq i_k end{cases}$
Heidän joukossaan jokainen $v_{0i}$ Voidaan alustaa nollaan tai $f_i(x_0)$ likimääräinen arvo.Ratkaisun kanssa $x ^*$ likiarvo, jokainen $v_{ik}$ vähitellen lähentyy $f_i(x^*)$ täten tyydyttää VR-ominaisuuden (12).

Jotta SAG voidaan toteuttaa tehokkaasti, meidän on kiinnitettävä huomiota laskemiseen $bar{g}_k$ välttääksesi summan aloittamisen alusta joka kerta $n$ vektori, koska tämä on $n$ Kustannukset ovat korkeat, kun se on suuri.Onneksi, koska jokaisessa iteraatiossa on vain yksi $v_{ik}$ Ehdot muuttuvat, eikä meidän tarvitse joka kerta laskea koko summaa uudelleen.Tarkemmin sanottuna oletetaan, että iteroitaessa $k$ Indeksi poimittu kohteesta $i_k$ , sitten on:
$bar{g}_k = murto{1}{n} summa_{alapino{ j=1 \ j neq i_k}}^{n} v_{jk} + frac{1}{n} v_{i_k}^k = bar{g}_{k-1} - murto{1}{n} v_{i_k}^{k-1} + frac{1}{n} v_{i_k}^k quad (20)$

Koska lisäksi $v_{i_k}$ kaikki paitsi $v_{jk}$ Arvot pysyvät samoina, vain tallennamme jokaisen $j$ Vektori, joka vastaa $v_j$ . Algoritmi 1 näyttää SAG-menetelmän erityisen toteutuksen.

SAG on ensimmäinen stokastinen menetelmä lineaarisen konvergenssin saavuttamiseksi, ja sen iteroinnin monimutkaisuus on $O((kappa_{teksti{max}} + n) log(1/epsilon))$ , käyttämällä askelkokoa $O(1/L_{teksti{max}})$ . Tämä lineaarinen konvergenssi voidaan havaita kuvassa 1.On syytä huomata, että johtuen $L_{teksti{max}}$ -Smooth toiminto mille tahansa $L_{teksti{max}}$ Liian $L^{'}$ - Sileillä SAG-menetelmillä saavutetaan lineaariset konvergenssinopeudet riittävän pienille askelkokoille, toisin kuin klassisilla SGD-menetelmillä, joilla saavutetaan vain alilineaarisia nopeuksia pienenevien askelkokojen sekvensseillä, joita on vaikea säätää käytännössä.

Tuohon aikaan SAG:n lineaarinen konvergenssi oli merkittävä edistysaskel, koska se laski vain yhden stokastisen gradientin (käsitteli yhtä datapistettä) kussakin iteraatiossa. Schmidtin et al. [65] tarjoama konvergenssitodiste on kuitenkin erittäin monimutkainen ja perustuu tietokoneella varmennettuihin vaiheisiin. Tärkein syy siihen, miksi SAG:ta on vaikea analysoida, on se $g_k$ on gradientin puolueellinen arvio.

Seuraavaksi esittelemme SAGA-menetelmän, SAG:n muunnelman, joka hyödyntää kovariaattien käsitettä luodakseen SAG-menetelmästä puolueettoman muunnelman, jolla on samanlainen suorituskyky, mutta jota on helpompi analysoida.

Algoritmi 1: SAG-menetelmä

Parametrit: askelkoko $γ > 0$
alustus: $x_0$ ， $v_i = 0 mathbb{R}^d:ssä$ varten $i = 1, \dots, n$
oikein $k = 1, \dots, T - 1$ toteuttaa:
a. Satunnainen valinta $i_k in {1, ldots, n}$
b. Laske $bar{g}_k = bar{g}_{k-1} - frac{1}{n} v_{i_k}^{k-1}$
c. Päivitys $v_{i_k}^k = nabla f_{i_k}(x_k)$
d. Päivitä gradienttiarvio $bar{g}_k = bar{g}_k + frac{1}{n} v_{i_k}^k$
e. Päivitys $x_{k+1} = x_k - gammapalkki{g}_k$
Lähtö: $x_T$

2.2.SAGA-menetelmä

Alennettu puolueeton perusgradienttiarvio $f_{i_k}(x_k)$ Varianssilähestymistapa perustuu niin kutsuttujen kovariaattien eli kontrollimuuttujien käyttöön.varten $i = 1, \dots, n$ ,perustaa $v_i mathbb{R}^d:ssä$ on vektori.Näitä vektoreita käyttämällä voimme muuntaa täyden gradientin $\nabla f (x)$ Kirjoitettu uudelleen muotoon:
$summa_{i=1}^{n}(nabla f_i(x) - v_i + v_i) = murto{1}{n} summa_{i=1}^{n} nabla f_i(x) - v_i + murto{1}{n} summa_{j=1}^{n} v_j$
$summa_{i=1}^{n} nabla f_i(x, v) quad (21)$
joka määrittelee $f_i(x, v) := nabla f_i(x) - v_i + frac{1}{n} summa_{ j=1}^{n} v_j$ .Nyt voimme ottaa satunnaisesti näytteen a $f_i(x, v)$ rakentaaksesi täydellisen gradientin $\nabla f (x)$ Puolueeton arvio $i \in {1, \dots, n}$ , voit käyttää SGD-menetelmää ja gradienttiestimointia:
$g_k = nabla f_{i_k}(x_k, v) = nabla f_{i_k}(x_k) - v_{i_k} + murto{1}{n} summa_{j=1}^{n} v_j-neliö (22)$

tarkkailua varten $v_i$ Valintaparien ero $g_k$ voimme vaikuttaa $g_k = nabla f_{i_k}(x_k, v)$ Korvaa ja käytä $E_i sim murto{1}{n}[v_i] = murto{1}{n} summa_{j=1}^{n} v_j$ Odotuksen laskemiseksi saamme:
$f_i(x_k) - v_i + E_i sim frac{1}{n}[v_i - nabla f_i(x_k)]|^2 oikea] leq E vasen[ |nabla f_i(x_k) - v_i|^2 oikea] quad (23) )$
Lemma 2:ta käytetään tässä, missä $f_i(x_k) - v_i$ .Tämä raja (23) osoittaa, että jos $v_i$ kera $k$ Kasvu on lähellä $f_i(x_k)$ , voimme saada VR-attribuutteja (12).Siksi soitamme $v_i$ ovat kovariaatteja, ja voimme valita ne varianssin vähentämiseksi.

Esimerkiksi tämä lähestymistapa on toteutettu myös SGD²-menetelmällä (13), jossa $v_i = nabla f_i(x^*)$ .Tätä ei kuitenkaan yleisesti käytetä käytännössä, koska emme yleensä tiedä $f_i(x^*)$ .Käytännöllisempi vaihtoehto on $v_i$ kuten tiedämme $bar{x}_i in mathbb{R}^d$ lähellä olevaa gradienttia $f_i(bar{x}_i)$ . SAGA jokaiselle toiminnolle $f_i$ käytä referenssipistettä $bar{x}_i in mathbb{R}^d$ , ja käytä kovariaatteja $v_i = nabla f_i(bar{x}_i)$ , joista jokainen $bar{x}_i$ on viimeinen arviomme $f_i$ kohta. Käyttämällä näitä kovariaatteja voimme rakentaa gradienttiestimaatin, seuraavan (22), jolloin saadaan:
$g_k = nabla f_{i_k}(x_k) - nabla f_{i_k} bar{x}_{i_k}) + murto{1}{n} summa_{j=1}^{n} nabla f_j(bar{x}_j) quad (24)$

SAGAn toteuttamiseksi voimme tallentaa gradientteja $f_i(bar{x}_i)$ sijasta $n$ viitekohta $bar{x}_i$ .Eli oletetaan $v_j = nabla f_j(bar{x}_j)$ varten $j \in {1, \dots, n}$ , jokaisessa iteraatiossa päivitämme stokastisen gradientin, kuten SAG $v_j$ 。

Algoritmi 2 SAGA

Parametrit: askelkoko $γ > 0$
alustus: $x_0$ ， $v_i = 0 mathbb{R}^d:ssä$ varten $i = 1, \dots, n$
käyttäytyminen $k = 1, \dots, T - 1$ iteraatiot:
a. Satunnainen valinta $i_k in {1, ldots, n}$
b. Tallenna vanha arvo $v_{teksti{vanha}} = v_{i_k}$
c. Päivitys $v_{i_k} = nabla f_{i_k}(x_k)$
d. Päivitys $x_{k+1} = x_k - gamma (v_{i_k} - v_{teksti{vanha}} + palkki{g}_k)$
e. Päivitä gradienttiarvio $bar{g}_k = bar{g}_{k-1} + frac{1}{n} (v_{i_k} - v_{ teksti{old}})$
Lähtö: $x_T$

SAGA-menetelmällä on sama iteroinnin monimutkaisuus kuin SAG:lla $O((kappa_{teksti{max}} + n) log(1/epsilon))$ , käyttämällä askelkokoa $O(1/L_{teksti{max}})$ , mutta todiste on paljon yksinkertaisempi.Kuitenkin, kuten SAG, SAGA-menetelmä vaatii tallennusta $n$ apuvektorit $v_i mathbb{R}^d:ssä$ varten $i = 1, \dots, n$ , mikä tarkoittaa tarvetta $O (n d)$ säilytystilasta.kun $d$ ja $n$ Kun molemmat ovat suuria, tämä ei ehkä ole mahdollista. Seuraavassa osiossa kerromme yksityiskohtaisesti, kuinka tätä muistivaatimusta voidaan vähentää yleisissä malleissa, kuten regularisoiduissa lineaarisissa malleissa.

kun pystyy $n$ Kun kaksi apuvektoria on tallennettu muistiin, SAG ja SAGA yleensä käyttäytyvät samalla tavalla. Jos tämä muistitarve on liian korkea, SVRG-menetelmä, jota tarkastelemme seuraavassa osiossa, on hyvä vaihtoehto. SVRG-menetelmä saavuttaa saman konvergenssinopeuden ja on usein käytännössä yhtä nopea, mutta vaatii vain $O (d)$ muistia yleisiin ongelmiin.

2.3.SVRG-menetelmä

Ennen SAGA-menetelmän syntyä jotkin varhaiset työt esittelivät ensimmäistä kertaa kovariaatteja SAG-menetelmän vaatiman korkean muistin ongelman ratkaisemiseksi.Nämä tutkimukset perustuvat kiinteään vertailupisteeseen $mathbb{R}^d$ kovariaatit, olemme laskeneet koko gradientin siinä vaiheessa $\nabla f (\overset{x}{ˉ})$ .tallentamalla vertailupisteitä $\overset{x}{ˉ}$ ja vastaava täydellinen gradientti $\nabla f (\overset{x}{ˉ})$ , voimme tehdä tämän tallentamatta jokaista $f_j(bar{x})$ Siinä tapauksessa käytä $bar{x}_j = bar{x}$ kaikille $j$ päivityksen toteuttamiseksi(24).Tarkemmin sanottuna näiden vektorien tallentamisen sijaan hyödynnämme tallennettuja referenssipisteitä kussakin iteraatiossa $\overset{x}{ˉ}$ laskea $f_{i_k}(bar{x})$ . Tätä menetelmää ehdottivat alun perin eri kirjoittajat eri nimillä, mutta se yhdistettiin myöhemmin SVRG-menetelmäksi noudattaen nimikkeistöä [28] ja [84].

Formalisoimme SVRG-menetelmän algoritmissa 3.

Käyttämällä (23) voimme johtaa gradienttiestimaatin $g_k$ Varianssi on rajoitettu:
$g_k - nabla f(x_k) |^2 oikea] leq Eleft[ | nabla f_i(x_k) - nabla f_i(bar{x}) |^2 oikea] leq L_{teksti{max}}^2 | x_k - bar{x} |^2$
jossa toinen epäyhtälö käyttää kutakin $f_i$ / $L_i$ - Tasaisuus.

On syytä huomata, että vertailukohta $\overset{x}{ˉ}$ Mitä lähempänä nykyistä pistettä $x_k$ , sitä pienempi on gradienttiestimaatin varianssi.

Jotta SVRG-menetelmä olisi tehokas, meidän on päivitettävä viitepisteet usein $\overset{x}{ˉ}$ (jotka edellyttävät täyden gradientin laskemista) punnitaan pienentyneen varianssin hyötyyn nähden.Tästä syystä me jokainen $t$ Päivitä vertailupiste kerran joka iteraatiossa, jotta se on lähellä $x_k$ (Katso algoritmin II-C rivi 11).Eli SVRG-menetelmä sisältää kaksi silmukkaa: ulomman silmukan $s$ , jossa vertailugradientti lasketaan $f(bar{x}_{s-1})$ (rivi 4) ja sisäsilmukka, jossa vertailupiste on kiinteä ja sisäinen iteraatio päivitetään stokastisen gradienttiaskeleen (22) perusteella. $x_k$ (Rivi 10).

Toisin kuin SAG ja SAGA, SVRG vaatii vain $O (d)$ muistista. SVRG:n haittoja ovat: 1) Meillä on ylimääräinen parametri $t$ , eli sisäisen silmukan pituutta, on säädettävä 2) Jokaiselle iteraatiolle on laskettava kaksi gradienttia, ja koko gradientti on laskettava aina, kun vertailupistettä muutetaan.

Johnson ja Zhang [28] osoittivat, että SVRG:llä on iteratiivinen monimutkaisuus $O((kappa_{teksti{max}} + n) log(1/epsilon))$ , samanlainen kuin SAG ja SAGA.Tämä on hypoteesin sisällä olevien silmukoiden lukumäärä $t$ kokoelmasta ${1, \dots, m}$ Saatu yhtenäisen näytteenoton ehdolla, missä $L_{teksti{max}}$ ， $μ$ , askelkoko $γ$ ja $t$ Tietyt riippuvuudet niiden välillä on täytettävä.Käytännössä käyttämällä $O(1/L_{teksti{max}})$ ja sisälenkin pituus $t = n$ , SVRG toimii yleensä hyvin, mikä on täsmälleen sama asetus, jota käytimme kuvassa 1.

Nyt alkuperäisestä SVRG-menetelmästä on monia muunnelmia.Esimerkiksi joitain muunnelmia käytetään $t$ vaihtoehtoinen jakelu [32], jotkin muunnelmat sallivat muodon $(1/L_{teksti{max}})$ Askelkoko [27], [33], [35].Käytössä on myös joitain muunnelmia $\nabla f (\overset{x}{ˉ})$ mini-erän likiarvo pienentää näiden täydellisten gradienttiarviointien kustannuksia ja suurentaa minierän kokoa VR-ominaisuuksien säilyttämiseksi.On myös joitakin muunnelmia, joissa päivitykset toistetaan sisäisessä silmukassa [54]:n mukaisesti. $g_k$ ：
[ g_k = nabla f_{i_k}(x_k) - nabla f_{i_k}(x_{k-1}) + g_{k-1} quad (25) ]
Tämä tarjoaa paikallisemman likiarvon. Tämän jatkuvan päivityksen muunnelman (25) käyttäminen tarjoaa ainutlaatuisia etuja ei-kupereiden funktioiden minimoinnissa, kuten käsittelemme lyhyesti osiossa IV.Lopuksi huomaa, että SVRG voi hyödyntää $f(bar{x}_s)$ arvo auttaa päättämään, milloin algoritmi lopetetaan.

Algoritmin 3 SVRG-menetelmä

Parametrit: askelkoko $γ > 0$
Alusta viitepiste $bar{x}_0 = x_0 mathbb{R}^d$
Suorita ulkoinen kierto $s = 1, 2, \dots$ ：
a. Laske ja tallenna $f(bar{x}_{s-1})$
b. Oletetaan $x_0 = bar{x}_{s-1}$
c. Valitse sisemmän silmukan iteraatioiden määrä $t$
d. Suorita sisäinen kierto $k = 0, 1, \dots, t - 1$ ：
i. Satunnainen valinta $i_k in {1, ldots, n}$
ii $g_k = nabla f_{i_k}(x_k) - nabla f_{i_k}(bar{x}_{ s-1}) + nabla f(palkki{x}_{s-1})$
iii $x_{k+1} = x_k - gamma g_k$
e. Päivitä vertailupiste $bar{x}_s = x_t$

2.4 SDCA ja sen muunnelmat

Yksi SAG- ja SVRG-menetelmien puute on, että niiden askelkoko perustuu tuntemattomiin arvoihin, jotka voivat olla tuntemattomia joissakin ongelmissa. $L_{teksti{max}}$ . Ennen SVRG:tä SDCA-menetelmä [70] yhtenä varhaisimmista VR-menetelmistä laajensi koordinaattilaskeutumismenetelmien tutkimuksen äärellisiin summaongelmiin. SDCA:n ja sen muunnelmien ideana on, että gradientin koordinaatit tarjoavat luonnollisen varianssia vähentävän gradienttiestimaatin.Tarkemmin sanottuna, oletetaan $j \in {1, \dots, d}$ , ja määrittele $nabla_j f(x) := vasen( murto{osittais f(x)}{osittais x_j} oikea) e_j$ on (f(x)) th $j$ derivaatat koordinaattisuunnassa, missä $e_j in mathbb{R}^d$ Se on ensimmäinen $j$ yksikkövektori.Koordinaattiderivaatojen keskeinen ominaisuus on se $nabla_j f(x^*) = 0$ , koska tiedämme $f(x^*) = 0$ .Tämän johdannainen jokaisen datapisteen kanssa $f_j$ erilainen, jälkimmäinen on $x ^*$ ei ehkä ole nolla. Siksi meillä on:
$nabla_j f(x) |^2 oikea nuoli 0 nelinumeroinen teksti{当} neliö x oikea nuoli x^* neliö (26)$
Tämä tarkoittaa, että koordinaattiderivaata täyttää varianssin vähennysominaisuuden (12).Lisäksi voimme käyttää $nabla_j f(x)$ rakentaa $\nabla f (x)$ puolueeton arvio.Oletetaan esimerkiksi $j$ on kokoelmasta ${1, \dots, d}$ Tasaisesti satunnaisesti valittu indeksi .Siksi mille tahansa $i \in {1, \dots, d}$ ,Meillä on $P [j = i] = \frac{1}{d}$ . siksi, $nabla_j f(x)$ Joo $\nabla f (x)$ Puolueeton arvio, koska:
$nabla_j f(x) oikea] = d summa_{i=1}^{d} P[j = i] murto{osittais f(x)}{osittais x_i} e_i = summa_{i=1}^{d} frac{osittais f(x)}{osittais x_i} e_i = nabla f(x)$

siksi, $nabla_j f(x)$ Sillä on kaikki ihanteelliset ominaisuudet, joita odotamme VR:ltä arvioiden täydet gradientit, ilman tarvetta käyttää kovariaatteja. Yksi haittapuoli tämän koordinaattigradientin käytössä on, että se on laskennallisesti kallista summaongelmallemme (2).Tämä johtuu laskennasta $nabla_j f(x)$ Tarve käydä läpi koko tietojoukon, koska $nabla_j f(x) = murto{1}{n} summa_{i=1}^{n} nabla_j f_i(x)$ . Siksi koordinaattiderivaataiden käyttö näyttää olevan yhteensopimaton summaongelmamme rakenteen kanssa. Usein voimme kuitenkin kirjoittaa alkuperäisen ongelman (2) uudelleen ns. kaksoisformulaatioon, jossa koordinaattiderivaatat voivat hyödyntää luontaista rakennetta.

Esimerkiksi L2-reguloidun lineaarisen mallin (15) kaksoiskaava on:
$mathbb{R}^n} frac{1}{n} summa_{i=1}^{n} -ell_i^*(-v_i) - frac{lambda}{2} vasen| frac{1}{lambda} summa_{i=1}^{n} v_i a_i right|^2 quad (27)$
sisään $ell_i^*(v)$ Joo $ell_i$ kupera konjugaatti.Voimme käyttää kartoitusta $summa_{i=1}^{n} v_i a_i$ palauttaa alkuperäinen ongelma (15) $x$ muuttuja.ratkaisee $v^*$ Korvaamalla yllä olevan kartoituksen oikealle puolelle, saadaan ratkaisu (15) $x ^*$ 。

Huomaa, että tämä kaksoisongelma on $n$ todellisia muuttujia $v_i mathbb{R}$ , joka vastaa yhtä kullekin harjoitusnäytteelle.Lisäksi jokainen kaksoishäviötoiminto $ell_i^*$ vain $v_i$ Toiminto. Eli häviöfunktion ensimmäinen termi on koordinoidusti erotettavissa. Tämä koordinaattien erotettavuus yhdistettynä toisen termin yksinkertaiseen muotoon mahdollistaa koordinaattien nousumenetelmän tehokkaan toteuttamisen.Todellakin, Shalev-Shwartz ja Zhang osoittivat, että koordinaattien nousu tässä ongelmassa on samanlainen iteratiivinen monimutkaisuus kuin SAG, SAGA ja SVRG $O((kappa_{teksti{max}} + n) log(1/epsilon))$ 。

Myös iterointikustannukset ja algoritmin rakenne ovat hyvin samankaltaisia: summaus seurannan avulla $summa_{i=1}^{n} v_i a_i$ Toisen termin käsittelemiseksi kohdassa (27) jokaisen kaksoiskoordinaattisen nousuiteroinnin tarvitsee ottaa huomioon vain yksi harjoitusnäyte, ja kunkin iteroinnin hinta on sama kuin $n$ Ei mitään tehtävää.Lisäksi voimme käyttää 1D-viivahakua laskeaksemme tehokkaasti askelkoon maksimoitavaksi $v_i$ Toiminnon kaksi tavoitetta.Tämä tarkoittaa, että jopa ilman $L_{teksti{max}}$ Tai merkityksellisten määrien tunteminen, on myös mahdollista saavuttaa nopeita pahimman tapauksen ajoaikoja VR-menetelmille.

3. Varianssin vähentämisen käytännön kysymyksiä

Perusvarianssin vähennysmenetelmän (VR) käyttöönottamiseksi ja kohtuullisen suorituskyvyn saavuttamiseksi on ratkaistava useita toteutuskysymyksiä. Tässä osiossa käsittelemme useita asioita, joita ei ole käsitelty yllä.

3.1.SAG/SAGA/SVRG-askelkoko

Optimointialgoritmien alalla, erityisesti vaihteluvähennysmenetelmissä, kuten stokastinen keskigradientti (SAG), stokastinen keskimääräinen gradientti (SAGA) ja stokastinen gradientti (SVRG), askelkoon asettaminen on keskeinen kysymys.Vaikka stokastisessa kaksoiskoordinaattinousumenetelmässä (SDCA) voimme käyttää kaksoistavoitetta askelkoon määrittämiseen, SAG:n, SAGAn ja SVRG:n alkuperäisten muuttujamenetelmien teoreettinen perusta on, että askelkoon tulisi olla $Oleft(frac{1}{L_{text{max}}}oikea)$ muodossa.Käytännön sovelluksissa emme kuitenkaan usein tiedä $L_{teksti{max}}$ tarkka arvo, ja muiden askelkokojen käyttö voi parantaa suorituskykyä.

Klassinen strategia askelkoon asettamiseen täyden gradientin laskeutumismenetelmässä (full-GD) on Armijon viivahaku.nykyinen piste $x_k$ ja hakusuunta $g_k$ , Armijon linjahaku sisään $gamma_k$ suoritetaan linjalla, joka on määritelty $gamma_k in {gamma : x_k + gamma g_k}$ , ja toimintoa on pienennettävä riittävästi, eli:
$f(x_k + gamma_k g_k) < f(x_k) - c gamma_k |nabla f(x_k)|^2$
Tämä lähestymistapa vaatii kuitenkin useita ehdokasvaiheita $gamma_k$ Laskeminen $f(x_k + gamma_k g_k)$ , joka arvioi $f (x)$ Koko tietojoukon läpikäyminen maksaa kohtuutonta.

Tämän ongelman ratkaisemiseksi voidaan käyttää satunnaisvaihtelumenetelmää sellaisten, jotka täyttävät seuraavat ehdot $gamma_k$ ：
$f_{ik}(x_k + gamma_k g_k) < f_{ik}(x_k) - c gamma_k |nabla f_{ik }(x_k)|^2$
Tämä lähestymistapa toimii yleensä hyvin käytännössä, varsinkin kun $f_{ik}(x_k)|$ ei ole lähellä nollaa, vaikka tällä hetkellä ei ole olemassa teoriaa, joka tukisi tätä lähestymistapaa.

Lisäksi Mairal ehdotti "Bottou-tekniikkaa" askelkoon asettamiseen käytännössä. Tämä menetelmä suorittaa binaarihaun ottamalla pienen osan tietojoukosta (esim. 5 %) yrittääkseen löytää optimaalisen askelkoon yhdellä kertaa tämän näytteen läpi. Samoin kuin Armijon rivihaku, tämä menetelmä toimii usein hyvin käytännössä, mutta siitä puuttuu jälleen teoreettinen perusta.

Huomaa, että yllä oleva sisältö on versio alkuperäisestä tekstistä, jossa käytetään Markdown-muotoa matemaattisten kaavojen ja muuttujien esittämiseen.

SDCA-menetelmällä on kuitenkin myös joitain haittoja.Ensinnäkin se vaatii konveksin konjugaatin laskemista $ell_i^*$ yksinkertaisen gradientin sijaan. Meillä ei ole automaattista differentiaaliekvivalenttia konveksille konjugaateille, joten tämä voi lisätä toteutusta. Viimeaikainen työ on ehdottanut "kaksoisvapaita" SDCA-menetelmiä, jotka eivät vaadi konjugointia ja käyttävät sen sijaan suoraan gradientteja. Näissä menetelmissä ei kuitenkaan ole enää mahdollista seurata kaksoiskohdetta askelkoon asettamiseksi.Toiseksi, vaikka SDCA vain vaatii $O (n + d)$ muistia ongelman (15) ratkaisemiseksi, mutta tätä ongelmaluokkaa varten SAG/SAGA tarvitsee vain $O (n + d)$ muistia (katso osa 3).SDCA-muunnos, joka sopii yleisempiin SAG/SAGA-ongelmiin $O (n d)$ muisti, koska $v_i$ tulla omistavaksi $d$ elementtien vektori. SDCA:n viimeinen hienoinen haittapuoli on, että se olettaa implisiittisesti vahvan kuperuusvakion $μ$ yhtä suuri $λ$ .varten $μ$ enemmän kuin $λ$ Ongelmana on, että alkuperäinen VR-menetelmä on yleensä huomattavasti parempi kuin SDCA.

3.2 Irtisanomisen ehtojen määrittäminen

Algoritmien optimoinnin alalla luotamme usein iteratiivisen monimutkaisuuden teoreettisiin tuloksiin ennustaaksemme pahimman tapauksen iteraatioiden lukumäärää, jota algoritmi vaatii tietyn tarkkuuden saavuttamiseksi. Nämä teoreettiset rajat perustuvat kuitenkin usein joihinkin vakioihin, joita emme voi ennustaa, ja käytännön sovelluksissa algoritmi voi usein saavuttaa odotetun tarkkuuden harvemmilla iteraatioilla. Siksi meidän on määritettävä joitain testikriteereitä määrittääksemme, milloin algoritmi tulisi lopettaa.

Perinteisessä täyden gradientin laskeutumismenetelmässä (full-GD) käytämme yleensä gradientin normia $f(x_k) |$ Tai jokin muu tähän liittyvä määrä päättääkseen, milloin iteraatio lopetetaan.SVRG-menetelmälle voimme hyväksyä saman kriteerin, mutta käyttää $f(bar{x}_s) |$ tuomion perusteeksi.SAG/SAGA-menetelmässä, vaikka emme eksplisiittisesti laske täydellistä gradienttia, määrä $ g_{bar{k}} $ on vähitellen likimääräinen $f(x_k)$ , siksi käytä $g_{bar{k}} |$ pysäytysehtona on järkevä heuristinen.

SDCA-menetelmässä voimme seurata kaksoisobjektin gradienttia lisätallennustyöllä lisäämättä asymptoottisia lisäkustannuksia.Lisäksi järjestelmällisempi lähestymistapa olisi seurata kaksoiseroa, vaikka tämä lisäisikin $O (n)$ kustannuksia, mutta se pystyy tarjoamaan irtisanomisen ehdot kahdella aukkotodistuksella. Lisäksi vahvasti kuperoiden kohteiden optimaalisuusehtoon perustuen MISO-menetelmä ottaa käyttöön periaatteellisen menetelmän, joka perustuu neliölliseen alarajaan [41].

Seuraavat ovat matemaattisia kaavoja ja muuttujia, jotka on ilmaistu Markdown-muodossa:

Gradienttinormi: $f(x_k) |$
Gradienttinormi SVRG-menetelmässä: $f(bar{x}_s) |$
Approksimaatiogradientin määrä SAG/SAGA-menetelmässä: $ g_{bar{k}} $
Lisääntynyt iteraatiokohtainen hinta: $O (n)$
MISO menetelmä
neliöllinen alaraja

Huomaa, että yllä oleva sisältö on versio alkuperäisestä tekstistä, jossa käytetään Markdown-muotoa matemaattisten kaavojen ja muuttujien esittämiseen.

3.3 Vähennä muistivaatimuksia

Vaikka SVRG (Stochastic Variational Reduction of Gradient) -algoritmi eliminoi aikaisempien variaatioiden vähentämismenetelmien muistivaatimukset, käytännön sovelluksissa SAG (Stochastic Average Gradient Descent) ja SAGA (Stochastic Average Gradient Descent with Gradient Accumulation) -algoritmeja käytetään monissa ongelmissa. vaativat yleensä vähemmän iteraatioita kuin SVRG-algoritmi.Tämä herätti ajatuksen: Onko olemassa joitakin ongelmia, jotka sallivat SAG:n/SAGAn $O (n d)$ Muistivaatimukset on toteutettu alla. Tässä osiossa tarkastellaan lineaaristen mallien luokkaa, jonka muistivaatimuksia voidaan vähentää merkittävästi.

Harkitse lineaarista mallia, jossa jokainen funktio $f_i(x)$ Se voidaan ilmaista näin $xi_i(mathbf{a}_i^top x)$ .oikein $x$ Johdannainen antaa gradienttimuodon:
$f_i(x) = xi'(mathbf{a}_i^top x) mathbf{a}_i$
tässä, $ξ^{'}$ ilmaista $ξ$ johdannainen.Olettaen, että meillä on suora pääsy ominaisvektoreihin $mathbf{a}_i$ , niin SAG/SAGA-menetelmän toteuttamiseksi meidän tarvitsee vain tallentaa skalaari $xi(mathbf{a}_i^top x)$ .Tällä tavalla muistivaatimukset vaihtelevat $O (n d)$ vähennetty $O (n)$ . SVRG-algoritmi voi myös hyödyntää tätä gradienttirakennetta: tallentamalla tämän $n$ skalaari, voimme vähentää SVRG:n "sisäistä" iteraatiota kohti vaadittavien gradienttiarviointien lukumäärän 1:een tämän luokan ongelmatilanteissa.

On muitakin ongelmia, kuten todennäköisyyspohjaiset graafiset mallit, jotka tarjoavat myös mahdollisuuden vähentää muistivaatimuksia [66]. Tietyn tietorakenteen ja algoritmin optimoinnin avulla algoritmin ajon aikana vaatimia muistiresursseja voidaan edelleen vähentää.

Seuraavat ovat matemaattisia kaavoja ja muuttujia, jotka on ilmaistu Markdown-muodossa:

Lineaarisen mallin toiminto: $f_i(x) = xi_i(mathbf{a}_i^top x)$
Gradienttilauseke: $f_i(x) = xi'(mathbf{a}_i^top x) mathbf{a}_i$
Ominaisuusvektori: $mathbf{a}_i$
Muistivaatimukset vaihtelevat $O (n d)$ Vähennetty $O (n)$ 。

3.4 Harvaiden gradienttien käsittely

Joissakin ongelmissa gradientti $f_i(x)$ Saattaa sisältää suuren määrän nolla-arvoja, kuten lineaarinen malli, jossa on vähän ominaisuuksia.Tässä tapauksessa perinteinen stokastinen gradienttilaskeutumisalgoritmi (SGD) voidaan toteuttaa tehokkaasti, jolloin laskennallinen monimutkaisuus on lineaarinen gradientin nollasta poikkeavien elementtien lukumäärässä, joka on yleensä paljon pienempi kuin ongelman ulottuvuus. $d$ . Tätä etua ei kuitenkaan hyödynnetä standardeissa variaatiovähennysmenetelmissä (VR). Onneksi on olemassa kaksi tunnettua tapaa parantaa tätä.

Ensimmäistä parannusta ehdottivat Schmidt et al., joka hyödyntää päivitysprosessin yksinkertaisuutta ja toteuttaa muunnelman "lennossa" tapahtuvasta laskennasta siten, että kunkin iteroinnin hinta on verrannollinen nollasta poikkeavien lukujen määrään. elementtejä.SAG esimerkkinä (mutta tämä lähestymistapa toimii kaikissa muunnelmissa), tämä tehdään siten, että koko vektoria ei tallenneta jokaisen iteraation jälkeen $v_{ik}$ , mutta laskee vain ne, jotka vastaavat nollasta poikkeavia elementtejä $v_{ik_j}$ , päivittämällä jokainen muuttuja sen jälkeen, kun elementti oli viimeksi muu kuin nolla $v_{ik_j}$ 。

Toista parannusmenetelmää ehdottivat Leblond et ai. SAGA:lle, joka päivittää kaavan $x_{k+1} = x_k - gamma(nabla f_{ik}(x_k) - nabla f_{ik }(bar{x}_{ik}) + bar{g}_k)$ Lisäsatunnaisuus otetaan käyttöön. tässä, $f_{ik}(x_k)$ ja $f_{ik}(bar{x}_{ik})$ on harvaa, ja $bar{g}_k$ on tiheä.Tässä menetelmässä tiheä termi $(bar{g}_k)_j$ Jokainen komponentti korvataan $w_j (bar{g}_k)_j$ ,sisään $mathbb{R}^d:ssä$ on satunnainen harva vektori, jonka tukijoukko sisältyy $f_{ik}(x_k)$ , ja sen odotetaan olevan vakiovektori, jonka kaikki elementit ovat yhtä suuret kuin 1. Näin päivitysprosessi pysyy puolueettomana (vaikkakin nyt harvakseltaan), eikä lisääntynyt varianssi vaikuta algoritmin konvergenssinopeuteen. Lisätietoja tarjoavat Leblond et ai.

Seuraavat ovat matemaattisia kaavoja ja muuttujia, jotka on ilmaistu Markdown-muodossa:

kaltevuus: $f_i(x)$
SGD päivitys: $x_{k+1} = x_k - gamma(nabla f_{ik}(x_k) - nabla f_{ik }(bar{x}_{ik}) + bar{g}_k)$
Harva gradientti: $f_{ik}(x_k)$ ja $f_{ik}(bar{x}_{ik})$
Tiheä gradientti: $bar{g}_k$
Satunnaiset harvat vektorit: $w$
Odottaa vakiovektoria: vektoria, jonka kaikki elementit ovat yhtä suuret kuin 1.

Teknologian jakaminen