[Deep Learning] Graphical Exemplar Basics (7): Reductio Variance Methodus in Machina Discendi Optimizationem (1)

[Deep Learning] Graphical Model Basics (7): Reductio Variance Methodus in Machina Learning Optimization (1)

2024-07-12

Summarium

Optimization stochastica pars vitalis apparatus eruditionis est, et in nucleo eius descensus algorithmus stochasticus (SGD), methodus late usus est quia prius plus quam 60 annos proponitur. Praeteritis octo annis novam evolutionem excitantem conspeximus: variatum deminutionem technicae artis optimizationis stochasticae methodi. Hae modi differentiae reductionis (VR methodi) bene faciunt in missionibus quae multiplices iterationes notitiarum disciplinarum permittunt, ostendens velocius concursum quam SGD, tam in theoria quam in praxi. Haec celeritas incrementa augentem studium in VR methodis effert et celerius investigationis output in hac provincia accumulat. Articulus hic recenset principia praecipuorum et progressus in VR methodos ad limitata notas optimas constituendas, quaerens lectores non peritos informare. Praesertim in ambitibus optimiizationis convexi nos intendunt et rationem praebent lectoribus in extensionibus interesse ad functionum non-convexorum minimizationem.

Clavis verba |

1. Introductio

In machinatione investigationis discendae, exitus fundamentalis et momenti est quomodo exempla aptare ad ingentia indicia. Exempli causa, considerare possumus casum typicum exemplaris linearis minimorum quadratorum;

$mathbb{R}^d} frac{1}{n} sum_{ i=}^{n} (a_i^T x - b_i)^2$

In hoc exemplo habemus $d*****************************************$ parametri, quae per vectores designantur $mathbb{R}^d$ dedit.Interea ad manum habemus $n$ puncta data, inter pluma vector $a_i in mathbb{R}^d$ et scopum valorem $b_i in mathbb{R}$ .Accommodatio processus exemplaris est hos parametros accommodare ut exemplar praedictum output $a_i^T x$ in mediocris quam proxime ad scopum valorem fieri $b_i*$ 。

Latius munus amittere possumus $f_i ( x )$ Ut metiretur exemplar praedictiones et $ego$ Quam claudere notitia puncta sunt:

$argmin_{x in mathbb{R}^d} f(x) := frac{1 }{n} sum_{i=1}^{n} f_i(x)$

damnum munus $f_i ( x )$ Si maior est, indicat praedictiones exemplaris a notitia valde deviare; $f_i ( x )$ Aequalis nulla, exemplar notitiarum puncta perfecte aptat.officium $f******************************************************************************************************************************************************************************** (x************************************************************************************************************************************************************************************************************************************************************************)$ Medium amissum exemplar in tota notitia copia reflectitur.

Problemata, sicut forma (2) supra, applicant non solum ad problemata quadrata minimorum linearium, sed etiam ad plura alia exempla in machina discendi studiosa. Exempli gratia: in exemplari regressionis logisticae solvemus pro:

$x^* in argmin{x in mathbb{R}^ d} frac{1}{n} sum_{i=}^{n} log(1 + e^{-b_i a_i^T x}) + frac{lambda}{2} |x|_2^2$

Hic agimus $b_i in {-1, +1}$ Pro problemate binario classificatione, praedicatio innititur $a_i^T x$ symbola.Terminus regularisation introducitur etiam in formula $|x|_2^2$ ad vitare data overfitting, ubi $x|_2^2$ exprimere " $x************************************************************************************************************************************************************************************************************************************************************************$ Quadratum Euclid.

In exemplaribus eruditionis plerisque invigilantibus, processus disciplinae ut forma exprimi potest, incluso L1 quadratis minimis ordinandis, machina vectoris (SVM), principale analysi componentis, condiciones temere campos et retiacula profunda neuralis, etc.

A key provocatio in modernis quaestionibus instantiarum instantiarum est numerus notitiarum punctorum $n$ Verisimiliter architecto magni. Saepius tractamus de notitiarum copiarum quae longe ultra spatium terabyte sunt et e fontibus diversa provenire possunt sicut interrete, satellites, sensores remoti, mercatus oeconomicus et experimenta scientifica. Communis accessus ad res tantas notitias tractandas est algorithmus stochasticus gradientis (SGD) descensus, qui tantum paucitate notitiarum quae in unaquaque iteratione punctis passim selectis utitur. Praeterea acutum nuper ortum est in usuris repugnantis reductionis (VR) clivi stochasticae, quae citius concursum habent quam methodi gradientis stochasticae traditionalis.
Insert imaginem descriptionis hic
Figura 1. In problemate logistico innixus fungus dataset [7], descensus gradiens (GD), descensus gradiens acceleratus (AGD, acceleratus GD in [50]), descensus stochastici gradientis (SGD) et ADAM [30] erat modus. collatis cum variationibus reductionis methodi SAG et SVRG, ubi est n = 8124, d = 112.

1.1.

Descensus gradiens (GD) est algorithmus classicus ad solvendum problema superius (2), eiusque renovatio iterativa haec est formula:
$x_{k+1} = x_k - gamma frac{1}{n} sum_{i=1}^{n} nabla f_i(x_k )$

hic, $γ$ certum gradum valorem major nulla.In unaquaque iteratione algorithmi GD, unumquodque punctum datae esse debet $ego$ Calculare CLIVUS $f_i(x_k)$ , quod significat omnia GD requirit $n$ perficere traversal of notitia puncta.Cum magnitudinem notitia paro $n$ Cum maxima fit, sumptus cuiusque algorithmus iteratio GD algorithmus fit, ita limitata eius applicatione.

Ut jocus, considerare possumus methodum stochastic gradientis (SGD) quae a Robbins et Monro primum proposita est, eiusque renovatio iterativa talis est:
$x_{k+1} = x_k - gamma nabla f_{i_k}(x_k)$

SGD algorithmus operatur utendo solum clivum unius notulae passim selectae in unaquaque iteratione. $f_{i_k}(x_k)$ sumptus cuiusque iterationis reducere. In Figura I, videre possumus SGD plus momenti quam GD (inclusis modis GD acceleratis) in primis progressionis optimizationis progressu.Aliquam lacinia purus volutpat ipsum in terminis epochae ostendit, quae ratio omnium definita est $n$ Graduum numerus ad formandas exempla. GD algorithmus iterationem in unaquaque rotunditate unam facit, dum SGD algorithmus unam iterationem in singulis facit. $n$ iterationes.Utimur rounds ut basis comparet SGD et GD, quia sub suppositione $n$ In maximis casibus, principale utriusque modi sumptus in clivum contrahitur $f_i(x_k)$ calculum.

1.2.

Consideremus temere indexing $i_k$ ex collectione ${1, \dots, n}$ In casu lectionis incerti uniformis, hoc significat pro omnibus $ego$ , eligere $i_k = i$ Probabilitas $P[i_k = i]$ aequalis $1 n frac{1}{n}$ . in hoc casu, $f_{i_k}(x_k)$ as $f(x_k)$ Aestimator est pensator, quia exspectationis definitio est;
$f_{i_k}(x_k) | x_k] = frac{1}{n} sum_{i=1}^{n} nabla f_i(x_k) = nabla f(x_k) quad (6)$

Quamvis SGD (Descensus Gradientis Stochastici) methodus munus in unaquaque iteratione non praestat $f********************************************************************************************************************************************************************************$ Valor voluntatis decrescit, sed mediocris fertur ad negativum plenum gradientem, quae directum deorsum repraesentat.

Attamen estimatorem non pensatorem praelibatum habens ad concursum SGD iterations curare. Ad hoc illustrandum, Figura 2 (reliquit) ostendit iterativam trajectoriam SGD applicando munus regressionis logisticae constanti gressu quantitatis in quattuor categoriis dataset a LIBSVM [7].Ellipses concentrices in figura repraesentant Venustates functionis, id est, valorem functionis $f******************************************************************************************************************************************************************************** (x************************************************************************************************************************************************************************************************************************************************************************) = c*****$ correspondentes punctum $x************************************************************************************************************************************************************************************************************************************************************************$ congregare; $c*****$ est specifica constans in copia realium numerorum.diversis constant values $c*****$ Diversis ellipsis respondet.

Trajectoria iterativa SGD ad optimam solutionem non convenit (per asterisco viridi in figura indicata), sed punctum nubilum circa solutionem optimalem format. E contra in Figura 2 ostendemus methodum iterativam trajectoriam variationis reductionis, stochasticam gradientis (SAG), eandem constantem gradum magnitudinis adhibitis, quam postea introducebimus. Ratio SGD in hoc exemplo non concurrit, est quia ipsum clivum stochasticum ad nihilum non concurrit, ideoque perpetuus modus SGD gradus (5) numquam desistit.Hoc est contra acutos modos descensus gradientis (GD) qui naturaliter desinunt ut $x_k$ Appropinquat $x^*$ , clivus $f(x_k)$ nulla tendunt.
Insert imaginem descriptionis hic
Figura 2. Plana insidiae sunt regressionis logisticae duo dimensiva utentes gradatim fixum SGD (reliquit) et SAG (recte) iteratives modos. Asteriscus viridis indicat x *solvere.

1.3.

dispensando ex $f_i(x_k)$ Plures sunt artes classicas pro quaestionibus non-convergentiis, quae a valorum variatione causantur.Eg Robbins et Monro [64] seriei gradus decrescentes utuntur $gamma_k$ solvere problema dissidium, quod productum est $gamma_k nabla f_{i_k}(x_k)$ nulla potest convenire. Attamen hanc seriem decrescentium gradus accommodans ad algorithmum nimis mature vel sero impediendum, difficile est problema.

Alia ars classica ad contentionem reducendi multiplex est uti $f_i(x_k)$ Mediocris obtinere plenam CLIVUS $\nabla f******************************************************************************************************************************************************************************** (x************************************************************************************************************************************************************************************************************************************************************************)$ verius aestimare. Hic accessus minibatch appellatur et maxime utilis est cum plures gradus in parallelis aestimari possunt. Hoc consequitur iterationem formae:
$x_{k+1} = x_k - gamma frac{1}{|B_k|} sum_{i in B_k} nabla f_i (x_k) quad (VII)$
in $B_k$ est temere index paro; $B_k|$ exprimere " $B_k$ magnitudinem.si $B_k$ Sampling uniformiter cum reposito, tunc variatio huius aestimationis gradientis ad "batch magnitudinem" refertur. $B_k|$ est reciproce proportionale, unde discrepantia augendo massam magnitudinem reduci potest.

Autem, pretium harum iterations batch magnitudine proportionale est, ergo haec forma reductionis variationis venit ad sumptus computatorii aucti.

Aliud commune consilium ad contentionem reducendam et ad empiricam observantiam SGD emendandam addere est "momentum", terminum extra ordinem secundum quod in praeteritis gradibus adhibetur. Praesertim forma SGD cum impetu talis est;
$x_{k+1} = x_k - gamma m_k quad (9)$
ubi momentum parametri $β$ Collegium positum (0, 1).Si primum momentum $m_0 = 0$ et expand in (8). $m_k$ Pro updates, dabimus tibi $m_k$ est ponderati mediocris priorum graduum;
$m_k = sum_{t=0}^{k} beta^{kt} nabla f_{i_t}(x_t) quad (10)$
ergo, $m_k$ stochastic graduum summa est praegrauata.quod $sum_{t=0}^{k} beta^{kt} = frac{1 - beta^{k+1}}{1 - beta}$ , convertere possumus $beta^k} m_k$ Mediocris stochastic graduum ponderati considerari ut.Si hoc comparemus cum expressione perfecti clivi $f(x_k) = frac{1}{n} sum_{i=1}^{n} nabla f_i(x_k)$ Comparare possumus $beta^k} m_k$ (Ut etiam $m_k$ ) interpretatur clivus perfecti aestimatio. Dum haec summa gravitatem contentionem minuit, etiam cardines res movet.Cum summa ponderata (10) recentibus gradibus gustatis plus ponderis dat, ad plenam gradientem non convenit. $f(x_k)$ illa vero simplex mediocris. Primum modum reductionis discrepantiae videbimus in Sectione II-A hanc problema solvi utendo pro mediocris cuiuslibet mediocris ponderis simplici.

1.4.

Dissimiles methodi classicae, vel directe utuntur $f_i(x_k)$ as $f(x_k)$ Cum approximatio, moderni differentiae reductionis modi (VR) diversis consiliis utuntur.Haec modi utere $f_i(x_k)$ ut update in CLIVUS estimate $g_k$ cuius finis est facere $g_k$ accessus $f(x_k)$ .Specie speramus $g_k$ potest satisfacere $g_k approx nabla f(x_k)$ . Talibus opinionibus gradientibus fundatis, tunc gradum gradientem approximatum formae perficimus;
$x_{k+1} = x_k - gamma g_k quad (11)$
hic " $γ > 0$ est gradus magnitudinis parametri.

Ut constantem gradum magnitudine adhibetur $γ$ Cum iteratio (11) convenire potest, opus est ut aestimatio clivus $g_k$ Discorso nulla tendit. Mathematice hoc modo exprimi potest;
$g_k - nabla f(x_k) |^2 right] rightarrow 0 quad text{as} k rightarrow infty quad (12)$
exspectationes hic $E$ fundatur in algorithm ad $k$ Omnes variabiles incerti pro iterationibus computantur. Proprietas (12) efficit ut methodus VR obstruatur cum ad optimalem solutionem pervenitur. Hanc proprietatem tamquam notam notam VR accessionis respicimus ideoque eam proprietatem VR appellamus. Notatu dignum est contentionem locutionis "reduci" posse seductionem esse, re vera variatio ad nihilum tendit. Proprietas (12) est factor praecipuus, qui dat VR methodos ut citius concurrentiam consequantur in theoria (sub opportunis suppositis) et in praxi (ut in Figura 1).

1.5

Simplex emendatio methodus potest facere formulam recursivam SGD (5) concursum consequi sine diminutione gradus magnitudinis, id est, singulas gradus transferre $f_i(x^*)$ haec ratio sic definitur;
$x_{k+1} = x_k - gamma (nabla f_{i_k}(x_k) - nabla f_{i_k}( x^*)) quad (13)$
Haec methodus SGD appellatur [22].Quamvis non soleat certo scire $f_i(x^*)$ , sed SGD², exempli gratia, notas fundamentales differentiae reductionis methodi bene illustrare potest.Praeterea plures modi reductiones discrepantes videri possunt ut proximae formae methodi SGD; hae methodi notae notae non nituntur $f_i(x^*)$ , sed pro methodo utere quae accedere potest $f_i(x^*)$ aestimatum.

Notatu dignum est SGD² aestimationem incorruptam totius clivi.quod $f(x^*) = 0$ ,F:
$f_{i_k}(x_k) - nabla f_{i_k} (x^*)] = nabla f(x_k) - nabla f(x^*) = nabla f(x_k)$
Praeterea, cum SGD² ad optimalem solutionem pervenerit, naturaliter cessabit quia pro quolibet $ego$ ,habet:
$f_i(x) - nabla f_i(x^*)) bigg|_{x=x^*} = 0$

Ad ulteriora observatione, cum $x_k$ prope $x^*$ (Pro consecutiva $f_i$ ), SGD² variationem reductionis proprietatis satisfacit (12), quia
$g_k - nabla f(x_k) |^2 right] = \Eleft[ | nabla f_{i_k}(x_k) - nabla f_{i_k}(x^*) - nabla f(x_k) |^2 right] leq Eleft[ | nabla f_{i_k}(x_k) - nabla f_{i_k}(x^*) |^2 right]$
Hic utimur lemma 2, let $f_{i_k}(x_k) - nabla f_{i_k}(x^*)$ ac usus $f_{i_k}(x_k) - nabla f_{i_k}(x^*)] = nabla f(x_k)$ naturae. Haec proprietas indicat SGD² velociorem concursum habere quam modos traditos SGD, quos in Appendice B expressimus.

1.6

In hac sectione inducemus duas suppositiones vexillum ad methodum differentiam reductionis analysim adhibitam, et effectum accelerationis discutiemus, qui sub his positis cum tradito SGD methodo comparari potest. Primo supponitur quod continuum graduum habeat Lipschitz, quod significat ratem mutationis gradientis finitam esse.

Assumptio, 1 (continuatio Lipschitz) ;

Munus supponitur $f********************************************************************************************************************************************************************************$ differentiale et $L$ — lenis, for all $x************************************************************************************************************************************************************************************************************************************************************************$ et $y***$ et aliquem $0 < L < \infty$ Sequuntur condiciones:
$∥\nabla f******************************************************************************************************************************************************************************** (x************************************************************************************************************************************************************************************************************************************************************************) - \nabla f******************************************************************************************************************************************************************************** (y***) ∥ \leq L ∥ x************************************************************************************************************************************************************************************************************************************************************************ - y*** ∥ (14)$
Hoc significat quod omnis $mathbb{R}^d jaculum mathbb{R}$ differentiale est; $L_i$ - lenis, definimus $L_{text{max}}$ for* $max{L_1, . . . , L_n}$ 。

Quamvis haec suppositio infirma generaliter habeatur, in sequentibus capitibus tractabimus de VR methodis quae ad problemata non lenis apta sunt. Munus univariatum bis differentiabile; $L$ Levitas intuitive intelligi potest: aequivalet si secunda derivatio $L$ evolvimus, scilicet $∣ f********************************************************************************************************************************************************************************^{''} (x************************************************************************************************************************************************************************************************************************************************************************) ∣ \leq L$ pro omnibus $mathbb{R}^d$ .Pro bis functionibus differentialibus plurium variabilium, aequivalet matrix Hessiae assumere $nabla^ 2 f(x)$ De valore singular! $L$ evolvimus.

Assumptio II (fortis convexitas)

Secunda hypothesis consideranda est functionem illam (f) esse $μ$ Fortiter convexum, quod significat certum $μ > 0$ ,officium $frac{mu}{2}|x|^2$ Convexa s.Praeterea, pro singulis $ego = 1, ..., n$ ， $mathbb{R}^d jaculum mathbb{R}$ Convexa s.

Haec est fortis suppositio.In minimis quaestionibus quadratis, utrumque (fi$ convexum est, sed munus universale (f) tantum est in consilio matricis. $[a_1, . . . , a_n]$ Valde convexum est solum, si ordinem perfectum habet gradum. Problema regressionis logisticae regularis L2 satisfacit assumptioni huic ob exsistentiam termini regularizationis, ubi $μ \geq λ$ 。

Classis gravissima quaestionum quae his suppositis satisfaciunt problemata formae optimization sunt:
$x^* in argmin{x in mathbb{R }^d} f(x) = frac{1}{n} sum_{i=1}^{n} ell_i(a_i^Tx) + frac{lambda}{2}|x|^2 quad (15)$
ubi quisque "detrimentum" munus $ell_i: mathbb{R} right arrow mathbb{R}$ est duplex differentiale, et secundae derivativae $ell_i''$ restringitur ad 0 et superior tenetur $M$ intercedit. Hoc includit varias functiones amissiones cum L2 regularizationis in machina discendi, ut quadrata minimum, regressionem logisticam, regressionem probit, regressionem robustam Huber, etc.Hic pro omnibus $ego$ ,Habemus $L_i leq M|a_i|^2 + lambda$ et $μ \geq λ$ 。

His suppositis, concursus rate descensus gradientis (GD) determinatur per numerum conditionis $κ := L / μ$ Decernere. Numerus conditionis semper maior est quam 1 vel aequalis, et cum signanter maior quam 1, Venustates functionis valde ellipticae fiunt, causando iterationes methodi GD oscillandi.Sed contra, cum $κ$ Cum sit prope I modum GD velocius convergat.

Sub Assumptione 1 et 2, ratio VR in rate lineari convergat.Munus valorem methodi temere ({f(x_k)}) dari dicimus $0 < ρ \leq 1$ Ratam concursus linearis (sub expectatione), si constans existat $C > 0$ Facit:
$E[f(x_k)] - f(x^* ) leq (1 - rho)^k C = O(exp(-krho)) quad forall k quad (16)$
Hoc discrepat methodis classicis SGD, quae tantum in equa opiniones gradientis in unaquaque iteratione nituntur, quae tantum rates sublineares sub his positis obtinent:
$E[f(x_k)] - f(x^*) leq O(1/k)$
Minimum quod hanc inaequalitatem satiat $k$ Dicitur algorithmus iterativa multiplicitas. Incomplexitas iterativa et sumptus unius iterationis sunt pro modis fundamentalibus variantibus GD, SGD et VR;

algorithmus	Numerus iterations	sumptus iteratio
GD	$O**************************** (κ lo g***************************************************** (1/ ϵ))$	$O****************************** (n)$
SGD	$(kappa_{text{max}} max(1/epsilon))$	$O****************************** (1)$
VR	$((kappa_{text{max}} + n) stipes (1/epsilon))$	$O****************************** (1)$

Totum tempus currens algorithm determinatur ex ductu iterationis multiplicitatis et temporis currit iterationis.usus est hic $kappa_{text{max}} := max_i L_i/mu$ .Notice $kappa_{text{max}} geq kappa$ Ergo minor est iteratio multiplicitas GD quam methodi VR.

Sed cum sumptus per iterationem GD sit methodi VR $n$ temporibus, VR modus est superior termini temporis currentis totalis.

Commodum methodorum classicarum SGD est quod earum cursus tempus et concursus rate non dependentes $n$ sed tolerantiam habet $ϵ$ Dependentia multo peius est, quae cum patientia parva SGD pauperes exercendi explicat.

In Appendice B simplicibus probationibus praebemus, ostendens methodum SGD eandem habere multiplicitatem iterativam ac VR methodum.

2. De reductione ratio

Progressio variationis reductionis methodi plures gradus perfecit, et prima statio methodorum consecuta est in concursum concursum significanter auctum. Initium huius methodi series algorithmus est SAG. Postmodum algorithmus stochasticus dualis coordinatus ascensus (SDCA) algorithmus, MISO algorithmus, stochastica diversitas gradientem (SVRG/S2GD) algorithmum reducens, et SAGA (intellectus "improvisus" SAG) algorithmus unum post alterum exivit.

In hoc capite, has pioneering VR modos singillatim faciemus. In Capite 4, aliquos recentiores methodos explorabimus, quae superiores notas exhibebunt in applicatione missionum specificarum his modis comparatas.

2.1.

Nostra exploratio primae reductionis variationis (VR) incipit ab imitatione plenae structurae gradientis.Cum totum clivum $\nabla f******************************************************************************************************************************************************************************** (x************************************************************************************************************************************************************************************************************************************************************************)$ est all $f_i(x)$ Mediocris graduum simplex, tunc nostra aestimatione plenae gradientis $g_k$ Debet etiam esse mediocris horum aestimationum gradientium. Haec idea primo VR methodo orta est: stochastica methodi mediocris gradientis (SAG).

Methodus SAG [37], [65] est versio randomized methodi gradientis aggregati primi incrementalis (IAG) [4]. Core SAG idea est pro singulis punctis notitiae $ego$ an estimate ponere $v_{ik} approx nabla f_i(x_k)$ .deinde utere his $v_{ik}$ Mediocris valorum pro aestimatione gradientis integri, hoc est:
$bar{g}_k = frac{1}{n} sum_{j= 1}^{n} v_{jk} proxime frac{1}{n} sum_{j=1}^{n} nabla f_j(x_k) = nabla f(x_k) quad (18)$

In unaquaque iteratione SAG, a ${1, \dots, n}$ Extract ex indice $i_k$ Et updated secundum praecepta sequentia $v_{jk}$ ：
$begin{cases} nabla f_{i_k}(x_k), & text{if } j = i_k \ v_{jk}^k, & text{if } j neq i_k end{cases}$
Inter eos quisque $v_{0i}$ Potest initialized ut nulla vel $f_i(x_0)$ approximare.Solutio $x^*$ approximatio, unaquaque $v_{ik}$ paulatim convenire $f_i(x^*)$ VR rebus satisfacientes (12).

Ut efficienter efficiatur SAG, operam dare debemus ad calculandum $bar{g}_k$ ne incipiens summa a VULNUS omni tempore $n$ vector, quia hoc est $n$ Sumptus altus, cum magnus est.Fortunate, cum unaquaeque iteratio tantum unum habeat $v_{ik}$ Termini mutabunt et non habemus omnem summam omni tempore computare.Speciatim id posito iterando $k$ Index extractum ex $i_k$ ergo est;
$bar{g}_k = frac{1}{n} sum_{substack{ j=1 \j neq i_k}}^{n} v_{jk} + frac{1}{n} v_{i_k}^k = bar{g}_{k-1} - frac{1}{n} v_{i_k}^{k-1} + frac{1}{n} v_{i_k}^k quad (20)$

Cum praeter $v_{i_k}$ omnia praeter $v_{jk}$ Valores omnes eadem manent, unumquemque solum condimus $j$ Vector correspondentes $v_j$ . Algorithmus 1 exsecutionem methodi SAG specificam ostendit.

SAG est prima methodus stochastica ad concursum linearem consequendum, eiusque iteratio multiplicitas est $((kappa_{text{max}} + n) stipes (1/epsilon))$ Utens gradus magnitudine $O(1/L_{text{max}})$ . Confluentia haec linearis observari potest in Figura 1 .Notatu dignum est, quod propter $L_{text{max}}$ -Smooth munus pro omnibus $L_{text{max}}$ Nimis $L^{'}$ - Lenis, SAG modi concursum linearem consequi rates pro magnitudinibus satis exiguis gradatim, contraque modos classicos SGD, qui tantum assequuntur rates sublineares cum sequentiis gradus magnitudinum decrescentium, quae in praxi difficiliores sunt accommodandae.

In tempore, concursus linearis SAG insignis fuit progressus, quia unam tantum clivum stochasticum (procedens punctum unum datorum) in unaquaque iteratione computavit. Sed concursus probatio a Schmidt et al. Clavis causa cur SAG analysis difficile est $g_k$ Est autem biased aestimationem de clivo.

Deinde methodum SAGA inserimus, variantem SAG quae notionem rerum covariat ad perficiendam pensationem variantis methodi SAG, quae similis effectus est, sed facilior est ad analysim.

Algorithmus 1: SAG methodus

Parametri gradus magnitudine $γ > 0$
initialization: $x_0$ ， $v_i = 0 in mathbb{R}^d$ for* $ego = 1, \dots, n$
ius $k = 1, \dots, T - 1$ efficiendi:
a $i_k in {1, ldots, n}$
b $bar{g}_k = bar{g}_{k-1} - frac{1}{n} v_{i_k}^{k-1}$
c $v_{i_k}^k = nabla f_{i_k}(x_k)$
d $bar{g}_k = bar{g}_k + frac{1}{n} v_{i_k}^k$
e $x_{k+1} = x_k - gamma bar{g}_k$
Output: $x_T$

2.2.SAGA modum

A CLIVUS estimate reducta basic equa $f_{i_k}(x_k)$ Discors accessus est per covariates sic dictos, vel variabiles potestates.for* $ego = 1, \dots, n$ , Suscitavit $v_i in mathbb{R}^d$ vector est.His vectoribus utentes, possumus plenam clivum convertere $\nabla f******************************************************************************************************************************************************************************** (x************************************************************************************************************************************************************************************************************************************************************************)$ Rescriptum as:
$sum_{i=}^{n}(nabla f_i(x) - v_i + v_i) = frac{1}{n} sum_{i=}^{n} nabla f_i(x) - v_i + frac{1}{n} sum_{j=1}^{n} v_j$
$sum_{i=1}^{n} nabla f_i(x, v) quad (21).$
quae definit $f_i(x, v) := nabla f_i(x) - v_i + frac{1}{n} sum_{ j=}^{n} v_j$ .Nunc passim exemplum a $f_i(x, v)$ totum clivum construere $\nabla f******************************************************************************************************************************************************************************** (x************************************************************************************************************************************************************************************************************************************************************************)$ Pretiosum aestimationem $ego \in {1, \dots, n}$ , SGD methodum et aestimationem gradientem adhibere potes;
$g_k = nabla f_{i_k}(x_k, v) = nabla f_{i_k}(x_k) - v_{i_k} + frac{1}{n} sum_{j=1}^{n} v_j quad (22)$

pro observatione $v_i$ Delectu par differentia $g_k$ influere possumus $g_k = nabla f_{i_k}(x_k, v)$ Substitutus et usus $E_i sim frac{1}{n}[v_i] = frac{1}{n} sum_{j=1}^{n} v_j$ Ad expectationem computandam, impetramus;
$f_i(x_k) - v_i + E_i sim frac{1}{n}[v_i - nabla f_i(x_k)]|^2 right] leq E left[ |nabla f_i(x_k) - v_i|^2 right] quad (23 )$
Lemma 2 hic adhibetur, ubi $f_i(x_k) - v_i$ .Hic ligatus (23) ostendit quod si $v_i$ cum $k$ Augmentum prope est $f_i(x_k)$ obtineat, VR attributa (12).Ideo dicimus $v_i$ covariates sunt, et eos ad contentionem reducere possumus.

Exempli gratia, aditus etiam modus SGD impletur (13), ubi $v_i = nabla f_i(x^*)$ .Sed hoc in usu non est communiter quia non solemus cognoscere $f_i(x^*)$ .Utilius optio est $v_i$ ut scimus $bar{x}_i in mathbb{R}^d$ prope CLIVUS $f_i(bar{x}_i)$ . SAGA ad invicem munus $f_i *$ utor a puncto $bar{x}_i in mathbb{R}^d$ et uti covariat $v_i = nabla f_i(bar{x}_i)$ quorum unumquodque $bar{x}_i$ erit nobis ultimum aestimationem $f_i *$ punctum. His covariatis utendo, clivom aestimationem construere possumus, sequentes (22), dando:
$g_k = nabla f_{i_k}(x_k) - nabla f_{i_k}( bar{x}_{i_k}) + frac{1}{n} sum_{j=1}^{n} nabla f_j(bar{x}_j) quad (24).$

Ad efficiendum SAGA graduum possumus reponere $f_i(bar{x}_i)$ loco * $n$ reference punctum $bar{x}_i$ .Hoc est dicere, putant $v_j = nabla f_j(bar{x}_j)$ for* $j \in {1, \dots, n}$ in unaquaque iteratione renovamus clivum stochasticum sicut SAG . $v_j$ 。

Algorithmus 2 SAGA

Parametri gradus magnitudine $γ > 0$
initialization: $x_0$ ， $v_i = 0 in mathbb{R}^d$ for* $ego = 1, \dots, n$
moribus $k = 1, \dots, T - 1$ iterations:
a $i_k in {1, ldots, n}$
b $v_{text{vetus}} = v_{i_k}$
c $v_{i_k} = nabla f_{i_k}(x_k)$
d $x_{k+1} = x_k - gamma (v_{i_k} - v_{text{vetus}} + bar{g}_k)$
e $bar{g}_k = bar{g}_{k-1} + frac{1}{n} (v_{i_k} - v_{ text.$
Output: $x_T$

SAGA methodum eandem habet iterationem multiplicitatem ac SAG $((kappa_{text{max}} + n) stipes (1/epsilon))$ Utens gradus magnitudine $O(1/L_{text{max}})$ sed multo simplicius probatio est.Nihilominus, sicut SAG, SAGA modum repositionis requirit $n$ auxilia vector $v_i in mathbb{R}^d$ for* $ego = 1, \dots, n$ quod est opus $O****************************** (n d*****************************************)$ spatium repono.quando $d*****************************************$ et $n$ Cum utrumque magnum sit, hoc fieri non potest. In sequenti sectione perspicimus quomodo hanc memoriam reducere postulationem communium exemplorum ut exempla linearis ordinatis.

cum possit $n$ Cum duo vectores auxiliares in memoria reponuntur, SAG et SAGA similiter se gerere solent. Si haec memoria postulationis nimis alta est, methodus SVRG, quam in sequenti sectione recensebimus, optima est. SVRG methodus eandem ratem concursum attingit et saepe fere ut celeriter in usu est, sed solum requirit $O****************************** (d*****************************************)$ memoriae, ad quaestiones generales.

2.3.SVRG methodo

Ante progressionem methodi SAGA, quaedam opera veterum covariates introducta primum ad solvendum quaestionem memoriam altam quae requiritur methodo SAG.Haec studia aedificare certum punctum $mathbb{R}^d$ covariat, in illo puncto totum clivum computavimus $\nabla f******************************************************************************************************************************************************************************** (\overset{x************************************************************************************************************************************************************************************************************************************************************************}{ˉ})$ .thesaurizantes signis $\overset{x************************************************************************************************************************************************************************************************************************************************************************}{ˉ}$ et secundum totum clivum $\nabla f******************************************************************************************************************************************************************************** (\overset{x************************************************************************************************************************************************************************************************************************************************************************}{ˉ})$ , hoc facere possumus sine singulis $f_j(bar{x})$ In casu, utere $bar{x}_j = bar{x}$ ad omnes $j$ ad renovationem efficiendam(24).Speciatim pro his vectoribus accommodandis, notationibus in singulis iterationibus refertis utimur $\overset{x************************************************************************************************************************************************************************************************************************************************************************}{ˉ}$ ratio $f_{i_k}(bar{x})$ . Haec methodus a diversis auctoribus diversis nominibus initio proposita, sed postea ut SVRG methodo unita, nomenclaturam [28] et [84] secutus est.

Methodum SVRG in Algorithmo formalizemus III.

Utendo (23), possumus accipere aestimationem gradientem $g_k$ Discorso terminatur:
$g_k - nabla f(x_k) |^2 right] leq Eleft[ | nabla f_i(x_k) - nabla f_i(bar{x}) |^2 right] leq L_{text{max}}^2 | x_k - bar{x} |^2$
ubi secunda inaequalitas utitur inter se $f_i *$ of* $L_i$ -Smoothness.

Notatu dignum est quod punctum $\overset{x************************************************************************************************************************************************************************************************************************************************************************}{ˉ}$ Propius ad praesens punctum $x_k$ tantoque minus dissimilem aestimationem.

Ut methodus SVRG efficax sit, necesse est ut puncta frequenter notentur $\overset{x************************************************************************************************************************************************************************************************************************************************************************}{ˉ}$ (per quod calculum gradientis plenae requirat) contra utilitatem variationis reductae ponderatur.Qua de causa unumquodque $t$ Renova respectum semel omni iteratione ut propinquus $x_k$ (vide line 11. Algorithmus II-C).Hoc est, SVRG methodus duas ansas continet: ansam exteriorem $s$ Ubi referat gradiente computatur $f(bar{x}_{s-1})$ (line 4), et ansa interior, ubi punctum certum est et iteratio interior renovatur secundum gradum stochasticum gradientis (22). $x_k$ (line 10).

Dissimilis SAG et SAGA, SVRG solum requirit $O****************************** (d*****************************************)$ of memoria. Incommoda SVRG include: 1) extra modulum habemus $t$ id est, longitudo ansa interioris, aptanda est; 2) Duo gradationes pro singulis iterationibus computari debent, et clivus perfectus debet computari quoties punctum mutatur.

Johnson et Zhang [28] monstraverunt SVRG habere complexionem iterativam $((kappa_{text{max}} + n) stipes (1/epsilon))$ similis SAG et SAGA.Hic est numerus ansarum in hypothesi $t$ ex collectione ${1, \dots, m}$ Sub conditione sampling uniformis, ubi $L_{text{max}}$ ， $μ$ , Gradus magnitudine $γ$ et $t$ Quasdam clientelas inter eas contenti esse debent.In praxi, utendo $O(1/L_{text{max}})$ interiorem ansam longitudine $t = n$ , SVRG bene praestare tendit, quod ad amussim constituendum in Figura 1 usi sumus.

Multae autem variationes methodi originalis SVRG.Exempli gratia, variationes aliquae utuntur $t$ alternativa distributio [32], nonnullae variantes formae admittunt $O(1/L_{text{max}})$ Gradus magnitudinis [27], [33], [35].Sunt etiam nonnullae variationes utentes $\nabla f******************************************************************************************************************************************************************************** (\overset{x************************************************************************************************************************************************************************************************************************************************************************}{ˉ})$ mini-batch approximatio ad reducendum sumptus horum plenarum aestimationerum gradientium, et mini- batch amplitudinem auget ad proprietates VR conservandas.Variationes quoque nonnullae sunt ubi renovationes in ansa interiore secundum [54] repetuntur. $g_k$ ：
[ g_k = nabla f_{i_k}(x_k) - nabla f_{i_k}(x_{k-1}) + g_{k-1} quad (25) ]
Hoc magis loci approximationem praebet. Per hanc continuam renovationem variantes (25) utilitates singulares ostendit in functionibus non convexis minimis, sicut in sectione IV breviter tractamus.Denique notandum quod SVRG uti potest $f(bar{x}_s)$ valorem ad auxilium, quandonam ad algorithm terminare.

Algorithmus III SVRG methodus

Parametri gradus magnitudine $γ > 0$
Initialize punctum $bar{x}_0 = x_0 in mathbb{R}^d$
Extra circulationem externam $s = 1, 2, \dots$ ：
a $f(bar{x}_{s-1})$
b $x_0 = bar{x}_{s-1}$
c $t$
d $k = 0, 1, \dots, t - 1$ ：
i $i_k in {1, ldots, n}$
ii $g_k = nabla f_{i_k}(x_k) - nabla f_{i_k}(bar{x}_{ s-1}) + nabla f(bar{x}_{s-1})$
III $x_{k+1} = x_k-gamma g_k$
e $bar{x}_s = x_t$

2.4.

Unus defectus methodorum SAG et SVRG est quod gradus magnitudinis innititur ignotis valoribus, qui in quibusdam quaestionibus ignoti possunt. $L_{text{max}}$ . Ante SVRG, methodus SDCA [70], ut unus e primis VR modis, investigationem coordinatam descensus methodos ad summas difficultates finitas extendebat. Idea post SDCA eiusque variantes est quod coordinatae gradientis aestimationem clivum naturalem variationem reducentem praebent.In specie, putant $j \in {1, \dots, d*****************************************}$ ac definire $nabla_j f(x) := left(frac{partialis f(x)}{x_j dextrae partialis) e_j$ est th of (f (v)) $j$ derivata coordinare, ubi $e_j in mathbb{R}^d$ Hoc est primum $j$ unitas vector.Clavis proprietas derivationum coordinatarum est $nabla_j f(x^*) = 0$ Quia scimus $f(x^*) = 0$ .Derivatio huius cum unaquaque notitia punctum $f_j$ alia, haec est $x^*$ non nulla. Ideo habemus;
$nabla_j f(x) |^2 rightarrow 0 quad text{当} quad x rightarrow x^* quad (26)$
Hoc significat quod coordinatio derivativae proprietatis reductione discordans satisfacit (12).Accedit, uti possumus $nabla_j f(x)$ aedificare $\nabla f******************************************************************************************************************************************************************************** (x************************************************************************************************************************************************************************************************************************************************************************)$ pensato aestimatione.Puta $j$ ex collectione ${1, \dots, d*****************************************}$ A passim passim lectus index in .Ergo pro quolibet $ego \in {1, \dots, d*****************************************}$ ,Habemus $P [ j = i ] = 1 d P[j = i] = frac{1}{d}$ . ergo, $nabla_j f(x)$ sic $\nabla f******************************************************************************************************************************************************************************** (x************************************************************************************************************************************************************************************************************************************************************************)$ Pretiosum aestimationem, quia;
$nabla_j f(x) recta] = d sum_{i=}^{d} P[j = i] frac{partialis f(x)}{partialis x_i} e_i = sum_{i=}^{d} frac{partialis f(x)}{x_i} e_i = nabla f(x)$

ergo, $nabla_j f(x)$ Has omnes proprietates ideales exspectare debemus pro VR graduum plenos aestimare, sine necessitate covariates utendi. Unum incommodum coordinationis huius gradientis utendi est quod computationally sumptuosum est summae nostrae quaestionis (2).Hoc est, quia calculi $nabla_j f(x)$ Indicium percurrere totum opus est $nabla_j f(x) = frac{1}{n} sum_{i=}^{n} nabla_j f_i(x)$ . Itaque, derivatis coordinatis, videtur repugnare structurae nostrae summae quaestionis. Saepe tamen possumus quaestionem originalem rescribere (2) in formulam sic dictam dualem, ubi derivationes coordinatae structuram inhaerentem abutuntur.

Exempli gratia, formula dualis L2 exemplar linearis ordinatum (15) est;
$v^* in argmax_{v in mathbb{R}^n} frac{1}{n} sum_{i=1}^{n} -ell_i^*(-v_i) - frac{lambda}{2} left| frac{1}{lambda} sum_{i=}^{n} v_i a_i ius|^2 quad (27)$
in $ell_i^*(v)$ sic $ell_i$ convexus, conjugatus.Nos uti mapping $sum_{i=}^{n} v_i a_i$ ut restitueret originale problema (XV) $x************************************************************************************************************************************************************************************************************************************************************************$ variabilis.et solve $v^*$ Substitutio in dextra parte tabularum praedictarum, solutionem accipere possumus (15). $x^*$ 。

Nota hanc dualem quaestionem habet $n$ verum variables $v_i in mathbb{R}$ uni pro singulis disciplinis respondens.Praeterea, quodlibet munus damnum duale $ell_i^*$ solum $v_i$ Munus. Id est, primus terminus in amissione coordinate functionis est separabilis. Haec separabilitas in coordinatis, cum simplici forma secundi termini iuncta, permittit ut coordinatam ascensum methodum efficaciter efficiamus.Re quidem vera Shalev-Shwartz et Zhang monstraverunt coordinare ascensum in hac problemate similem multiplicitatem iterativam cum SAG, SAGA et SVRG. $((kappa_{text{max}} + n) stipes (1/epsilon))$ 。

Iteratio sumptus et structura algorithmus etiam simillima sunt: summationem sequi $sum_{i=1}^{n} v_i a_i$ Ad secundum terminum tractandum in (27), unaquaeque iteratio dualis coordinata ascensus solum oportet considerare unum specimen disciplinae, et sumptus uniuscuiusque iterationis idem est ac. $n$ Nihil facere.Accedit, uti in linea 1D inquisitionis uti possumus ad magnitudinem gradus efficaciter computare ad augendum $v_i$ Dual obiectivum functionis.Hoc significat etiam sine $L_{text{max}}$ Vel scientia quantitatum pertinentium, potest etiam consequi velocitatem pessimum-casum currentium temporum ad VR modos.

3. Quaestiones practicae variarum reductionis

Ut differentiam fundamentalem reductionis (VR) deducendi methodum et rationabilem observantiam consequendam, plures quaestiones exsecutioni mandandae sunt. In hac sectione plures quaestiones superius non tectae tractamus.

3.1.SAG/SAGA/SVRG occasum gradus magnitudine

In agro optimizationis algorithmorum, praesertim in variis reductionibus methodis ut stochastica gradientis mediocris (SAG), stochastic algorithmi mediocris gradientis (SAGA) et clivi stochastici (SVRG), occasus gradus magnitudinis est exitus clavis.Etsi ad modum ascensionis stochasticae dualis coordinatae (SDCA) methodo uti possumus, obiectivum duplicem ad magnitudinem gradus determinare, fundamentum theoreticum pro modis variabilibus primigeniis SAG, SAGA et SVRG est ut gradus magnitudinis sit. $Oleft(frac{1}{L_{text{max}}}ius)$ speciem.Tamen, in usu adhibitis, saepe nescimus $L_{text{max}}$ valorem exigat, et utens aliis gradibus magnitudinum meliores praebeat effectus.

Instrumentum classicum ad gradum magnitudinis in plena gradiente descensu (pleno-GD) constituendum est modus inquisitionis rectae Armijo.datum current punctum $x_k$ et quaerere partem $g_k$ , Armijo linea quaerere in $gamma_k$ exercetur in linea, quae definitur $gamma_k in {gamma : x_k + gamma g_k}$ ac satis deminutum opus est;
$f(x_k + gamma_k g_k) < f(x_k) - c gamma_k |nabla f(x_k)|^2$
Sed hic aditus plures gradus candidatorum requirit $gamma_k$ Calculus $f(x_k + gamma_k g_k)$ Quam evaluates $f******************************************************************************************************************************************************************************** (x************************************************************************************************************************************************************************************************************************************************************************)$ Pretium prohibitivum cum fit percurso tota notitia statuta.

Ad hanc solvendam quaestionem, methodus variatio temere adhiberi potest ad eas inveniendas quae in sequentibus conditionibus conveniant $gamma_k$ ：
$f_{ik}(x_k + gamma_k g_k) <f_{ik}(x_k) - c gamma_k |nabla f_{ik }(x_k)|^2$
Aditus hic plerumque bene in praxi operatur, praesertim cum $f_{ik}(x_k)|$ non ad nihilum accedat, quamvis theoria ad hanc aditum fulciendam in praesenti nulla sit.

Praeterea Mairal proposuit "ars Bottou" ad gradum magnitudinis in praxi constituendum. Haec methodus binarium inquisitionem facit accipiendo parvam portionem notitiarum statutorum (exampla 5%) ad quaerendam meliorem gradum magnitudinis in uno exemplo pertransire. Similis quaestionis lineae Armijo, haec methodus saepe bene in praxi exercet, sed iterum fundamento theoretico caret.

Quaeso nota quod superius contentum textus primigenii restitutio est, Markdown forma usus ad formulas mathematicas et variabiles repraesentandas.

Sed methodus SDCA etiam incommoda habet.Primum, requirit computationem conjugati convexi $ell_i^*$ quam simplex clivus. Non habemus differentiam latae aequivalentem pro conjugatis convexis, ut haec exsequendi conatus augeat. Recens opus "dual-liberum" SDCA modos proposuit quae coniugationem non requirunt et graduum directe utuntur. Sed in his modis scopum duplicem indagare non amplius potest quam magnitudo gradatim disponat.Secundo, licet SDCA tantum requirit $O****************************** (n + d*****************************************)$ memoria quaestionem solvendi (15) problema est, sed ad categoriam huius problematis, SAG/SAGA tantum indiget $O****************************** (n + d*****************************************)$ de memoria (cf. sectio III).Variatio SDCA quaestionibus communioribus apta cum SAG/SAGA $O****************************** (n d*****************************************)$ quia memoria $v_i$ facti sunt habentem $d*****************************************$ vector elementorum. Postrema SDCA subtile incommodum est, quod implicat validam convexitatem constantem $μ$ aequalis $λ$ .for* $μ$ plus quam $λ$ problema, VR methodus originalis plerumque signanter SDCA outperformat.

3.2.

In agro Optimizationis algorithmi, saepe innitimur eventibus theoreticis multiplicitatis iterativae ad praedicere casus pessimos quot iterationes requiruntur ad algorithmum ad specificam accurate consequendam. Attamen hi termini theoretici saepe in aliquibus constantibus innituntur, quos divinare non possumus, et in usu adhibitis, algorithmus saepe in paucioribus iterationibus accurationem expectatam consequi potest. Ideo necesse est constituere aliquas rationes probationes quae algorithmus terminari debet.

In traditione methodi descensus plenus-gradientis (plen-GD) consuevimus norma gradientis uti $f(x_k) |$ Vel aliqua alia quantitas ad hoc pertinet, quandonam iteratio cessat.Pro SVRG methodo eandem regulam sed usum adhibere possumus $f(bar{x}_s) |$ quasi fundamentum iudicii.Pro methodo SAG/SAGA, quamvis clivum completum expresse non computamus, quantitas $g_{bar{k}} $ paulatim approximat. $f(x_k)$ ergo utere $g_{bar{k}} |$ sicut conditio claudendi est rationabilis heuristica.

In SDCA methodo, cum aliqua recordatione addito opere, clivum obiecti dualis indagare possumus, non addito asymptotico addito pretio.Accedit magis systematicus aditus duplicem hiatum indagare, quamvis hoc augeat $O****************************** (n)$ sumptus, sed condiciones terminationes praebere potest cum duplici lacuna probationum. Praeterea MISO methodus MISO methodum principiatam in quadratic inferiore ligatam fundatam in conditione optimalitatis scoporum valde convexorum adoptat [41].

Formae mathematicae sunt et variabiles in Markdown forma expressae:

Norma gradiens: $f(x_k) |$
SVRG norma gradiens in methodo: $f(bar{x}_s) |$
Moles approximationis gradientis in methodo SAG/SAGA: $g_{bar{k}} $
Auxit sumptus per iterationem: $O****************************** (n)$
MISO methodo
quadratae minus tenetur

Quaeso nota quod superius contentum textus primigenii restitutio est, Markdown forma usus ad formulas mathematicas et variabiles repraesentandas.

3.3.

Quamvis Stochastica Variatio Reductio Gradientis (SVRG) algorithmus memoria requisita reductionis methodi variationis priorum eliminat, in applicationibus practicis, SAG (Stochastic Average Gradientis Descensus) et SAGA (Stochastic Average Gradienti Gradiente cum Accumulatione Descensus) algorithmi in multis quaestionibus adhibentur. . tendunt pauciores iterationes quam SVRG algorithmusHoc Urguet cogitatio: Suntne aliquae quaestiones quae permittunt SAG/SAGA to $O****************************** (n d*****************************************)$ Memoria requisita infra ad effectum deducta sunt. Haec sectio explorat genus exemplorum linearium ad quod memoria requisita signanter minui possunt.

Vide exemplar linearibus ubi quisque munus $f_i ( x )$ Potest exprimi $xi_i(mathbf{a}_i^top x)$ .ius $x************************************************************************************************************************************************************************************************************************************************************************$ Derivativa dat formam gradientem;
$f_i(x) = xi'(mathbf{a}_i^top x) mathbf{a}_i$
hic, $ξ^{'}$ exprimere " $ξ$ inde a.Posito directum accessum habemus ad eigenvectors $mathbf{a}_i$ ergo ad methodum SAG/SAGA efficiendam, tantum scalari condere opus est $(mathbf{a}_i^top x)$ .Hoc modo variant ex memoria requisita $O****************************** (n d*****************************************)$ ad * $O****************************** (n)$ . Algorithmus SVRG uti potest etiam hac graduum structura: hoc reponens $n$ scalari, numerum graduum aestimationerum per SVRG "interiorem" iterationem ad 1 huius generis problematum reducere possumus.

Aliae sunt quaestionum genera, sicut probabilia exempla graphica graphica, quae etiam facultatem reducendi requisita memoriae praebent[66]. Per certas notitias structuram et algorithmum optimizationem, subsidia memoria quae ab algorithmo tempore currenti requiruntur adhuc reduci possunt.

Formae mathematicae sunt et variabiles in Markdown forma expressae:

Munus exemplar linearis: $f_i(x) = xi_i(mathbf{a}_i^top x)$
Gradiens expressio: $f_i(x) = xi'(mathbf{a}_i^top x) mathbf{a}_i$
Pluma vector: $mathbf{a}_i$
Memoria requisita vagarentur $O****************************** (n d*****************************************)$ Redigendum to $O****************************** (n)$ 。

3.4.

In quibusdam quaestionibus, clivus $f_i(x)$ Magnum numerum valorum nullarum, sicut exemplar linearis cum sparsis notis contineri potest.Hoc in casu, traditum descensus stochasticus gradientis (SGD) algorithmus efficaciter adimpleri potest, cum complexitate computativa lineari in numero elementorum non nullarum in gradiente, quae plerumque multo minor est quam dimensio problema. $d*****************************************$ . Tamen in normali reductione (VR) modi, haec utilitas non abutitur. Feliciter emendare duas notas.

Prima emendatio proposita est a Schmidt et al., quae simplicitatem processus renovationis et instrumentorum variationem "in-fly" proposuit, ita ut sumptus uniuscuiusque iterationis numero non-nullarum proportionalis sit. elementa.Accipiens exemplum SAG (sed accessus hic pro omnibus variantibus operatur), hoc fit non accommodando vectorem completum post singulas iterationes. $v_{ik}$ , sed tantum computat ea quae non-nulla elementis respondentia sunt $v_{ik_j}$ , adaequare quodlibet variabile ab ultimo tempore elementum illud non-nullus erat $v_{ik_j}$ 。

Altera emendatio methodo proposita a Leblond et al $x_{k+1} = x_k - gamma (nabla f_{ik}(x_k) - nabla f_{ik }(bar{x}_{ik}) + bar{g}_k)$ Additamenta fortuiti introducta. hic, $f_{ik}(x_k)$ et $f_{ik}(bar{x}_{ik})$ sparsum est, et $bar{g}_k$ densum est.Hoc modo, terminus densus $(bar{g}_k)_j$ Quisque elementum substituitur $w_j (bar{g}_k)_j$ ,in $mathbb{R}^d$ est temere sparsum vector cuius firmamentum paro continetur $f_{ik}(x_k)$ et expectatur constans omnibus elementis 1 vector esse. Hoc modo, processus renovationis incorruptus manet (etsi nunc sparsus est), et discrepantia aucta non tangit ratem concursum algorithmi. Plura providentur apud Leblond et al.

Formae mathematicae sunt et variabiles in Markdown forma expressae:

clivus; $f_i(x)$
SGD renovatio: $x_{k+1} = x_k - gamma (nabla f_{ik}(x_k) - nabla f_{ik }(bar{x}_{ik}) + bar{g}_k)$
Sparsum clivum; $f_{ik}(x_k)$ et $f_{ik}(bar{x}_{ik})$
Densum clivum; $bar{g}_k$
Temere sparsae vectores: $w***$
Vector constantem exspectat: vector cum omnibus elementis 1 =.

Technology sharing

[Deep Learning] Graphical Model Basics (7): Reductio Variance Methodus in Machina Learning Optimization (1)

1. Introductio

1.1.

1.2.

1.3.

1.4.

1.5

1.6

Assumptio, 1 (continuatio Lipschitz) ;

Assumptio II (fortis convexitas)

2. De reductione ratio

2.1.

2.2.SAGA modum

2.3.SVRG methodo

2.4.

3. Quaestiones practicae variarum reductionis

3.1.SAG/SAGA/SVRG occasum gradus magnitudine

3.2.

3.3.

3.4.

Personal profile

mihi contactus notitia