Technology sharing

[Deep Learning] Graphical Model Basics (7): Reductio Variance Methodus in Machina Learning Optimization (1)

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Summarium

Optimization stochastica pars vitalis apparatus eruditionis est, et in nucleo eius descensus algorithmus stochasticus (SGD), methodus late usus est quia prius plus quam 60 annos proponitur. Praeteritis octo annis novam evolutionem excitantem conspeximus: variatum deminutionem technicae artis optimizationis stochasticae methodi. Hae modi differentiae reductionis (VR methodi) bene faciunt in missionibus quae multiplices iterationes notitiarum disciplinarum permittunt, ostendens velocius concursum quam SGD, tam in theoria quam in praxi. Haec celeritas incrementa augentem studium in VR methodis effert et celerius investigationis output in hac provincia accumulat. Articulus hic recenset principia praecipuorum et progressus in VR methodos ad limitata notas optimas constituendas, quaerens lectores non peritos informare. Praesertim in ambitibus optimiizationis convexi nos intendunt et rationem praebent lectoribus in extensionibus interesse ad functionum non-convexorum minimizationem.

Clavis verba |

1. Introductio

In machinatione investigationis discendae, exitus fundamentalis et momenti est quomodo exempla aptare ad ingentia indicia. Exempli causa, considerare possumus casum typicum exemplaris linearis minimorum quadratorum;

x ∗ arg ⁡ min x R d 1 n i = 1 n (ai T x bi) 2 x * in argmin{x in mathbb{R}^d} frac{1}{n} sum_{ i=}^{n} (a_i^T x - b_i)^2x************************************************************************************************************************************************************************************************************************************************************************arg*******************************************************x************************************************************************************************************************************************************************************************************************************************************************Rd*****************************************minn1ego=1n(aegoTx************************************************************************************************************************************************************************************************************************************************************************bego)2

In hoc exemplo habemus ddd***************************************** parametri, quae per vectores designantur x R dx in mathbb{R}^dx************************************************************************************************************************************************************************************************************************************************************************Rd***************************************** dedit.Interea ad manum habemus nnn puncta data, inter pluma vector ai R d a_i in mathbb{R}^daegoRd***************************************** et scopum valorem bi R b_i in mathbb{R}begoR .Accommodatio processus exemplaris est hos parametros accommodare ut exemplar praedictum output ai T x a_i^T xaegoTx************************************************************************************************************************************************************************************************************************************************************************ in mediocris quam proxime ad scopum valorem fieri per b_i*bego

Latius munus amittere possumus fi ( x ) f_i ( x )f********************************************************************************************************************************************************************************ego(x************************************************************************************************************************************************************************************************************************************************************************) Ut metiretur exemplar praedictiones et ii*ego Quam claudere notitia puncta sunt:

x arg ⁡ min x R df ( x ) : = 1 n i = 1 nfi ( x ) x * in argmin_{x in mathbb{R}^d} f(x) := frac{1 }{n} sum_{i=1}^{n} f_i(x)x************************************************************************************************************************************************************************************************************************************************************************arg*******************************************************x************************************************************************************************************************************************************************************************************************************************************************Rd*****************************************minf********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************):=n1ego=1nf********************************************************************************************************************************************************************************ego(x************************************************************************************************************************************************************************************************************************************************************************)

damnum munus fi ( x ) f_i ( x )f********************************************************************************************************************************************************************************ego(x************************************************************************************************************************************************************************************************************************************************************************) Si maior est, indicat praedictiones exemplaris a notitia valde deviare; fi ( x ) f_i ( x )f********************************************************************************************************************************************************************************ego(x************************************************************************************************************************************************************************************************************************************************************************) Aequalis nulla, exemplar notitiarum puncta perfecte aptat.officium f ( x ) f(x)f********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************) Medium amissum exemplar in tota notitia copia reflectitur.

Problemata, sicut forma (2) supra, applicant non solum ad problemata quadrata minimorum linearium, sed etiam ad plura alia exempla in machina discendi studiosa. Exempli gratia: in exemplari regressionis logisticae solvemus pro:

x arg ⁡ min x R d 1 n i = 1 n log ⁡ ( 1 + e biai T x ) + λ 2 x ∥ 2 2 x^* in argmin{x in mathbb{R}^ d} frac{1}{n} sum_{i=}^{n} log(1 + e^{-b_i a_i^T x}) + frac{lambda}{2} |x|_2^2x************************************************************************************************************************************************************************************************************************************************************************arg*******************************************************x************************************************************************************************************************************************************************************************************************************************************************Rd*****************************************minn1ego=1nlog*******************************************************(1+ebegoaegoTx************************************************************************************************************************************************************************************************************************************************************************)+2λx************************************************************************************************************************************************************************************************************************************************************************22

Hic agimus bi ∈ { 1 , + 1 } b_i in {-1, +1}bego{1,+1} Pro problemate binario classificatione, praedicatio innititur ai T x a_i^T xaegoTx************************************************************************************************************************************************************************************************************************************************************************ symbola.Terminus regularisation introducitur etiam in formula λ 2 ∥ x 2 2 frac{lambda}{2} |x|_2^22λx************************************************************************************************************************************************************************************************************************************************************************22 ad vitare data overfitting, ubi x 2 2 |x|_2^2x************************************************************************************************************************************************************************************************************************************************************************22 exprimere " xx*x************************************************************************************************************************************************************************************************************************************************************************ Quadratum Euclid.

In exemplaribus eruditionis plerisque invigilantibus, processus disciplinae ut forma exprimi potest, incluso L1 quadratis minimis ordinandis, machina vectoris (SVM), principale analysi componentis, condiciones temere campos et retiacula profunda neuralis, etc.

A key provocatio in modernis quaestionibus instantiarum instantiarum est numerus notitiarum punctorum nnn Verisimiliter architecto magni. Saepius tractamus de notitiarum copiarum quae longe ultra spatium terabyte sunt et e fontibus diversa provenire possunt sicut interrete, satellites, sensores remoti, mercatus oeconomicus et experimenta scientifica. Communis accessus ad res tantas notitias tractandas est algorithmus stochasticus gradientis (SGD) descensus, qui tantum paucitate notitiarum quae in unaquaque iteratione punctis passim selectis utitur. Praeterea acutum nuper ortum est in usuris repugnantis reductionis (VR) clivi stochasticae, quae citius concursum habent quam methodi gradientis stochasticae traditionalis.
Insert imaginem descriptionis hic
Figura 1. In problemate logistico innixus fungus dataset [7], descensus gradiens (GD), descensus gradiens acceleratus (AGD, acceleratus GD in [50]), descensus stochastici gradientis (SGD) et ADAM [30] erat modus. collatis cum variationibus reductionis methodi SAG et SVRG, ubi est n = 8124, d = 112.

1.1.

Descensus gradiens (GD) est algorithmus classicus ad solvendum problema superius (2), eiusque renovatio iterativa haec est formula:
xk + 1 = xk − γ 1 n i = 1 n fi ( xk ) x_{k+1} = x_k - gamma frac{1}{n} sum_{i=1}^{n} nabla f_i(x_k )x************************************************************************************************************************************************************************************************************************************************************************k+1=x************************************************************************************************************************************************************************************************************************************************************************kγn1ego=1nf********************************************************************************************************************************************************************************ego(x************************************************************************************************************************************************************************************************************************************************************************k)

hic, γ gammaγ certum gradum valorem major nulla.In unaquaque iteratione algorithmi GD, unumquodque punctum datae esse debet ii*ego Calculare CLIVUS fi ( xk ) nabla f_i(x_k)f********************************************************************************************************************************************************************************ego(x************************************************************************************************************************************************************************************************************************************************************************k), quod significat omnia GD requirit nnn perficere traversal of notitia puncta.Cum magnitudinem notitia paro nnn Cum maxima fit, sumptus cuiusque algorithmus iteratio GD algorithmus fit, ita limitata eius applicatione.

Ut jocus, considerare possumus methodum stochastic gradientis (SGD) quae a Robbins et Monro primum proposita est, eiusque renovatio iterativa talis est:
xk + 1 = xk − γ ∇ fik ( xk ) x_{k+1} = x_k - gamma nabla f_{i_k}(x_k)x************************************************************************************************************************************************************************************************************************************************************************k+1=x************************************************************************************************************************************************************************************************************************************************************************kγf********************************************************************************************************************************************************************************egok(x************************************************************************************************************************************************************************************************************************************************************************k)

SGD algorithmus operatur utendo solum clivum unius notulae passim selectae in unaquaque iteratione. fik ( xk ) nabla f_{i_k}(x_k)f********************************************************************************************************************************************************************************egok(x************************************************************************************************************************************************************************************************************************************************************************k) sumptus cuiusque iterationis reducere. In Figura I, videre possumus SGD plus momenti quam GD (inclusis modis GD acceleratis) in primis progressionis optimizationis progressu.Aliquam lacinia purus volutpat ipsum in terminis epochae ostendit, quae ratio omnium definita est nnn Graduum numerus ad formandas exempla. GD algorithmus iterationem in unaquaque rotunditate unam facit, dum SGD algorithmus unam iterationem in singulis facit. nnn iterationes.Utimur rounds ut basis comparet SGD et GD, quia sub suppositione nnn In maximis casibus, principale utriusque modi sumptus in clivum contrahitur fi ( xk ) nabla f_i(x_k)f********************************************************************************************************************************************************************************ego(x************************************************************************************************************************************************************************************************************************************************************************k) calculum.

1.2.

Consideremus temere indexing ik i_kegok ex collectione { 1 , ... , n } {1, Idoti, n}{1,,n} In casu lectionis incerti uniformis, hoc significat pro omnibus ii*ego, eligere ik = i i_k = iegok=ego Probabilitas P [ ik = i ] P[i_k = i]P[egok=ego] aequalis 1 n frac{1}{n}n1 . in hoc casu, fik ( xk ) nabla f_{i_k}(x_k)f********************************************************************************************************************************************************************************egok(x************************************************************************************************************************************************************************************************************************************************************************k) as f ( xk ) nabla f(x_k)f********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************k) Aestimator est pensator, quia exspectationis definitio est;
E [ fik ( xk ) ∣ xk ] = 1 n i = 1 n fi ( xk ) = ∇ f ( xk ) (6) E[nabla f_{i_k}(x_k) | x_k] = frac{1}{n} sum_{i=1}^{n} nabla f_i(x_k) = nabla f(x_k) quad (6)E[f********************************************************************************************************************************************************************************egok(x************************************************************************************************************************************************************************************************************************************************************************k)x************************************************************************************************************************************************************************************************************************************************************************k]=n1ego=1nf********************************************************************************************************************************************************************************ego(x************************************************************************************************************************************************************************************************************************************************************************k)=f********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************k)(6)

Quamvis SGD (Descensus Gradientis Stochastici) methodus munus in unaquaque iteratione non praestat ff*f******************************************************************************************************************************************************************************** Valor voluntatis decrescit, sed mediocris fertur ad negativum plenum gradientem, quae directum deorsum repraesentat.

Attamen estimatorem non pensatorem praelibatum habens ad concursum SGD iterations curare. Ad hoc illustrandum, Figura 2 (reliquit) ostendit iterativam trajectoriam SGD applicando munus regressionis logisticae constanti gressu quantitatis in quattuor categoriis dataset a LIBSVM [7].Ellipses concentrices in figura repraesentant Venustates functionis, id est, valorem functionis f ( x ) = cf(x) = cf********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************)=c***** correspondentes punctum xx*x************************************************************************************************************************************************************************************************************************************************************************ congregare; cc*c***** est specifica constans in copia realium numerorum.diversis constant values cc*c***** Diversis ellipsis respondet.

Trajectoria iterativa SGD ad optimam solutionem non convenit (per asterisco viridi in figura indicata), sed punctum nubilum circa solutionem optimalem format. E contra in Figura 2 ostendemus methodum iterativam trajectoriam variationis reductionis, stochasticam gradientis (SAG), eandem constantem gradum magnitudinis adhibitis, quam postea introducebimus. Ratio SGD in hoc exemplo non concurrit, est quia ipsum clivum stochasticum ad nihilum non concurrit, ideoque perpetuus modus SGD gradus (5) numquam desistit.Hoc est contra acutos modos descensus gradientis (GD) qui naturaliter desinunt ut xk x_kx************************************************************************************************************************************************************************************************************************************************************************k Appropinquat x x^*x************************************************************************************************************************************************************************************************************************************************************************, clivus f ( xk ) nabla f(x_k)f********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************k) nulla tendunt.
Insert imaginem descriptionis hic
Figura 2. Plana insidiae sunt regressionis logisticae duo dimensiva utentes gradatim fixum SGD (reliquit) et SAG (recte) iteratives modos. Asteriscus viridis indicat x *solvere.

1.3.

dispensando ex fi ( xk ) nabla f_i(x_k)f********************************************************************************************************************************************************************************ego(x************************************************************************************************************************************************************************************************************************************************************************k) Plures sunt artes classicas pro quaestionibus non-convergentiis, quae a valorum variatione causantur.Eg Robbins et Monro [64] seriei gradus decrescentes utuntur γ k gamma_kγk solvere problema dissidium, quod productum est γ k ∇ fik (xk) gamma_k nabla f_{i_k}(x_k)γkf********************************************************************************************************************************************************************************egok(x************************************************************************************************************************************************************************************************************************************************************************k) nulla potest convenire. Attamen hanc seriem decrescentium gradus accommodans ad algorithmum nimis mature vel sero impediendum, difficile est problema.

Alia ars classica ad contentionem reducendi multiplex est uti fi ( xk ) nabla f_i(x_k)f********************************************************************************************************************************************************************************ego(x************************************************************************************************************************************************************************************************************************************************************************k) Mediocris obtinere plenam CLIVUS f ( x ) nabla f(x)f********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************) verius aestimare. Hic accessus minibatch appellatur et maxime utilis est cum plures gradus in parallelis aestimari possunt. Hoc consequitur iterationem formae:
xk + 1 = xk − γ 1 B k ∣ i B k fi ( xk ) ( 7 ) x_{k+1} = x_k - gamma frac{1}{|B_k|} sum_{i in B_k} nabla f_i (x_k) quad (VII)x************************************************************************************************************************************************************************************************************************************************************************k+1=x************************************************************************************************************************************************************************************************************************************************************************kγBk1egoBkf********************************************************************************************************************************************************************************ego(x************************************************************************************************************************************************************************************************************************************************************************k)(7)
in B k B_kBk est temere index paro; B k |B_k|Bk exprimere " B k B_kBk magnitudinem.si B k B_kBk Sampling uniformiter cum reposito, tunc variatio huius aestimationis gradientis ad "batch magnitudinem" refertur. B k |B_k|Bk est reciproce proportionale, unde discrepantia augendo massam magnitudinem reduci potest.

Autem, pretium harum iterations batch magnitudine proportionale est, ergo haec forma reductionis variationis venit ad sumptus computatorii aucti.

Aliud commune consilium ad contentionem reducendam et ad empiricam observantiam SGD emendandam addere est "momentum", terminum extra ordinem secundum quod in praeteritis gradibus adhibetur. Praesertim forma SGD cum impetu talis est;
xk + 1 = xk − γ mk ( 9 ) x_{k+1} = x_k - gamma m_k quad (9)x************************************************************************************************************************************************************************************************************************************************************************k+1=x************************************************************************************************************************************************************************************************************************************************************************kγmk(9)
ubi momentum parametri β betaβ Collegium positum (0, 1).Si primum momentum m 0 = 0 m_0 = 0m0=0et expand in (8). mk m_kmk Pro updates, dabimus tibi mk m_kmk est ponderati mediocris priorum graduum;
mk = ∑ t = 0 k β k − t fit (xt ) ( 10 ) m_k = sum_{t=0}^{k} beta^{kt} nabla f_{i_t}(x_t) quad (10)mk=t=0kβktf********************************************************************************************************************************************************************************egot(x************************************************************************************************************************************************************************************************************************************************************************t)(10)
ergo, mk m_kmk stochastic graduum summa est praegrauata.quod ∑ t = 0 k β k − t = 1 β k + 1 1 β sum_{t=0}^{k} beta^{kt} = frac{1 - beta^{k+1}}{1 - beta}t=0kβkt=1β1βk+1, convertere possumus 1 β 1 β kmk frac{1 - beta}{1 - beta^k} m_k1βk1βmk Mediocris stochastic graduum ponderati considerari ut.Si hoc comparemus cum expressione perfecti clivi f ( xk ) = 1 n i = 1 n fi ( xk ) nabla f(x_k) = frac{1}{n} sum_{i=1}^{n} nabla f_i(x_k)f********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************k)=n1ego=1nf********************************************************************************************************************************************************************************ego(x************************************************************************************************************************************************************************************************************************************************************************k) Comparare possumus 1 β 1 β kmk frac{1 - beta}{1 - beta^k} m_k1βk1βmk(Ut etiam mk m_kmk ) interpretatur clivus perfecti aestimatio. Dum haec summa gravitatem contentionem minuit, etiam cardines res movet.Cum summa ponderata (10) recentibus gradibus gustatis plus ponderis dat, ad plenam gradientem non convenit. f ( xk ) nabla f(x_k)f********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************k) illa vero simplex mediocris. Primum modum reductionis discrepantiae videbimus in Sectione II-A hanc problema solvi utendo pro mediocris cuiuslibet mediocris ponderis simplici.

1.4.

Dissimiles methodi classicae, vel directe utuntur fi ( xk ) nabla f_i(x_k)f********************************************************************************************************************************************************************************ego(x************************************************************************************************************************************************************************************************************************************************************************k) as f ( xk ) nabla f(x_k)f********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************k) Cum approximatio, moderni differentiae reductionis modi (VR) diversis consiliis utuntur.Haec modi utere fi ( xk ) nabla f_i(x_k)f********************************************************************************************************************************************************************************ego(x************************************************************************************************************************************************************************************************************************************************************************k) ut update in CLIVUS estimate gk g_kg*******************************************************kcuius finis est facere gk g_kg*******************************************************k accessus f ( xk ) nabla f(x_k)f********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************k) .Specie speramus gk g_kg*******************************************************k potest satisfacere gk ≈ f ( xk ) g_k approx nabla f(x_k)g*******************************************************kf********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************k) . Talibus opinionibus gradientibus fundatis, tunc gradum gradientem approximatum formae perficimus;
xk + 1 = xk − γ gk (11) x_{k+1} = x_k - gamma g_k quad (11)x************************************************************************************************************************************************************************************************************************************************************************k+1=x************************************************************************************************************************************************************************************************************************************************************************kγg*******************************************************k(11)
hic " γ > 0 gamma > 0γ>0 est gradus magnitudinis parametri.

Ut constantem gradum magnitudine adhibetur γ gammaγ Cum iteratio (11) convenire potest, opus est ut aestimatio clivus gk g_kg*******************************************************k Discorso nulla tendit. Mathematice hoc modo exprimi potest;
E [ gk f ( xk ) ∥ 2 ] → 0 ut k → ∞ ( 12 ) Eleft [ | g_k - nabla f(x_k) |^2 right] rightarrow 0 quad text{as} k rightarrow infty quad (12)E[g*******************************************************kf********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************k)2]0ask(12)
exspectationes hic EEE fundatur in algorithm ad kkk Omnes variabiles incerti pro iterationibus computantur. Proprietas (12) efficit ut methodus VR obstruatur cum ad optimalem solutionem pervenitur. Hanc proprietatem tamquam notam notam VR accessionis respicimus ideoque eam proprietatem VR appellamus. Notatu dignum est contentionem locutionis "reduci" posse seductionem esse, re vera variatio ad nihilum tendit. Proprietas (12) est factor praecipuus, qui dat VR methodos ut citius concurrentiam consequantur in theoria (sub opportunis suppositis) et in praxi (ut in Figura 1).

1.5

Simplex emendatio methodus potest facere formulam recursivam SGD (5) concursum consequi sine diminutione gradus magnitudinis, id est, singulas gradus transferre fi ( x ) nabla f_i(x^*)f********************************************************************************************************************************************************************************ego(x************************************************************************************************************************************************************************************************************************************************************************)haec ratio sic definitur;
xk + 1 = xk γ ( fik ( xk ) − fik ( x ∗ ) ) ( 13 ) x_{k+1} = x_k - gamma (nabla f_{i_k}(x_k) - nabla f_{i_k}( x^*)) quad (13)x************************************************************************************************************************************************************************************************************************************************************************k+1=x************************************************************************************************************************************************************************************************************************************************************************kγ(f********************************************************************************************************************************************************************************egok(x************************************************************************************************************************************************************************************************************************************************************************k)f********************************************************************************************************************************************************************************egok(x************************************************************************************************************************************************************************************************************************************************************************))(13)
Haec methodus SGD appellatur [22].Quamvis non soleat certo scire fi ( x ) nabla f_i(x^*)f********************************************************************************************************************************************************************************ego(x************************************************************************************************************************************************************************************************************************************************************************) , sed SGD², exempli gratia, notas fundamentales differentiae reductionis methodi bene illustrare potest.Praeterea plures modi reductiones discrepantes videri possunt ut proximae formae methodi SGD; hae methodi notae notae non nituntur fi ( x ) nabla f_i(x^*)f********************************************************************************************************************************************************************************ego(x************************************************************************************************************************************************************************************************************************************************************************), sed pro methodo utere quae accedere potest fi ( x ) nabla f_i(x^*)f********************************************************************************************************************************************************************************ego(x************************************************************************************************************************************************************************************************************************************************************************) aestimatum.

Notatu dignum est SGD² aestimationem incorruptam totius clivi.quod f ( x ∗ ) = 0 nabla f(x^*) = 0f********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************)=0,F:
E [ fik ( xk ) fik ( x ) ] = f ( xk ) f ( x ∗ ) = ∇ f ( xk ) E[nabla f_{i_k}(x_k) - nabla f_{i_k} (x^*)] = nabla f(x_k) - nabla f(x^*) = nabla f(x_k)E[f********************************************************************************************************************************************************************************egok(x************************************************************************************************************************************************************************************************************************************************************************k)f********************************************************************************************************************************************************************************egok(x************************************************************************************************************************************************************************************************************************************************************************)]=f********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************k)f********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************)=f********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************k)
Praeterea, cum SGD² ad optimalem solutionem pervenerit, naturaliter cessabit quia pro quolibet ii*ego,habet:
( fi ( x ) fi ( x ) ) ∣ x = x = 0 (nabla f_i(x) - nabla f_i(x^*)) bigg|_{x=x^*} = 0(f********************************************************************************************************************************************************************************ego(x************************************************************************************************************************************************************************************************************************************************************************)f********************************************************************************************************************************************************************************ego(x************************************************************************************************************************************************************************************************************************************************************************)) x************************************************************************************************************************************************************************************************************************************************************************=x************************************************************************************************************************************************************************************************************************************************************************=0

Ad ulteriora observatione, cum xk x_kx************************************************************************************************************************************************************************************************************************************************************************k prope x x^*x************************************************************************************************************************************************************************************************************************************************************************(Pro consecutiva fi nabla f_if********************************************************************************************************************************************************************************ego), SGD² variationem reductionis proprietatis satisfacit (12), quia
E [ gk f ( xk ) ∥ 2 ] = E [ fik ( xk ) fik ( x ) f ( xk ) ∥ 2 ] ≤ E [ fik ( xk ) − fik ( x ∗ ) 2 ] Eleft[ | g_k - nabla f(x_k) |^2 right] = \Eleft[ | nabla f_{i_k}(x_k) - nabla f_{i_k}(x^*) - nabla f(x_k) |^2 right] leq Eleft[ | nabla f_{i_k}(x_k) - nabla f_{i_k}(x^*) |^2 right]E[g*******************************************************kf********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************k)2]=E[∥∇f********************************************************************************************************************************************************************************egok(x************************************************************************************************************************************************************************************************************************************************************************k)f********************************************************************************************************************************************************************************egok(x************************************************************************************************************************************************************************************************************************************************************************)f********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************k)2]E[∥∇f********************************************************************************************************************************************************************************egok(x************************************************************************************************************************************************************************************************************************************************************************k)f********************************************************************************************************************************************************************************egok(x************************************************************************************************************************************************************************************************************************************************************************)2]
Hic utimur lemma 2, let X = ∇ fik ( xk ) fik ( x ∗ ) X = nabla f_{i_k}(x_k) - nabla f_{i_k}(x^*)X=f********************************************************************************************************************************************************************************egok(x************************************************************************************************************************************************************************************************************************************************************************k)f********************************************************************************************************************************************************************************egok(x************************************************************************************************************************************************************************************************************************************************************************)ac usus E [ fik ( xk ) fik ( x ) ] = ∇ f ( xk ) E[nabla f_{i_k}(x_k) - nabla f_{i_k}(x^*)] = nabla f(x_k)E[f********************************************************************************************************************************************************************************egok(x************************************************************************************************************************************************************************************************************************************************************************k)f********************************************************************************************************************************************************************************egok(x************************************************************************************************************************************************************************************************************************************************************************)]=f********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************k) naturae. Haec proprietas indicat SGD² velociorem concursum habere quam modos traditos SGD, quos in Appendice B expressimus.

1.6

In hac sectione inducemus duas suppositiones vexillum ad methodum differentiam reductionis analysim adhibitam, et effectum accelerationis discutiemus, qui sub his positis cum tradito SGD methodo comparari potest. Primo supponitur quod continuum graduum habeat Lipschitz, quod significat ratem mutationis gradientis finitam esse.

Assumptio, 1 (continuatio Lipschitz) ;

Munus supponitur ff*f********************************************************************************************************************************************************************************differentiale et LLL— lenis, for all xx*x************************************************************************************************************************************************************************************************************************************************************************ et yyy*** et aliquem 0 &lt; L &lt; ∞ 0 &lt; L &lt; infty0<L<Sequuntur condiciones:
f ( x ) f ( y ) ≤ ≤ L x y ∥ ( 14 ) |nabla f(x) - nabla f(y)| leq L|x - y| quad (14)∥∇f********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************)f********************************************************************************************************************************************************************************(y***)Lx************************************************************************************************************************************************************************************************************************************************************************y***(14)
Hoc significat quod omnis fi : R d → R fi: mathbb{R}^d jaculum mathbb{R}f********************************************************************************************************************************************************************************ego:Rd*****************************************R differentiale est; L i L_iLego- lenis, definimus L max L_{text{max}}Lmax for* max ⁡ { L 1 , . . . , L n } max{L_1, . . . , L_n}max{L1,...,Ln}

Quamvis haec suppositio infirma generaliter habeatur, in sequentibus capitibus tractabimus de VR methodis quae ad problemata non lenis apta sunt. Munus univariatum bis differentiabile; LLLLevitas intuitive intelligi potest: aequivalet si secunda derivatio LLL evolvimus, scilicet f (x) ≤ L |f''(x)| leq Lf********************************************************************************************************************************************************************************′′(x************************************************************************************************************************************************************************************************************************************************************************)L pro omnibus x R dx in mathbb{R}^dx************************************************************************************************************************************************************************************************************************************************************************Rd***************************************** .Pro bis functionibus differentialibus plurium variabilium, aequivalet matrix Hessiae assumere 2 f ( x ) nabla^ 2 f(x)2f********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************) De valore singular! LLL evolvimus.

Assumptio II (fortis convexitas)

Secunda hypothesis consideranda est functionem illam (f) esse μ muμFortiter convexum, quod significat certum μ &gt; 0 mu &gt; 0μ>0,officium x ↦ f ( x ) − μ 2 ∥ x ∥ 2 x mapsto f(x) - frac{mu}{2}|x|^2x************************************************************************************************************************************************************************************************************************************************************************f********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************)2μx************************************************************************************************************************************************************************************************************************************************************************2 Convexa s.Praeterea, pro singulis i = 1 , . . . , ni = 1, . . . , nego=1,...,n fi : R d → R fi: mathbb{R}^d jaculum mathbb{R}f********************************************************************************************************************************************************************************ego:Rd*****************************************R Convexa s.

Haec est fortis suppositio.In minimis quaestionibus quadratis, utrumque (fi$ convexum est, sed munus universale (f) tantum est in consilio matricis. A : = [ a 1 , . . . A := [a_1, . . . , a_n]A:=[a1,...,an] Valde convexum est solum, si ordinem perfectum habet gradum. Problema regressionis logisticae regularis L2 satisfacit assumptioni huic ob exsistentiam termini regularizationis, ubi μ ≥ λ mu geq lambdaμλ

Classis gravissima quaestionum quae his suppositis satisfaciunt problemata formae optimization sunt:
x arg ⁡ min x R df ( x ) = 1 n i = 1 n i (ai T x ) + λ 2 x ∥ 2 ( 15 ) x^* in argmin{x in mathbb{R }^d} f(x) = frac{1}{n} sum_{i=1}^{n} ell_i(a_i^Tx) + frac{lambda}{2}|x|^2 quad (15)x************************************************************************************************************************************************************************************************************************************************************************arg*******************************************************x************************************************************************************************************************************************************************************************************************************************************************Rd*****************************************minf********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************)=n1ego=1nego(aegoTx************************************************************************************************************************************************************************************************************************************************************************)+2λx************************************************************************************************************************************************************************************************************************************************************************2(15)
ubi quisque "detrimentum" munus ℓ i : R → R ell_i: mathbb{R} right arrow mathbb{R}ego:RR est duplex differentiale, et secundae derivativae i ell_i''ego′′ restringitur ad 0 et superior tenetur MMM intercedit. Hoc includit varias functiones amissiones cum L2 regularizationis in machina discendi, ut quadrata minimum, regressionem logisticam, regressionem probit, regressionem robustam Huber, etc.Hic pro omnibus ii*ego,Habemus L i ≤ M ai 2 + λ L_i leq M|a_i|^2 + lambdaLegoMaego2+λ et μ ≥ λ mu geq lambdaμλ

His suppositis, concursus rate descensus gradientis (GD) determinatur per numerum conditionis κ : = L / μ kappa := L/muκ:=L/μ Decernere. Numerus conditionis semper maior est quam 1 vel aequalis, et cum signanter maior quam 1, Venustates functionis valde ellipticae fiunt, causando iterationes methodi GD oscillandi.Sed contra, cum κ kappaκ Cum sit prope I modum GD velocius convergat.

Sub Assumptione 1 et 2, ratio VR in rate lineari convergat.Munus valorem methodi temere ({f(x_k)}) dari dicimus 0 &lt; ρ ≤ 1 0 &lt; rho leq 10<ρ1 Ratam concursus linearis (sub expectatione), si constans existat C &gt; 0 C &gt; 0C>0 Facit:
E [ f ( xk ) ] f ( x ) ≤ ( 1 ρ ) k C = O ( exp ( k ρ ) ) ∀ k ( 16 ) E[f(x_k)] - f(x^* ) leq (1 - rho)^k C = O(exp(-krho)) quad forall k quad (16)E[f********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************k)]f********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************)(1ρ)kC=O******************************(exp(kρ))k(16)
Hoc discrepat methodis classicis SGD, quae tantum in equa opiniones gradientis in unaquaque iteratione nituntur, quae tantum rates sublineares sub his positis obtinent:
E [ f ( xk ) ] f ( x ) ≤ O ( 1 / k ) E[f(x_k)] - f(x^*) leq O(1/k)E[f********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************k)]f********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************)O******************************(1/k)
Minimum quod hanc inaequalitatem satiat kkk Dicitur algorithmus iterativa multiplicitas. Incomplexitas iterativa et sumptus unius iterationis sunt pro modis fundamentalibus variantibus GD, SGD et VR;

algorithmusNumerus iterationssumptus iteratio
GD O ( κ log ( 1 / ) )O******************************(κlog*******************************************************(1/ϵ)) O ( n ) o ( n )O******************************(n)
SGD O ( κ max max ( 1 / ) ) O (kappa_{text{max}} max(1/epsilon))O******************************(κmaxmax(1/ϵ)) O (1)O******************************(1)
VR O ( ( κ max + n ) stipes ⁡ ( 1 / ) ) O ((kappa_{text{max}} + n) stipes (1/epsilon))O******************************((κmax+n)log*******************************************************(1/ϵ)) O (1)O******************************(1)

Totum tempus currens algorithm determinatur ex ductu iterationis multiplicitatis et temporis currit iterationis.usus est hic κ max : = max i L i / μ kappa_{text{max}} := max_i L_i/muκmax:=maxegoLego/μ .Notice κ max ≥ κ kappa_{text{max}} geq kappaκmaxκErgo minor est iteratio multiplicitas GD quam methodi VR.

Sed cum sumptus per iterationem GD sit methodi VR nnn temporibus, VR modus est superior termini temporis currentis totalis.

Commodum methodorum classicarum SGD est quod earum cursus tempus et concursus rate non dependentes nnnsed tolerantiam habet epsilonϵ Dependentia multo peius est, quae cum patientia parva SGD pauperes exercendi explicat.

In Appendice B simplicibus probationibus praebemus, ostendens methodum SGD eandem habere multiplicitatem iterativam ac VR methodum.

2. De reductione ratio

Progressio variationis reductionis methodi plures gradus perfecit, et prima statio methodorum consecuta est in concursum concursum significanter auctum. Initium huius methodi series algorithmus est SAG. Postmodum algorithmus stochasticus dualis coordinatus ascensus (SDCA) algorithmus, MISO algorithmus, stochastica diversitas gradientem (SVRG/S2GD) algorithmum reducens, et SAGA (intellectus "improvisus" SAG) algorithmus unum post alterum exivit.

In hoc capite, has pioneering VR modos singillatim faciemus. In Capite 4, aliquos recentiores methodos explorabimus, quae superiores notas exhibebunt in applicatione missionum specificarum his modis comparatas.

2.1.

Nostra exploratio primae reductionis variationis (VR) incipit ab imitatione plenae structurae gradientis.Cum totum clivum f ( x ) nabla f(x)f********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************) est all fi (x) nabla f_i(x)f********************************************************************************************************************************************************************************ego(x************************************************************************************************************************************************************************************************************************************************************************) Mediocris graduum simplex, tunc nostra aestimatione plenae gradientis gk g_kg*******************************************************k Debet etiam esse mediocris horum aestimationum gradientium. Haec idea primo VR methodo orta est: stochastica methodi mediocris gradientis (SAG).

Methodus SAG [37], [65] est versio randomized methodi gradientis aggregati primi incrementalis (IAG) [4]. Core SAG idea est pro singulis punctis notitiae ii*ego an estimate ponere vik ≈ fi ( xk ) v_{ik} approx nabla f_i(x_k)vikf********************************************************************************************************************************************************************************ego(x************************************************************************************************************************************************************************************************************************************************************************k) .deinde utere his vik v_{ik}vik Mediocris valorum pro aestimatione gradientis integri, hoc est:
g ˉ k = 1 n j = 1 nvjk ≈ 1 n ∑ j = 1 n fj ( xk ) = ∇ f ( xk ) ( 18 ) bar{g}_k = frac{1}{n} sum_{j= 1}^{n} v_{jk} proxime frac{1}{n} sum_{j=1}^{n} nabla f_j(x_k) = nabla f(x_k) quad (18)g*******************************************************ˉk=n1j=1nvjkn1j=1nf********************************************************************************************************************************************************************************j(x************************************************************************************************************************************************************************************************************************************************************************k)=f********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************k)(18)

In unaquaque iteratione SAG, a { 1 , ... , n } {1, Idoti, n}{1,,n} Extract ex indice ik i_kegokEt updated secundum praecepta sequentia vjk v_{jk}vjk
vjkk + 1 = { fik ( xk ) , si j = ikvjkk , si j ik ( 19 ) v_{jk}^{k+1} ={f********************************************************************************************************************************************************************************egok(x************************************************************************************************************************************************************************************************************************************************************************k),sij=egokvkjk,sijegok quad (19).vjkk+1={f********************************************************************************************************************************************************************************egok(x************************************************************************************************************************************************************************************************************************************************************************k),vjkk,sij=egoksij=egok(19)
Inter eos quisque v 0 i v_{0i}v0ego Potest initialized ut nulla vel fi ( x 0 ) nabla f_i(x_0)f********************************************************************************************************************************************************************************ego(x************************************************************************************************************************************************************************************************************************************************************************0) approximare.Solutio x x^*x************************************************************************************************************************************************************************************************************************************************************************ approximatio, unaquaque vik v_{ik}vik paulatim convenire fi ( x ) nabla f_i(x^*)f********************************************************************************************************************************************************************************ego(x************************************************************************************************************************************************************************************************************************************************************************)VR rebus satisfacientes (12).

Ut efficienter efficiatur SAG, operam dare debemus ad calculandum g ˉ k bar{g}_kg*******************************************************ˉk ne incipiens summa a VULNUS omni tempore nnn vector, quia hoc est nnn Sumptus altus, cum magnus est.Fortunate, cum unaquaeque iteratio tantum unum habeat vik v_{ik}vik Termini mutabunt et non habemus omnem summam omni tempore computare.Speciatim id posito iterando kkk Index extractum ex ik i_kegokergo est;
g ˉ k = 1 n j = 1 j iknvjk + 1 nvikk = g k 1 − 1 nvikk − 1 + 1 nvikk ( 20 ) bar{g}_k = frac{1}{n} sum_{substack{ j=1 \j neq i_k}}^{n} v_{jk} + frac{1}{n} v_{i_k}^k = bar{g}_{k-1} - frac{1}{n} v_{i_k}^{k-1} + frac{1}{n} v_{i_k}^k quad (20)g*******************************************************ˉk=n1j=1j=egoknvjk+n1vegokk=g*******************************************************ˉk1n1vegokk1+n1vegokk(20)

Cum praeter vik v_{i_k}vegok omnia praeter vjk v_{jk}vjk Valores omnes eadem manent, unumquemque solum condimus jjj Vector correspondentes vj v_jvj . Algorithmus 1 exsecutionem methodi SAG specificam ostendit.

SAG est prima methodus stochastica ad concursum linearem consequendum, eiusque iteratio multiplicitas est O ( ( κ max + n ) stipes ⁡ ( 1 / ) ) O ((kappa_{text{max}} + n) stipes (1/epsilon))O******************************((κmax+n)log*******************************************************(1/ϵ))Utens gradus magnitudine γ = O ( 1 / L max ) gamma = O(1/L_{text{max}})γ=O******************************(1/Lmax) . Confluentia haec linearis observari potest in Figura 1 .Notatu dignum est, quod propter L max L_{text{max}}Lmax-Smooth munus pro omnibus L ≥ ≥ L max L'geq L_{text{max}}LLmax Nimis L L'L- Lenis, SAG modi concursum linearem consequi rates pro magnitudinibus satis exiguis gradatim, contraque modos classicos SGD, qui tantum assequuntur rates sublineares cum sequentiis gradus magnitudinum decrescentium, quae in praxi difficiliores sunt accommodandae.

In tempore, concursus linearis SAG insignis fuit progressus, quia unam tantum clivum stochasticum (procedens punctum unum datorum) in unaquaque iteratione computavit. Sed concursus probatio a Schmidt et al. Clavis causa cur SAG analysis difficile est gk g_kg*******************************************************k Est autem biased aestimationem de clivo.

Deinde methodum SAGA inserimus, variantem SAG quae notionem rerum covariat ad perficiendam pensationem variantis methodi SAG, quae similis effectus est, sed facilior est ad analysim.


Algorithmus 1: SAG methodus

  1. Parametri gradus magnitudine γ &gt; 0 gamma &gt; 0γ>0
  2. initialization: x 0 x_0x************************************************************************************************************************************************************************************************************************************************************************0 vi = 0 ∈ R d v_i = 0 in mathbb{R}^dvego=0Rd***************************************** for* i = 1 , ... , ni = 1, idots, nego=1,,n
  3. ius k = 1 ,k=1,,T1 efficiendi:
    a ik { 1, ... , n } i_k in {1, ldots, n}egok{1,,n}
    b g ˉ k = g k 1 1 nvikk − 1 bar{g}_k = bar{g}_{k-1} - frac{1}{n} v_{i_k}^{k-1}g*******************************************************ˉk=g*******************************************************ˉk1n1vegokk1
    c vikk = ∇ fik ( xk ) v_{i_k}^k = nabla f_{i_k}(x_k)vegokk=f********************************************************************************************************************************************************************************egok(x************************************************************************************************************************************************************************************************************************************************************************k)
    d g ˉ k = g ˉ k + 1 nvikk bar{g}_k = bar{g}_k + frac{1}{n} v_{i_k}^kg*******************************************************ˉk=g*******************************************************ˉk+n1vegokk
    e xk + 1 = xk − γ g ˉ k x_{k+1} = x_k - gamma bar{g}_kx************************************************************************************************************************************************************************************************************************************************************************k+1=x************************************************************************************************************************************************************************************************************************************************************************kγg*******************************************************ˉk
  4. Output: x T x_Tx************************************************************************************************************************************************************************************************************************************************************************T

2.2.SAGA modum

A CLIVUS estimate reducta basic equa fik ( xk ) nabla f_{i_k}(x_k)f********************************************************************************************************************************************************************************egok(x************************************************************************************************************************************************************************************************************************************************************************k) Discors accessus est per covariates sic dictos, vel variabiles potestates.for* i = 1 , ... , ni = 1, idots, nego=1,,n, Suscitavit vi R d v_i in mathbb{R}^dvegoRd***************************************** vector est.His vectoribus utentes, possumus plenam clivum convertere f ( x ) nabla f(x)f********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************) Rescriptum as:
f ( x ) = 1 n i = 1 n ( fi ( x ) vi + vi ) = 1 n i = 1 n fi ( x ) vi + 1 n j = 1 nvj nabla f( x) = frac{1}{n} sum_{i=}^{n}(nabla f_i(x) - v_i + v_i) = frac{1}{n} sum_{i=}^{n} nabla f_i(x) - v_i + frac{1}{n} sum_{j=1}^{n} v_jf********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************)=n1ego=1n(f********************************************************************************************************************************************************************************ego(x************************************************************************************************************************************************************************************************************************************************************************)vego+vego)=n1ego=1nf********************************************************************************************************************************************************************************ego(x************************************************************************************************************************************************************************************************************************************************************************)vego+n1j=1nvj
: = 1 n i = 1 n fi ( x , v ) ( 21 ) := frac{1}{n} sum_{i=1}^{n} nabla f_i(x, v) quad (21).:=n1ego=1nf********************************************************************************************************************************************************************************ego(x************************************************************************************************************************************************************************************************************************************************************************,v)(21)
quae definit fi ( x , v ) : = fi ( x ) vi + 1 n j = 1 nvj nabla f_i(x, v) := nabla f_i(x) - v_i + frac{1}{n} sum_{ j=}^{n} v_jf********************************************************************************************************************************************************************************ego(x************************************************************************************************************************************************************************************************************************************************************************,v):=f********************************************************************************************************************************************************************************ego(x************************************************************************************************************************************************************************************************************************************************************************)vego+n1j=1nvj .Nunc passim exemplum a fi ( x , v ) nabla f_i(x, v)f********************************************************************************************************************************************************************************ego(x************************************************************************************************************************************************************************************************************************************************************************,v) totum clivum construere f ( x ) nabla f(x)f********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************) Pretiosum aestimationem i { 1, ... , n } i in {1, ldots, n}ego{1,,n}, SGD methodum et aestimationem gradientem adhibere potes;
gk = ∇ fik ( xk , v ) = fik ( xk ) vik + 1 n ∑ j = 1 nvj ( 22 ) g_k = nabla f_{i_k}(x_k, v) = nabla f_{i_k}(x_k) - v_{i_k} + frac{1}{n} sum_{j=1}^{n} v_j quad (22)g*******************************************************k=f********************************************************************************************************************************************************************************egok(x************************************************************************************************************************************************************************************************************************************************************************k,v)=f********************************************************************************************************************************************************************************egok(x************************************************************************************************************************************************************************************************************************************************************************k)vegok+n1j=1nvj(22)

pro observatione vi v_ivego Delectu par differentia gk g_kg*******************************************************k influere possumus gk = ∇ fik (xk, v) g_k = nabla f_{i_k}(x_k, v)g*******************************************************k=f********************************************************************************************************************************************************************************egok(x************************************************************************************************************************************************************************************************************************************************************************k,v) Substitutus et usus E i ∼ 1 n [ vi ] = 1 n ∑ j = 1 nvj E_i sim frac{1}{n}[v_i] = frac{1}{n} sum_{j=1}^{n} v_jEegon1[vego]=n1j=1nvj Ad expectationem computandam, impetramus;
E [ fi ( xk ) vi + E i 1 n [ vi fi ( xk ) ] 2 ] ≤ E [ fi ( xk ) vi 2 ] ( 23 ) E left [ | f_i(x_k) - v_i + E_i sim frac{1}{n}[v_i - nabla f_i(x_k)]|^2 right] leq E left[ |nabla f_i(x_k) - v_i|^2 right] quad (23 )E[∥∇f********************************************************************************************************************************************************************************ego(x************************************************************************************************************************************************************************************************************************************************************************k)vego+Eegon1[vegof********************************************************************************************************************************************************************************ego(x************************************************************************************************************************************************************************************************************************************************************************k)]2]E[∥∇f********************************************************************************************************************************************************************************ego(x************************************************************************************************************************************************************************************************************************************************************************k)vego2](23)
Lemma 2 hic adhibetur, ubi X = ∇ fi ( xk ) vi X = nabla f_i(x_k) - v_iX=f********************************************************************************************************************************************************************************ego(x************************************************************************************************************************************************************************************************************************************************************************k)vego .Hic ligatus (23) ostendit quod si vi v_ivego cum kkk Augmentum prope est fi ( xk ) nabla f_i(x_k)f********************************************************************************************************************************************************************************ego(x************************************************************************************************************************************************************************************************************************************************************************k) obtineat, VR attributa (12).Ideo dicimus vi v_ivego covariates sunt, et eos ad contentionem reducere possumus.

Exempli gratia, aditus etiam modus SGD impletur (13), ubi vi = fi ( x ) v_i = nabla f_i(x^*)vego=f********************************************************************************************************************************************************************************ego(x************************************************************************************************************************************************************************************************************************************************************************) .Sed hoc in usu non est communiter quia non solemus cognoscere fi ( x ) nabla f_i(x^*)f********************************************************************************************************************************************************************************ego(x************************************************************************************************************************************************************************************************************************************************************************) .Utilius optio est vi v_ivego ut scimus x ˉ i R d bar{x}_i in mathbb{R}^dx************************************************************************************************************************************************************************************************************************************************************************ˉegoRd***************************************** prope CLIVUS fi ( x i ) nabla f_i(bar{x}_i)f********************************************************************************************************************************************************************************ego(x************************************************************************************************************************************************************************************************************************************************************************ˉego) . SAGA ad invicem munus fi f_i *f********************************************************************************************************************************************************************************ego utor a puncto x ˉ i R d bar{x}_i in mathbb{R}^dx************************************************************************************************************************************************************************************************************************************************************************ˉegoRd*****************************************et uti covariat vi = fi ( x i ) v_i = nabla f_i(bar{x}_i)vego=f********************************************************************************************************************************************************************************ego(x************************************************************************************************************************************************************************************************************************************************************************ˉego)quorum unumquodque x ˉ i bar{x}_ix************************************************************************************************************************************************************************************************************************************************************************ˉego erit nobis ultimum aestimationem fi f_i *f********************************************************************************************************************************************************************************ego punctum. His covariatis utendo, clivom aestimationem construere possumus, sequentes (22), dando:
gk = ∇ fik ( xk ) − fik ( x ik ) + 1 n j = 1 n fj ( x j ) ( 24 ) g_k = nabla f_{i_k}(x_k) - nabla f_{i_k}( bar{x}_{i_k}) + frac{1}{n} sum_{j=1}^{n} nabla f_j(bar{x}_j) quad (24).g*******************************************************k=f********************************************************************************************************************************************************************************egok(x************************************************************************************************************************************************************************************************************************************************************************k)f********************************************************************************************************************************************************************************egok(x************************************************************************************************************************************************************************************************************************************************************************ˉegok)+n1j=1nf********************************************************************************************************************************************************************************j(x************************************************************************************************************************************************************************************************************************************************************************ˉj)(24)

Ad efficiendum SAGA graduum possumus reponere fi ( x i ) nabla f_i(bar{x}_i)f********************************************************************************************************************************************************************************ego(x************************************************************************************************************************************************************************************************************************************************************************ˉego) loco * nnn reference punctum x ˉ i bar{x}_ix************************************************************************************************************************************************************************************************************************************************************************ˉego .Hoc est dicere, putant vj = fj ( x j ) v_j = nabla f_j(bar{x}_j)vj=f********************************************************************************************************************************************************************************j(x************************************************************************************************************************************************************************************************************************************************************************ˉj) for* j { 1, ... , n } j in {1, ldots, n}j{1,,n}in unaquaque iteratione renovamus clivum stochasticum sicut SAG . vj v_jvj

Algorithmus 2 SAGA

  1. Parametri gradus magnitudine γ &gt; 0 gamma &gt; 0γ>0
  2. initialization: x 0 x_0x************************************************************************************************************************************************************************************************************************************************************************0 vi = 0 ∈ R d v_i = 0 in mathbb{R}^dvego=0Rd***************************************** for* i = 1 , ... , ni = 1, idots, nego=1,,n
  3. moribus k = 1 ,k=1,,T1 iterations:
    a ik { 1, ... , n } i_k in {1, ldots, n}egok{1,,n}
    b v old = vik v_{text{vetus}} = v_{i_k}vvetus=vegok
    c vik = ∇ fik (xk) v_{i_k} = nabla f_{i_k}(x_k)vegok=f********************************************************************************************************************************************************************************egok(x************************************************************************************************************************************************************************************************************************************************************************k)
    d xk + 1 = xk γ ( vik v old + g k ) x_{k+1} = x_k - gamma (v_{i_k} - v_{text{vetus}} + bar{g}_k)x************************************************************************************************************************************************************************************************************************************************************************k+1=x************************************************************************************************************************************************************************************************************************************************************************kγ(vegokvvetus+g*******************************************************ˉk)
    e g ˉ k = g ˉ k 1 + 1 n (vik v old) bar{g}_k = bar{g}_{k-1} + frac{1}{n} (v_{i_k} - v_{ text.g*******************************************************ˉk=g*******************************************************ˉk1+n1(vegokvvetus)
  4. Output: x T x_Tx************************************************************************************************************************************************************************************************************************************************************************T

SAGA methodum eandem habet iterationem multiplicitatem ac SAG O ( ( κ max + n ) stipes ⁡ ( 1 / ) ) O ((kappa_{text{max}} + n) stipes (1/epsilon))O******************************((κmax+n)log*******************************************************(1/ϵ))Utens gradus magnitudine γ = O ( 1 / L max ) gamma = O(1/L_{text{max}})γ=O******************************(1/Lmax) sed multo simplicius probatio est.Nihilominus, sicut SAG, SAGA modum repositionis requirit nnn auxilia vector vi R d v_i in mathbb{R}^dvegoRd***************************************** for* i = 1 , ... , ni = 1, idots, nego=1,,nquod est opus O ( nd ) o ( nd )O******************************(nd*****************************************) spatium repono.quando ddd***************************************** et nnn Cum utrumque magnum sit, hoc fieri non potest. In sequenti sectione perspicimus quomodo hanc memoriam reducere postulationem communium exemplorum ut exempla linearis ordinatis.

cum possit nnn Cum duo vectores auxiliares in memoria reponuntur, SAG et SAGA similiter se gerere solent. Si haec memoria postulationis nimis alta est, methodus SVRG, quam in sequenti sectione recensebimus, optima est. SVRG methodus eandem ratem concursum attingit et saepe fere ut celeriter in usu est, sed solum requirit O (d) O (d)O******************************(d*****************************************) memoriae, ad quaestiones generales.

2.3.SVRG methodo

Ante progressionem methodi SAGA, quaedam opera veterum covariates introducta primum ad solvendum quaestionem memoriam altam quae requiritur methodo SAG.Haec studia aedificare certum punctum x R d bar{x} in mathbb{R}^dx************************************************************************************************************************************************************************************************************************************************************************ˉRd***************************************** covariat, in illo puncto totum clivum computavimus f ( x ˉ ) nabla f(bar{x})f********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************ˉ) .thesaurizantes signis x ˉ talea{x}x************************************************************************************************************************************************************************************************************************************************************************ˉ et secundum totum clivum f ( x ˉ ) nabla f(bar{x})f********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************ˉ), hoc facere possumus sine singulis fj ( x ˉ ) nabla f_j(bar{x})f********************************************************************************************************************************************************************************j(x************************************************************************************************************************************************************************************************************************************************************************ˉ) In casu, utere x ˉ j = x ˉ bar{x}_j = bar{x}x************************************************************************************************************************************************************************************************************************************************************************ˉj=x************************************************************************************************************************************************************************************************************************************************************************ˉ ad omnes jjj ad renovationem efficiendam(24).Speciatim pro his vectoribus accommodandis, notationibus in singulis iterationibus refertis utimur x ˉ talea{x}x************************************************************************************************************************************************************************************************************************************************************************ˉ ratio fik ( x ˉ ) nabla f_{i_k}(bar{x})f********************************************************************************************************************************************************************************egok(x************************************************************************************************************************************************************************************************************************************************************************ˉ) . Haec methodus a diversis auctoribus diversis nominibus initio proposita, sed postea ut SVRG methodo unita, nomenclaturam [28] et [84] secutus est.

Methodum SVRG in Algorithmo formalizemus III.

Utendo (23), possumus accipere aestimationem gradientem gk g_kg*******************************************************k Discorso terminatur:
E [ gk f ( xk ) ∥ 2 ] ≤ E [ fi ( xk ) fi ( x ˉ ) 2 ] ≤ L max 2 xk x 2 Eleft[| g_k - nabla f(x_k) |^2 right] leq Eleft[ | nabla f_i(x_k) - nabla f_i(bar{x}) |^2 right] leq L_{text{max}}^2 | x_k - bar{x} |^2E[g*******************************************************kf********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************k)2]E[∥∇f********************************************************************************************************************************************************************************ego(x************************************************************************************************************************************************************************************************************************************************************************k)f********************************************************************************************************************************************************************************ego(x************************************************************************************************************************************************************************************************************************************************************************ˉ)2]Lmax2x************************************************************************************************************************************************************************************************************************************************************************kx************************************************************************************************************************************************************************************************************************************************************************ˉ2
ubi secunda inaequalitas utitur inter se fi f_i *f********************************************************************************************************************************************************************************ego of* L i L_iLego-Smoothness.

Notatu dignum est quod punctum x ˉ talea{x}x************************************************************************************************************************************************************************************************************************************************************************ˉ Propius ad praesens punctum xk x_kx************************************************************************************************************************************************************************************************************************************************************************ktantoque minus dissimilem aestimationem.

Ut methodus SVRG efficax sit, necesse est ut puncta frequenter notentur x ˉ talea{x}x************************************************************************************************************************************************************************************************************************************************************************ˉ (per quod calculum gradientis plenae requirat) contra utilitatem variationis reductae ponderatur.Qua de causa unumquodque tt*t Renova respectum semel omni iteratione ut propinquus xk x_kx************************************************************************************************************************************************************************************************************************************************************************k (vide line 11. Algorithmus II-C).Hoc est, SVRG methodus duas ansas continet: ansam exteriorem sssUbi referat gradiente computatur f ( x s 1) nabla f(bar{x}_{s-1})f********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************ˉs1)(line 4), et ansa interior, ubi punctum certum est et iteratio interior renovatur secundum gradum stochasticum gradientis (22). xk x_kx************************************************************************************************************************************************************************************************************************************************************************k(line 10).

Dissimilis SAG et SAGA, SVRG solum requirit O (d) O (d)O******************************(d*****************************************) of memoria. Incommoda SVRG include: 1) extra modulum habemus tt*tid est, longitudo ansa interioris, aptanda est; 2) Duo gradationes pro singulis iterationibus computari debent, et clivus perfectus debet computari quoties punctum mutatur.

Johnson et Zhang [28] monstraverunt SVRG habere complexionem iterativam O ( ( κ max + n ) stipes ⁡ ( 1 / ) ) O ((kappa_{text{max}} + n) stipes (1/epsilon))O******************************((κmax+n)log*******************************************************(1/ϵ)) similis SAG et SAGA.Hic est numerus ansarum in hypothesi tt*t ex collectione { 1 , ... , m } {1, ldots, m}{1,,m} Sub conditione sampling uniformis, ubi L max L_{text{max}}Lmax μ muμ, Gradus magnitudine γ gammaγ et tt*t Quasdam clientelas inter eas contenti esse debent.In praxi, utendo γ = O ( 1 / L max ) gamma = O(1/L_{text{max}})γ=O******************************(1/Lmax) interiorem ansam longitudine t = nt = nt=n, SVRG bene praestare tendit, quod ad amussim constituendum in Figura 1 usi sumus.

Multae autem variationes methodi originalis SVRG.Exempli gratia, variationes aliquae utuntur tt*t alternativa distributio [32], nonnullae variantes formae admittunt O ( 1 / L max ) O(1/L_{text{max}})O******************************(1/Lmax) Gradus magnitudinis [27], [33], [35].Sunt etiam nonnullae variationes utentes f ( x ˉ ) nabla f(bar{x})f********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************ˉ) mini-batch approximatio ad reducendum sumptus horum plenarum aestimationerum gradientium, et mini- batch amplitudinem auget ad proprietates VR conservandas.Variationes quoque nonnullae sunt ubi renovationes in ansa interiore secundum [54] repetuntur. gk g_kg*******************************************************k
[ g_k = nabla f_{i_k}(x_k) - nabla f_{i_k}(x_{k-1}) + g_{k-1} quad (25) ]
Hoc magis loci approximationem praebet. Per hanc continuam renovationem variantes (25) utilitates singulares ostendit in functionibus non convexis minimis, sicut in sectione IV breviter tractamus.Denique notandum quod SVRG uti potest f ( x s ) nabla f(bar{x}_s)f********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************ˉs) valorem ad auxilium, quandonam ad algorithm terminare.

Algorithmus III SVRG methodus

  1. Parametri gradus magnitudine γ &gt; 0 gamma &gt; 0γ>0
  2. Initialize punctum x ˉ 0 = x 0 R d bar{x}_0 = x_0 in mathbb{R}^dx************************************************************************************************************************************************************************************************************************************************************************ˉ0=x************************************************************************************************************************************************************************************************************************************************************************0Rd*****************************************
  3. Extra circulationem externam s = 1 , 2s=1,2,
    a f ( x s 1) nabla f(bar{x}_{s-1})f********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************ˉs1)
    b x 0 = x ˉ s 1 x_0 = bar{x}_{s-1}x************************************************************************************************************************************************************************************************************************************************************************0=x************************************************************************************************************************************************************************************************************************************************************************ˉs1
    c tt*t
    d k = 0 , 1 .k=0,1,,t1
    i ik { 1, ... , n } i_k in {1, ldots, n}egok{1,,n}
    ii gk = ∇ fik ( xk ) fik ( x s 1 ) + f ( x s 1) g_k = nabla f_{i_k}(x_k) - nabla f_{i_k}(bar{x}_{ s-1}) + nabla f(bar{x}_{s-1})g*******************************************************k=f********************************************************************************************************************************************************************************egok(x************************************************************************************************************************************************************************************************************************************************************************k)f********************************************************************************************************************************************************************************egok(x************************************************************************************************************************************************************************************************************************************************************************ˉs1)+f********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************ˉs1)
    III xk + 1 = xk − γ gk x_{k+1} = x_k-gamma g_kx************************************************************************************************************************************************************************************************************************************************************************k+1=x************************************************************************************************************************************************************************************************************************************************************************kγg*******************************************************k
    e x s = xt bar{x}_s = x_tx************************************************************************************************************************************************************************************************************************************************************************ˉs=x************************************************************************************************************************************************************************************************************************************************************************t

2.4.

Unus defectus methodorum SAG et SVRG est quod gradus magnitudinis innititur ignotis valoribus, qui in quibusdam quaestionibus ignoti possunt. L max L_{text{max}}Lmax . Ante SVRG, methodus SDCA [70], ut unus e primis VR modis, investigationem coordinatam descensus methodos ad summas difficultates finitas extendebat. Idea post SDCA eiusque variantes est quod coordinatae gradientis aestimationem clivum naturalem variationem reducentem praebent.In specie, putant j { 1 , ... , d } j in {1, ldots, d}j{1,,d*****************************************}ac definire jf ( x ) : = ( f ( x ) xj ) ej nabla_j f(x) := left(frac{partialis f(x)}{x_j dextrae partialis) e_jjf********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************):=(x************************************************************************************************************************************************************************************************************************************************************************jf********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************))ej est th of (f (v)) jjj derivata coordinare, ubi ej R d e_j in mathbb{R}^dejRd***************************************** Hoc est primum jjj unitas vector.Clavis proprietas derivationum coordinatarum est jf ( x ) = 0 nabla_j f(x^*) = 0jf********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************)=0Quia scimus f ( x ∗ ) = 0 nabla f(x^*) = 0f********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************)=0 .Derivatio huius cum unaquaque notitia punctum fj nabla f_jf********************************************************************************************************************************************************************************j alia, haec est x x^*x************************************************************************************************************************************************************************************************************************************************************************ non nulla. Ideo habemus;
f ( x ) jf ( x ) 2 → 0 x → x ( 26 ) | nabla f(x) - nabla_j f(x) |^2 rightarrow 0 quad text{当} quad x rightarrow x^* quad (26)∥∇f********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************)jf********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************)20quandox************************************************************************************************************************************************************************************************************************************************************************x************************************************************************************************************************************************************************************************************************************************************************(26)
Hoc significat quod coordinatio derivativae proprietatis reductione discordans satisfacit (12).Accedit, uti possumus jf ( x ) nabla_j f(x)jf********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************) aedificare f ( x ) nabla f(x)f********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************) pensato aestimatione.Puta jjj ex collectione { 1 , ... , d } {1, ldots, d}{1,,d*****************************************} A passim passim lectus index in .Ergo pro quolibet i { 1, ... , d } i in {1, ldots, d}ego{1,,d*****************************************},Habemus P [ j = i ] = 1 d P[j = i] = frac{1}{d}P[j=ego]=d*****************************************1 . ergo, d jf (x) d temporibus nabla_j f(x)d*****************************************×jf********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************) sic f ( x ) nabla f(x)f********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************) Pretiosum aestimationem, quia;
E [ d jf ( x ) ] = d i = 1 d P [ j = i ] f ( x ) ∂ xiei = ∑ i = 1 d f ( x ) ∂ xiei = f (x) Eleft[ d nabla_j f(x) recta] = d sum_{i=}^{d} P[j = i] frac{partialis f(x)}{partialis x_i} e_i = sum_{i=}^{d} frac{partialis f(x)}{x_i} e_i = nabla f(x)E[d*****************************************jf********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************)]=d*****************************************ego=1d*****************************************P[j=ego]x************************************************************************************************************************************************************************************************************************************************************************egof********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************)eego=ego=1d*****************************************x************************************************************************************************************************************************************************************************************************************************************************egof********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************)eego=f********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************)

ergo, jf ( x ) nabla_j f(x)jf********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************) Has omnes proprietates ideales exspectare debemus pro VR graduum plenos aestimare, sine necessitate covariates utendi. Unum incommodum coordinationis huius gradientis utendi est quod computationally sumptuosum est summae nostrae quaestionis (2).Hoc est, quia calculi jf ( x ) nabla_j f(x)jf********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************) Indicium percurrere totum opus est jf ( x ) = 1 n i = 1 n jfi (x) nabla_j f(x) = frac{1}{n} sum_{i=}^{n} nabla_j f_i(x)jf********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************)=n1ego=1njf********************************************************************************************************************************************************************************ego(x************************************************************************************************************************************************************************************************************************************************************************) . Itaque, derivatis coordinatis, videtur repugnare structurae nostrae summae quaestionis. Saepe tamen possumus quaestionem originalem rescribere (2) in formulam sic dictam dualem, ubi derivationes coordinatae structuram inhaerentem abutuntur.

Exempli gratia, formula dualis L2 exemplar linearis ordinatum (15) est;
v arg max v R n 1 n i = 1 n i ( vi ) λ 2 1 λ ∑ i = 1 nviai 2 ( 27 ) v^* in argmax_{v in mathbb{R}^n} frac{1}{n} sum_{i=1}^{n} -ell_i^*(-v_i) - frac{lambda}{2} left| frac{1}{lambda} sum_{i=}^{n} v_i a_i ius|^2 quad (27)varg*******************************************************vRnmaxn1ego=1nego(vego)2λ λ1ego=1nvegoaego 2(27)
in i (v) ell_i^*(v)ego(v) sic i ell_iego convexus, conjugatus.Nos uti mapping x = 1 λ ∑ i = 1 nviaix = frac{1}{lambda} sum_{i=}^{n} v_i a_ix************************************************************************************************************************************************************************************************************************************************************************=λ1ego=1nvegoaego ut restitueret originale problema (XV) xx*x************************************************************************************************************************************************************************************************************************************************************************ variabilis.et solve v v^*v Substitutio in dextra parte tabularum praedictarum, solutionem accipere possumus (15). x x^*x************************************************************************************************************************************************************************************************************************************************************************

Nota hanc dualem quaestionem habet nnn verum variables vi R v_i in mathbb{R}vegoR uni pro singulis disciplinis respondens.Praeterea, quodlibet munus damnum duale i ell_i^*ego solum vi v_ivego Munus. Id est, primus terminus in amissione coordinate functionis est separabilis. Haec separabilitas in coordinatis, cum simplici forma secundi termini iuncta, permittit ut coordinatam ascensum methodum efficaciter efficiamus.Re quidem vera Shalev-Shwartz et Zhang monstraverunt coordinare ascensum in hac problemate similem multiplicitatem iterativam cum SAG, SAGA et SVRG. O ( ( κ max + n ) stipes ⁡ ( 1 / ) ) O ((kappa_{text{max}} + n) stipes (1/epsilon))O******************************((κmax+n)log*******************************************************(1/ϵ))

Iteratio sumptus et structura algorithmus etiam simillima sunt: ​​summationem sequi i = 1 nviai sum_{i=1}^{n} v_i a_iego=1nvegoaego Ad secundum terminum tractandum in (27), unaquaeque iteratio dualis coordinata ascensus solum oportet considerare unum specimen disciplinae, et sumptus uniuscuiusque iterationis idem est ac. nnn Nihil facere.Accedit, uti in linea 1D inquisitionis uti possumus ad magnitudinem gradus efficaciter computare ad augendum vi v_ivego Dual obiectivum functionis.Hoc significat etiam sine L max L_{text{max}}Lmax Vel scientia quantitatum pertinentium, potest etiam consequi velocitatem pessimum-casum currentium temporum ad VR modos.

3. Quaestiones practicae variarum reductionis

Ut differentiam fundamentalem reductionis (VR) deducendi methodum et rationabilem observantiam consequendam, plures quaestiones exsecutioni mandandae sunt. In hac sectione plures quaestiones superius non tectae tractamus.

3.1.SAG/SAGA/SVRG occasum gradus magnitudine

In agro optimizationis algorithmorum, praesertim in variis reductionibus methodis ut stochastica gradientis mediocris (SAG), stochastic algorithmi mediocris gradientis (SAGA) et clivi stochastici (SVRG), occasus gradus magnitudinis est exitus clavis.Etsi ad modum ascensionis stochasticae dualis coordinatae (SDCA) methodo uti possumus, obiectivum duplicem ad magnitudinem gradus determinare, fundamentum theoreticum pro modis variabilibus primigeniis SAG, SAGA et SVRG est ut gradus magnitudinis sit. γ = O ( 1 L max ) gamma = Oleft(frac{1}{L_{text{max}}}ius)γ=O******************************(Lmax1) speciem.Tamen, in usu adhibitis, saepe nescimus L max L_{text{max}}Lmax valorem exigat, et utens aliis gradibus magnitudinum meliores praebeat effectus.

Instrumentum classicum ad gradum magnitudinis in plena gradiente descensu (pleno-GD) constituendum est modus inquisitionis rectae Armijo.datum current punctum xk x_kx************************************************************************************************************************************************************************************************************************************************************************k et quaerere partem gk g_kg*******************************************************k, Armijo linea quaerere in γ k gamma_kγk exercetur in linea, quae definitur γ k ∈ { γ : xk + γ gk } gamma_k in {gamma : x_k + gamma g_k}γk{γ:x************************************************************************************************************************************************************************************************************************************************************************k+γg*******************************************************k}ac satis deminutum opus est;
f ( xk + γ kgk ) &lt; f ( xk ) c γ k f ( xk ) ∥ 2 f(x_k + gamma_k g_k) &lt; f(x_k) - c gamma_k |nabla f(x_k)|^2f********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************k+γkg*******************************************************k)<f********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************k)c*****γk∥∇f********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************k)2
Sed hic aditus plures gradus candidatorum requirit γ k gamma_kγk Calculus f ( xk + γ kgk ) f(x_k + gamma_k g_k)f********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************k+γkg*******************************************************k)Quam evaluates f ( x ) f(x)f********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************) Pretium prohibitivum cum fit percurso tota notitia statuta.

Ad hanc solvendam quaestionem, methodus variatio temere adhiberi potest ad eas inveniendas quae in sequentibus conditionibus conveniant γ k gamma_kγk
fik ( xk + γ kgk ) &lt; fik ( xk ) c γ k fik ( xk ) ∥ 2 f_{ik}(x_k + gamma_k g_k) &lt;f_{ik}(x_k) - c gamma_k |nabla f_{ik }(x_k)|^2f********************************************************************************************************************************************************************************ik(x************************************************************************************************************************************************************************************************************************************************************************k+γkg*******************************************************k)<f********************************************************************************************************************************************************************************ik(x************************************************************************************************************************************************************************************************************************************************************************k)c*****γk∥∇f********************************************************************************************************************************************************************************ik(x************************************************************************************************************************************************************************************************************************************************************************k)2
Aditus hic plerumque bene in praxi operatur, praesertim cum fik ( xk ) ∥ |nabla f_{ik}(x_k)|∥∇f********************************************************************************************************************************************************************************ik(x************************************************************************************************************************************************************************************************************************************************************************k) non ad nihilum accedat, quamvis theoria ad hanc aditum fulciendam in praesenti nulla sit.

Praeterea Mairal proposuit "ars Bottou" ad gradum magnitudinis in praxi constituendum. Haec methodus binarium inquisitionem facit accipiendo parvam portionem notitiarum statutorum (exampla 5%) ad quaerendam meliorem gradum magnitudinis in uno exemplo pertransire. Similis quaestionis lineae Armijo, haec methodus saepe bene in praxi exercet, sed iterum fundamento theoretico caret.

Quaeso nota quod superius contentum textus primigenii restitutio est, Markdown forma usus ad formulas mathematicas et variabiles repraesentandas.

Sed methodus SDCA etiam incommoda habet.Primum, requirit computationem conjugati convexi i ell_i^*ego quam simplex clivus. Non habemus differentiam latae aequivalentem pro conjugatis convexis, ut haec exsequendi conatus augeat. Recens opus "dual-liberum" SDCA modos proposuit quae coniugationem non requirunt et graduum directe utuntur. Sed in his modis scopum duplicem indagare non amplius potest quam magnitudo gradatim disponat.Secundo, licet SDCA tantum requirit O ( n + d ) O ( n + d )O******************************(n+d*****************************************) memoria quaestionem solvendi (15) problema est, sed ad categoriam huius problematis, SAG/SAGA tantum indiget O ( n + d ) O ( n + d )O******************************(n+d*****************************************) de memoria (cf. sectio III).Variatio SDCA quaestionibus communioribus apta cum SAG/SAGA O ( nd ) o ( nd )O******************************(nd*****************************************) quia memoria vi v_ivego facti sunt habentem ddd***************************************** vector elementorum. Postrema SDCA subtile incommodum est, quod implicat validam convexitatem constantem μ muμ aequalis λ lambdaλ .for* μ muμ plus quam λ lambdaλ problema, VR methodus originalis plerumque signanter SDCA outperformat.

3.2.

In agro Optimizationis algorithmi, saepe innitimur eventibus theoreticis multiplicitatis iterativae ad praedicere casus pessimos quot iterationes requiruntur ad algorithmum ad specificam accurate consequendam. Attamen hi termini theoretici saepe in aliquibus constantibus innituntur, quos divinare non possumus, et in usu adhibitis, algorithmus saepe in paucioribus iterationibus accurationem expectatam consequi potest. Ideo necesse est constituere aliquas rationes probationes quae algorithmus terminari debet.

In traditione methodi descensus plenus-gradientis (plen-GD) consuevimus norma gradientis uti f ( xk ) | nabla f(x_k) |∥∇f********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************k) Vel aliqua alia quantitas ad hoc pertinet, quandonam iteratio cessat.Pro SVRG methodo eandem regulam sed usum adhibere possumus f ( x s ) | nabla f(bar{x}_s) |∥∇f********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************ˉs) quasi fundamentum iudicii.Pro methodo SAG/SAGA, quamvis clivum completum expresse non computamus, quantitas $g_{bar{k}} $ paulatim approximat. f ( xk ) nabla f(x_k)f********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************k)ergo utere gk | g_{bar{k}} |g*******************************************************kˉ sicut conditio claudendi est rationabilis heuristica.

In SDCA methodo, cum aliqua recordatione addito opere, clivum obiecti dualis indagare possumus, non addito asymptotico addito pretio.Accedit magis systematicus aditus duplicem hiatum indagare, quamvis hoc augeat O ( n ) o ( n )O******************************(n) sumptus, sed condiciones terminationes praebere potest cum duplici lacuna probationum. Praeterea MISO methodus MISO methodum principiatam in quadratic inferiore ligatam fundatam in conditione optimalitatis scoporum valde convexorum adoptat [41].

Formae mathematicae sunt et variabiles in Markdown forma expressae:

  • Norma gradiens: f ( xk ) | nabla f(x_k) |∥∇f********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************k)
  • SVRG norma gradiens in methodo: f ( x s ) | nabla f(bar{x}_s) |∥∇f********************************************************************************************************************************************************************************(x************************************************************************************************************************************************************************************************************************************************************************ˉs)
  • Moles approximationis gradientis in methodo SAG/SAGA: $g_{bar{k}} $
  • Auxit sumptus per iterationem: O ( n ) o ( n )O******************************(n)
  • MISO methodo
  • quadratae minus tenetur

Quaeso nota quod superius contentum textus primigenii restitutio est, Markdown forma usus ad formulas mathematicas et variabiles repraesentandas.

3.3.

Quamvis Stochastica Variatio Reductio Gradientis (SVRG) algorithmus memoria requisita reductionis methodi variationis priorum eliminat, in applicationibus practicis, SAG (Stochastic Average Gradientis Descensus) et SAGA (Stochastic Average Gradienti Gradiente cum Accumulatione Descensus) algorithmi in multis quaestionibus adhibentur. . tendunt pauciores iterationes quam SVRG algorithmusHoc Urguet cogitatio: Suntne aliquae quaestiones quae permittunt SAG/SAGA to O ( nd ) o ( nd )O******************************(nd*****************************************) Memoria requisita infra ad effectum deducta sunt. Haec sectio explorat genus exemplorum linearium ad quod memoria requisita signanter minui possunt.

Vide exemplar linearibus ubi quisque munus fi ( x ) f_i ( x )f********************************************************************************************************************************************************************************ego(x************************************************************************************************************************************************************************************************************************************************************************) Potest exprimi i (ai x ) xi_i(mathbf{a}_i^top x)ξego(aegox************************************************************************************************************************************************************************************************************************************************************************) .ius xx*x************************************************************************************************************************************************************************************************************************************************************************ Derivativa dat formam gradientem;
fi ( x ) = (ai x ) ai nabla f_i(x) = xi'(mathbf{a}_i^top x) mathbf{a}_if********************************************************************************************************************************************************************************ego(x************************************************************************************************************************************************************************************************************************************************************************)=ξ(aegox************************************************************************************************************************************************************************************************************************************************************************)aego
hic, xi'ξ exprimere " xiξ inde a.Posito directum accessum habemus ad eigenvectors ai mathbf{a}_iaegoergo ad methodum SAG/SAGA efficiendam, tantum scalari condere opus est (ai x ) xi (mathbf{a}_i^top x)ξ(aegox************************************************************************************************************************************************************************************************************************************************************************) .Hoc modo variant ex memoria requisita O ( nd ) o ( nd )O******************************(nd*****************************************) ad * O ( n ) o ( n )O******************************(n) . Algorithmus SVRG uti potest etiam hac graduum structura: hoc reponens nnn scalari, numerum graduum aestimationerum per SVRG "interiorem" iterationem ad 1 huius generis problematum reducere possumus.

Aliae sunt quaestionum genera, sicut probabilia exempla graphica graphica, quae etiam facultatem reducendi requisita memoriae praebent[66]. Per certas notitias structuram et algorithmum optimizationem, subsidia memoria quae ab algorithmo tempore currenti requiruntur adhuc reduci possunt.

Formae mathematicae sunt et variabiles in Markdown forma expressae:

  • Munus exemplar linearis: fi ( x ) = ξ i (ai x ) f_i(x) = xi_i(mathbf{a}_i^top x)f********************************************************************************************************************************************************************************ego(x************************************************************************************************************************************************************************************************************************************************************************)=ξego(aegox************************************************************************************************************************************************************************************************************************************************************************)
  • Gradiens expressio: fi ( x ) = (ai x ) ai nabla f_i(x) = xi'(mathbf{a}_i^top x) mathbf{a}_if********************************************************************************************************************************************************************************ego(x************************************************************************************************************************************************************************************************************************************************************************)=ξ(aegox************************************************************************************************************************************************************************************************************************************************************************)aego
  • Pluma vector: ai mathbf{a}_iaego
  • Memoria requisita vagarentur O ( nd ) o ( nd )O******************************(nd*****************************************) Redigendum to O ( n ) o ( n )O******************************(n)

3.4.

In quibusdam quaestionibus, clivus fi (x) nabla f_i(x)f********************************************************************************************************************************************************************************ego(x************************************************************************************************************************************************************************************************************************************************************************) Magnum numerum valorum nullarum, sicut exemplar linearis cum sparsis notis contineri potest.Hoc in casu, traditum descensus stochasticus gradientis (SGD) algorithmus efficaciter adimpleri potest, cum complexitate computativa lineari in numero elementorum non nullarum in gradiente, quae plerumque multo minor est quam dimensio problema. ddd***************************************** . Tamen in normali reductione (VR) modi, haec utilitas non abutitur. Feliciter emendare duas notas.

Prima emendatio proposita est a Schmidt et al., quae simplicitatem processus renovationis et instrumentorum variationem "in-fly" proposuit, ita ut sumptus uniuscuiusque iterationis numero non-nullarum proportionalis sit. elementa.Accipiens exemplum SAG (sed accessus hic pro omnibus variantibus operatur), hoc fit non accommodando vectorem completum post singulas iterationes. vik v_{ik}vik, sed tantum computat ea quae non-nulla elementis respondentia sunt vikj v_{ik_j}vegokj, adaequare quodlibet variabile ab ultimo tempore elementum illud non-nullus erat vikj v_{ik_j}vegokj

Altera emendatio methodo proposita a Leblond et al xk + 1 = xk γ ( fik ( xk ) fik ( x ik ) + g k ) x_{k+1} = x_k - gamma (nabla f_{ik}(x_k) - nabla f_{ik }(bar{x}_{ik}) + bar{g}_k)x************************************************************************************************************************************************************************************************************************************************************************k+1=x************************************************************************************************************************************************************************************************************************************************************************kγ(f********************************************************************************************************************************************************************************ik(x************************************************************************************************************************************************************************************************************************************************************************k)f********************************************************************************************************************************************************************************ik(x************************************************************************************************************************************************************************************************************************************************************************ˉik)+g*******************************************************ˉk) Additamenta fortuiti introducta. hic, ∇ fik ( xk ) nabla f_{ik}(x_k)f********************************************************************************************************************************************************************************ik(x************************************************************************************************************************************************************************************************************************************************************************k) et fik ( x ik ) nabla f_{ik}(bar{x}_{ik})f********************************************************************************************************************************************************************************ik(x************************************************************************************************************************************************************************************************************************************************************************ˉik) sparsum est, et g ˉ k bar{g}_kg*******************************************************ˉk densum est.Hoc modo, terminus densus ( g k ) j (bar{g}_k)_j(g*******************************************************ˉk)j Quisque elementum substituitur wj ( g k ) j w_j (bar{g}_k)_jw***j(g*******************************************************ˉk)j,in w R dw in mathbb{R}^dw***Rd***************************************** est temere sparsum vector cuius firmamentum paro continetur ∇ fik ( xk ) nabla f_{ik}(x_k)f********************************************************************************************************************************************************************************ik(x************************************************************************************************************************************************************************************************************************************************************************k) et expectatur constans omnibus elementis 1 vector esse. Hoc modo, processus renovationis incorruptus manet (etsi nunc sparsus est), et discrepantia aucta non tangit ratem concursum algorithmi. Plura providentur apud Leblond et al.

Formae mathematicae sunt et variabiles in Markdown forma expressae:

  • clivus; fi (x) nabla f_i(x)f********************************************************************************************************************************************************************************ego(x************************************************************************************************************************************************************************************************************************************************************************)
  • SGD renovatio: xk + 1 = xk γ ( fik ( xk ) fik ( x ik ) + g k ) x_{k+1} = x_k - gamma (nabla f_{ik}(x_k) - nabla f_{ik }(bar{x}_{ik}) + bar{g}_k)x************************************************************************************************************************************************************************************************************************************************************************k+1=x************************************************************************************************************************************************************************************************************************************************************************kγ(f********************************************************************************************************************************************************************************ik(x************************************************************************************************************************************************************************************************************************************************************************k)f********************************************************************************************************************************************************************************ik(x************************************************************************************************************************************************************************************************************************************************************************ˉik)+g*******************************************************ˉk)
  • Sparsum clivum; ∇ fik ( xk ) nabla f_{ik}(x_k)f********************************************************************************************************************************************************************************ik(x************************************************************************************************************************************************************************************************************************************************************************k) et fik ( x ik ) nabla f_{ik}(bar{x}_{ik})f********************************************************************************************************************************************************************************ik(x************************************************************************************************************************************************************************************************************************************************************************ˉik)
  • Densum clivum; g ˉ k bar{g}_kg*******************************************************ˉk
  • Temere sparsae vectores: www***
  • Vector constantem exspectat: vector cum omnibus elementis 1 =.