2024-07-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
आकस्मिक अनुकूलनं यन्त्रशिक्षणस्य महत्त्वपूर्णः घटकः अस्ति, तस्य मूलं च आकस्मिक-ढाल-अवरोह-एल्गोरिदम् (SGD) अस्ति, एषा पद्धतिः ६० वर्षाणाम् अधिककालपूर्वं प्रथमवारं प्रस्तावितायाः अनन्तरं व्यापकरूपेण प्रयुक्ता अस्ति विगत अष्टवर्षेषु वयं एकं रोमाञ्चकं नूतनं विकासं दृष्टवन्तः: आकस्मिक-अनुकूलन-विधिषु विचरण-निवृत्ति-प्रविधयः । एतानि विचरणनिवृत्तिविधयः (VR पद्धतयः) तेषु परिदृश्येषु उत्तमं प्रदर्शनं कुर्वन्ति येषु प्रशिक्षणदत्तांशस्य बहुविधपुनरावृत्तयः अनुमन्यन्ते, सिद्धान्ते व्यवहारे च SGD इत्यस्मात् द्रुततरं अभिसरणं दर्शयन्ति वेगस्य एषा वृद्धिः वी.आर.पद्धतिषु वर्धमानं रुचिं, अस्मिन् क्षेत्रे द्रुतगत्या सञ्चितं शोधनिष्पादनं च प्रकाशयति । अयं लेखः सीमितदत्तांशसमूह अनुकूलनार्थं VR पद्धतीनां प्रमुखसिद्धान्तानां प्रमुखप्रगतीनां च समीक्षां करोति, यस्य उद्देश्यं गैर-विशेषज्ञपाठकान् सूचयितुं भवति । वयं मुख्यतया उत्तल-अनुकूलन-वातावरणेषु केन्द्रीभवन्ति तथा च गैर-उत्तल-कार्यस्य न्यूनतमीकरणाय विस्तारेषु रुचिं विद्यमानानाम् पाठकानां कृते सन्दर्भं प्रदामः ।
मुख्यशब्दाः |.यन्त्रशिक्षणम्;
यन्त्रशिक्षणसंशोधनक्षेत्रे एकः मूलभूतः महत्त्वपूर्णः च विषयः अस्ति यत् विशालदत्तांशसमूहे प्रतिरूपस्य अनुकूलनं कथं करणीयम् इति । यथा, रेखीय न्यूनतमवर्गप्रतिरूपस्य विशिष्टं प्रकरणं विचारयितुं शक्नुमः :
x ∗ ∈ arg min x ∈ R d 1 n ∑ i = 1 n ( ai T x − bi ) 2 x^* in argmin_{x in mathbb{R}^d} frac{1}{n} sum_{ i=1}^{n} (क_इ^T x - b_i)^2x∗∈अर्छx∈आरघमिन1अहम्=1∑न(एकःअहम्टीx−खअहम्)2
अस्मिन् आदर्शे अस्माकं कृते अस्ति द्द्घ पैरामीटर्स्, ये सदिशैः प्रतिनिधित्वं कुर्वन्ति x ∈ R dx in mathbb{R}^dx∈आरघ प्रदत्त।तावत्पर्यन्तं अस्माकं हस्ते अस्ति nnन दत्तांशबिन्दवः, यत्र विशेषतासदिशः अपि सन्ति ai ∈ R d a_i in mathbb{R}^dएकःअहम्∈आरघ तथा लक्ष्यमूल्यं बि ∈ R b_i in mathbb{R}खअहम्∈आर .मॉडलस्य अनुकूलनप्रक्रिया एतान् मापदण्डान् समायोजयितुं भवति येन मॉडलस्य पूर्वानुमानितं उत्पादनं भवति ऐ T x a_i^T xएकःअहम्टीx लक्ष्यमूल्यस्य यथासम्भवं समीपे औसतेन बि ब_इखअहम्。
अधिकव्यापकरूपेण वयं हानिकार्यस्य उपयोगं कर्तुं शक्नुमः fi ( x ) f_i(x) .चअहम्(x) आदर्शपूर्वसूचनानां मापनार्थं तथा च... iiअहम् दत्तांशबिन्दवः कियत् समीपे सन्ति : १.
x ∗ ∈ arg min x ∈ R df ( x ) : = 1 n ∑ i = 1 nfi ( x ) x^* in argmin_{x in mathbb{R}^d} f(x) := frac{1 }{न} योग_{i=1}^{n} f_i(x)x∗∈अर्छx∈आरघमिच(x):=न1अहम्=1∑नचअहम्(x)
हानि कार्य fi ( x ) f_i(x) .चअहम्(x) यदि बृहत्तरं भवति तर्हि आदर्शस्य पूर्वानुमानं दत्तांशतः बहु विचलितं भवति इति सूचयति; fi ( x ) f_i(x) .चअहम्(x) शून्यस्य समानं, मॉडल् दत्तांशबिन्दून् सम्यक् उपयुज्यते ।नियोग च ( x ) च(x) .च(x) सम्पूर्णे दत्तांशसमूहे मॉडलस्य औसतहानिः प्रतिबिम्बयति ।
उपरिष्टाद् रूपं (2) इत्यादीनि समस्यानि न केवलं रेखीयन्यूनतमवर्गसमस्यासु प्रवर्तन्ते, अपितु यन्त्रशिक्षणे अध्ययनितेषु अन्येषु अनेकेषु प्रतिरूपेषु अपि प्रवर्तन्ते । यथा, लॉजिस्टिक रिग्रेशन मॉडल् मध्ये वयं समाधानं कुर्मः :
x ∗ ∈ arg min x ∈ R d 1 n ∑ i = 1 n log ( 1 + e − biai T x ) + λ 2 ∥ x ∥ 2 2 x^* in argmin_{x in mathbb{R}^ d} frac{1}{n} sum_{i=1}^{n} log(1 + e^{-b_i a_i^T x}) + frac{lambda}{2} |x|_2^2x∗∈अर्छx∈आरघमिन1अहम्=1∑नलोछ(1+ङ−खअहम्एकःअहम्टीx)+2λ∥x∥22
अत्र वयं व्यवहारं कुर्मः bi ∈ { − 1 , + 1 } b_i in {-1, +1} .खअहम्∈{−1,+1} द्विचक्रीयवर्गीकरणसमस्यायाः कृते पूर्वानुमानं आधारितम् अस्ति ऐ T x a_i^T xएकःअहम्टीx प्रतीकाः ।सूत्रे नियमितीकरणपदमपि प्रवर्तते λ 2 ∥ x ∥ 2 2 फ्रैक{लम्ब्डा}{2} |x|_2^22λ∥x∥22 दत्तांशस्य अतियोग्यतां परिहरितुं, यत्र ∥ x ∥ २ २ |x|_२^२∥x∥22 व्यक्त xxx इत्यस्य यूक्लिडियन-मान्यतायाः वर्गः .
अधिकांशेषु पर्यवेक्षितशिक्षणप्रतिरूपेषु प्रशिक्षणप्रक्रियारूपेण (2) रूपेण व्यक्तं कर्तुं शक्यते, यत्र L1 नियमितकृताः न्यूनतमवर्गाः, समर्थनसदिशयन्त्रं (SVM), प्रधानघटकविश्लेषणं, सशर्त यादृच्छिकक्षेत्राणि तथा गहनन्यूरलजालम् इत्यादयः सन्ति
आधुनिकसमस्याप्रसङ्गेषु एकः प्रमुखः आव्हानः दत्तांशबिन्दुसङ्ख्या अस्ति nnन सम्भवतः अत्यन्तं विशालः। वयं प्रायः एतादृशैः दत्तांशसमूहैः सह व्यवहारं कुर्मः ये टेराबाइट्-परिधितः दूरं भवन्ति तथा च अन्तर्जालः, उपग्रहाः, दूरस्थसंवेदकाः, वित्तीयविपणयः, वैज्ञानिकप्रयोगाः च इत्यादिभ्यः विविधस्रोतेभ्यः आगन्तुं शक्नुवन्ति एतादृशानां बृहत्दत्तांशसमूहानां निवारणाय एकः सामान्यः उपायः अस्ति यत् स्टोचैस्टिक ग्रेडिएण्ट् डिसेण्ट् (SGD) एल्गोरिदम् इत्यस्य उपयोगः भवति, यः प्रत्येकस्मिन् पुनरावृत्तौ केवलं अल्पसंख्याकानां यादृच्छिकरूपेण चयनितदत्तांशबिन्दून् उपयुज्यते अपि च, अद्यतनकाले विचरण-निवृत्ति- (VR) आकस्मिक-ढाल-विधिषु रुचिः तीव्रवृद्धिः अभवत्, येषु पारम्परिक-आकस्मिक-ढाल-विधिषु अपेक्षया द्रुततर-अभिसरण-दराः सन्ति
चित्र 1. मशरूम-दत्तांशसमूहस्य आधारेण लॉजिस्टिक-प्रतिगमनसमस्यायाः उपरि [7], ढाल-अवरोहण (GD), त्वरित-ढाल-अवरोहण (AGD, [50] मध्ये त्वरित-GD), आकस्मिक-ढाल-अवरोहण (SGD) तथा ADAM [30 ] पद्धतिः आसीत् विचरणनिवृत्ति-विधिभिः (VR) SAG तथा SVRG इत्यनेन सह तुलने, यत्र n = 8124, d = 112 ।
ढाल अवरोह (GD) उपर्युक्तसमस्यायाः (2) समाधानार्थं प्रयुक्तः एकः क्लासिकः एल्गोरिदम् अस्ति, तस्य पुनरावर्तनीयं अद्यतनसूत्रं च निम्नलिखितम् अस्ति ।
xk + 1 = xk − γ 1 n ∑ i = 1 n ∇ fi ( xk ) x_{k+1} = x_k - गामा frac{1}{n} sum_{i=1}^{n} नबला f_i(x_k ) ९.xk+1=xk−γन1अहम्=1∑न∇चअहम्(xk)
अत्र, γ गाम्माγ शून्यात् अधिकं नियतपदमूल्यं भवति ।GD एल्गोरिदम् इत्यस्य प्रत्येकं पुनरावृत्तेः समये प्रत्येकं दत्तांशबिन्दुः भवितुमर्हति iiअहम् ढालस्य गणनां कुर्वन्तु ∇ फि ( xk ) नबला f_i(x_k) .∇चअहम्(xk), यस्य अर्थः अस्ति यत् GD सर्वान् अपेक्षते nnन दत्तांशबिन्दुनाम् सम्पूर्णं भ्रमणं कुर्वन्तु।यदा दत्तांशसमूहस्य आकारः nnन यदा अतीव विशालं भवति तदा GD एल्गोरिदम् इत्यस्य प्रत्येकस्य पुनरावृत्तेः व्ययः अतीव अधिकः भवति, अतः तस्य अनुप्रयोगः सीमितः भवति ।
विकल्परूपेण वयं आकस्मिक-ढाल-अवरोह (SGD) पद्धतिं विचारयितुं शक्नुमः, या प्रथमवारं रॉबिन्स्-मोन्रो-योः प्रस्ताविता आसीत्, तस्याः पुनरावर्तनीय-अद्यतन-सूत्रं च निम्नलिखितम् अस्ति ।
xk + 1 = xk − γ ∇ fik ( xk ) x_{k+1} = x_k - गामा नबला f_{i_k}(x_k)xk+1=xk−γ∇चअहम्k(xk)
SGD एल्गोरिदम् प्रत्येकस्मिन् पुनरावृत्तौ केवलं एकस्य यादृच्छिकरूपेण चयनितस्य दत्तांशबिन्दुस्य ढालस्य उपयोगेन कार्यं करोति । ∇ fik ( xk ) नबला च_{i_k}(x_k) .∇चअहम्k(xk) प्रत्येकस्य पुनरावृत्तेः व्ययस्य न्यूनीकरणाय । चित्रे १ वयं द्रष्टुं शक्नुमः यत् अनुकूलनप्रक्रियायाः प्रारम्भिकपदेषु एसजीडी जीडी (त्वरितजीडीविधयः च) अपेक्षया अधिका महत्त्वपूर्णा प्रगतिः प्राप्नोतिआलेखः युगानां दृष्ट्या अनुकूलनस्य प्रगतिम् दर्शयति, ये सर्वेषां गणनारूपेण परिभाषिताः सन्ति nnन प्रशिक्षणनमूनानां कृते ढालस्य संख्या। GD एल्गोरिदम् प्रत्येकं गोलं एकं पुनरावृत्तिं करोति, यदा तु SGD एल्गोरिदम् प्रत्येकं गोलं एकं पुनरावृत्तिं करोति nnन पुनरावृत्तयः ।वयं SGD तथा GD इत्येतयोः तुलनायाः आधाररूपेण गोलानां उपयोगं कुर्मः, यतः कल्पनायाः अन्तर्गतम् nnन अत्यन्तं बृहत् सन्दर्भेषु उभयोः पद्धतयोः मुख्यव्ययः ढालस्य मध्ये केन्द्रितः भवति ∇ फि ( xk ) नबला f_i(x_k) .∇चअहम्(xk) गणना ।
यादृच्छिक अनुक्रमणिकाकरणं विचारयामः इक् इ_क्अहम्k संग्रहात् { १ , ... , न } {१, ल्डोट्स, न} ।{1,…,न} एकरूपयादृच्छिकचयनस्य सन्दर्भे सर्वेषां कृते इति अस्य अर्थः iiअहम्,चिनोतु इक् = इ इ_क् = इअहम्k=अहम् संभाव्यता प [ इक् = इ ] प[इ_क = इ] ।पु[अहम्k=अहम्] समान १ न भग्न{१}{न}न1 . एवं सति . ∇ fik ( xk ) नबला च_{i_k}(x_k) .∇चअहम्k(xk) यथा ∇ च ( xk ) नबला च(x_k) .∇च(xk) इत्यस्य अनुमानकः निष्पक्षः यतः अपेक्षायाः परिभाषया अस्माकं कृते अस्ति :
ई [ ∇ फिक ( xk ) ∣ xk ] = 1 n ∑ i = 1 n ∇ fi ( xk ) = ∇ f ( xk ) ( 6 ) E[nabla f_{i_k}(x_k) | x_k] = frac{1}{n} sum_{i=1}^{n} नब्ला f_i(x_k) = नब्ला च(x_k) क्वाड (6)ई[∇चअहम्k(xk)∣xk]=न1अहम्=1∑न∇चअहम्(xk)=∇च(xk)(6)
यद्यपि SGD (Stochastic Gradient Descent) पद्धतिः प्रत्येकस्मिन् पुनरावृत्तौ कार्यस्य गारण्टीं न ददाति ffच will इत्यस्य मूल्यं न्यूनीभवति, परन्तु समासे ऋणात्मकपूर्णप्रवणतां प्रति गच्छति, यत् अधः दिशं प्रतिनिधियति ।
परन्तु एसजीडी पुनरावृत्तीनां अभिसरणं सुनिश्चित्य निष्पक्षं ढाल-अनुमानकं भवति चेत् पर्याप्तं नास्ति । एतत् बिन्दुं दर्शयितुं चित्रे 2 (वामभागे) LIBSVM [7] द्वारा प्रदत्तस्य चतुःश्रेणीदत्तांशसमूहस्य नित्यं चरणाकारस्य उपयोगेन लॉजिस्टिक रिग्रेशन फंक्शन् प्रयोक्तुं SGD इत्यस्य पुनरावर्तनीयं प्रक्षेपवक्रं दर्शयतिआकृतौ समकेन्द्रितानि दीर्घवृत्तानि कार्यस्य समोच्चं दर्शयन्ति अर्थात् कार्यमूल्यम् च ( x ) = cf(x) = गच(x)=ग तदनुरूप बिन्दु xxx स्खति, ccग वास्तविकसङ्ख्यासमूहे विशिष्टः नित्यः अस्ति ।भिन्नानि नित्यमूल्यानि ccग भिन्न-भिन्न दीर्घवृत्तानां अनुरूपम् अस्ति ।
एसजीडी इत्यस्य पुनरावर्तनीयः प्रक्षेपवक्रः इष्टतमसमाधानं प्रति (चित्रे हरिततारकेन सूचितः) न अभिसरति, अपितु इष्टतमसमाधानस्य परितः बिन्दुमेघं निर्माति तस्य विपरीतम्, वयं चित्रे 2 एकस्याः विचरण-कमीकरणस्य (VR) पद्धतेः, आकस्मिक-सरासरी-ढालस्य (SAG) पुनरावर्तनीय-प्रक्षेपवक्रं दर्शयामः, तस्यैव नित्य-चरण-आकारस्य उपयोगेन, यस्य परिचयं वयं पश्चात् करिष्यामः अस्मिन् उदाहरणे SGD अभिसरणं कर्तुं असफलतायाः कारणं अस्ति यत् आकस्मिक-ढालः एव शून्यं प्रति अभिसरणं न करोति, अतः, नित्य-चरण-SGD पद्धतिः (5) कदापि न स्थगयतिएतत् ढाल-अवरोह (GD) पद्धतीनां तीक्ष्णविपरीतम् अस्ति, ये स्वाभाविकतया यथा स्थगयन्ति xk x_kxk उपसर्गाः x ∗ x^* ९.x∗,प्रवणता ∇ च ( xk ) नबला च(x_k) .∇च(xk) शून्यं प्रति प्रवृत्तिः भविष्यति।
चित्र 2. नियत-चरण-SGD (वाम) तथा SAG (दक्षिण) पुनरावर्तनीय-विधिनाम् उपयोगेन द्वि-आयामी लॉजिस्टिक-प्रतिगमनस्य कृते स्तर-सेट-प्लॉट्। हरिततारकं x सूचयतिअनबद्धः ।
प्रसंस्करणस्य कारणात् ∇ फि ( xk ) नबला f_i(x_k) .∇चअहम्(xk) मूल्यानां विचरणेन उत्पद्यमानानाम् अ-अभिसरणसमस्यानां कृते अनेकाः शास्त्रीयाः तकनीकाः सन्ति ।यथा, रॉबिन्स्, मोन्रो [६४] च न्यूनतां गच्छन्तीनां सोपानानां श्रृङ्खलां प्रयुञ्जते γ क गमा_क्γk विचरणसमस्यायाः समाधानार्थं, सुनिश्चितं कृत्वा यत् उत्पादः γ k ∇ fik ( xk ) गामा_क नबला f_{i_k}(x_k) .γk∇चअहम्k(xk) शून्यं यावत् अभिसरणं कर्तुं शक्नोति। परन्तु एल्गोरिदम् अतिशीघ्रं वा विलम्बेन वा न स्थगयितुं न्यूनतां गच्छन्तीनां पदानां एतस्य क्रमस्य समायोजनं कठिनसमस्या अस्ति ।
विचरणं न्यूनीकर्तुं अन्यत् शास्त्रीयं तन्त्रं बहुविधस्य उपयोगः अस्ति ∇ फि ( xk ) नबला f_i(x_k) .∇चअहम्(xk) average of पूर्णं ढालं प्राप्तुं ∇ च ( x ) नब्ला च(x) .∇च(x) अधिकं सटीकं अनुमानम्। एषः उपायः लघुसमूहः इति कथ्यते, विशेषतया तदा उपयोगी भवति यदा बहुविध-ढालानां समानान्तरेण मूल्याङ्कनं कर्तुं शक्यते । एतेन रूपस्य पुनरावृत्तिः भवति- १.
xk + 1 = xk − γ 1 ∣ B k ∣ ∑ i ∈ B k ∇ fi ( xk ) ( 7 ) x_{k+1} = x_k - गामा फ्रैक{1}{|B_k|} B_k में योग_{i} नबला च_इ(x_k) चतुर्थ (7) .xk+1=xk−γ∣खk∣1अहम्∈खk∑∇चअहम्(xk)(7)
इत्यस्मिन् B k B_kखk एकः यादृच्छिकः अनुक्रमणिकासमूहः अस्ति, . ∣ ब क ∣ |ब_क|∣खk∣ व्यक्त B k B_kखk आकारस्य ।यदि B k B_kखk प्रतिस्थापनेन सह समानरूपेण नमूनाकरणं कृत्वा, ततः अस्य ढाल-अनुमानस्य विचरणं "बैच-आकारेन" सम्बद्धं भवति । ∣ ब क ∣ |ब_क|∣खk∣ विपरीतरूपेण आनुपातिकं भवति, अतः बैच-आकारं वर्धयित्वा विचरणं न्यूनीकर्तुं शक्यते ।
परन्तु एतादृशानां पुनरावृत्तीनां व्ययः बैच-आकारस्य आनुपातिकः भवति, अतः विचरण-निवृत्तेः एतत् रूपं वर्धित-गणना-व्ययस्य मूल्येन आगच्छति ।
SGD इत्यस्य विचरणं न्यूनीकर्तुं अनुभवजन्यप्रदर्शने सुधारं कर्तुं च अन्यत् सामान्यं रणनीतिं "गतिम्" योजयितुं वर्तते, यत् पूर्वपदेषु प्रयुक्तायाः दिशायाः आधारेण अतिरिक्तं पदं भवति विशेषतः गतियुक्तस्य एसजीडी इत्यस्य रूपं निम्नलिखितम् अस्ति ।
xk + 1 = xk − γ mk ( 9 ) x_{k+1} = x_k - गामा m_k क्वाड (9) .xk+1=xk−γपुk(9)
यत्र गतिमापदण्डः β बीटाβ श्रेण्यां (०, १) स्थितम् ।यदि प्रारम्भिक गतिः म ० = ० म_० = ०पु0=0, विस्तारं च (8) . mk m_kपुk अपडेट् कृते वयं प्राप्नुमः mk m_kपुk पूर्वप्रवणानाम् भारितसरासरी अस्ति : १.
mk = ∑ t = 0 k β k − t ∇ फिट ( xt ) ( 10 ) m_k = sum_{t=0}^{k} बीटा^{kt} नबला f_{i_t}(x_t) क्वाड (10)पुk=त=0∑kβk−त∇चअहम्त(xत)(10)
अतएव, mk m_kपुk आकस्मिकप्रवणतायाः भारितयोगः अस्ति ।यतः ∑ t = 0 k β k − t = 1 − β k + 1 1 − β sum_{t=0}^{k} बीटा^{kt} = फ्रैक{1 - बीटा^{k+1}}{1 - बीटा} २.∑त=0kβk−त=1−β1−βk+1, वयं परिवर्तनं कर्तुं शक्नुमः 1 − β 1 − β kmk frac{1 - बीटा}{1 - बीटा^क} m_k1−βk1−βपुk आकस्मिकप्रवणतायाः भारितसरासरी इति गण्यते ।यदि वयं एतस्य तुलनां सम्पूर्णप्रवणतायाः व्यञ्जनेन सह कुर्मः ∇ च ( xk ) = 1 n ∑ i = 1 n ∇ fi ( xk ) नब्ला f(x_k) = frac{1}{n} sum_{i=1}^{n} नबला f_i(x_k)∇च(xk)=न1∑अहम्=1न∇चअहम्(xk) तुलनां कर्तुं वयं शक्नुमः 1 − β 1 − β kmk frac{1 - बीटा}{1 - बीटा^क} m_k1−βk1−βपुk(अपि च mk m_kपुk ) पूर्णप्रवणतायाः अनुमानरूपेण व्याख्यायते । यद्यपि एषः भारितः योगः विचरणं न्यूनीकरोति तथापि प्रमुखविषयान् अपि उत्थापयति ।यतो हि भारितयोगः (१०) सद्यः नमूनाकृतानां ढालानाम् अधिकं भारं ददाति, अतः सः पूर्णप्रवणतायाः अभिसरणं न करिष्यति ∇ च ( xk ) नबला च(x_k) .∇च(xk) , उत्तरं सरलं औसतम् अस्ति । प्रथमा विचरणनिवृत्तिविधिः वयं खण्डे II-A द्रक्ष्यामः, सा कस्यापि भारितसरासरीयाः स्थाने सरलसरासरीयाः उपयोगेन एतस्याः समस्यायाः समाधानं करोति ।
शास्त्रीयपद्धतीनां विपरीतम् ते प्रत्यक्षतया एकस्य वा अधिकस्य वा उपयोगं कुर्वन्ति ∇ फि ( xk ) नबला f_i(x_k) .∇चअहम्(xk) यथा ∇ च ( xk ) नबला च(x_k) .∇च(xk) सन्निकर्षरूपेण आधुनिकविचरणनिवृत्तिविधयः (VR) भिन्नां रणनीतिं प्रयुञ्जते ।एतेषां पद्धतीनां प्रयोगः भवति ∇ फि ( xk ) नबला f_i(x_k) .∇चअहम्(xk) ढाल-अनुमानं अद्यतनीकर्तुं gk g_kछk, यस्य लक्ष्यं करणं भवति gk g_kछk समीपं गच्छन् ∇ च ( xk ) नबला च(x_k) .∇च(xk) .विशेषतः वयं आशास्महे gk g_kछk तर्पयितुं समर्थः gk ≈ ∇ f ( xk ) g_k लगभग नबला च(x_k) .छk≈∇च(xk) . एतादृशानां ढाल-अनुमानानाम् आधारेण ततः वयं रूपस्य अनुमानितं ढाल-पदं कुर्मः :
xk + 1 = xk − γ gk ( 11 ) x_{k+1} = x_k - गामा g_k क्वाड (11) .xk+1=xk−γछk(11)
अत्र γ > 0 गामा > 0γ>0 चरणस्य आकारस्य मापदण्डः अस्ति ।
नित्यं सोपानप्रमाणस्य उपयोगः भवति इति सुनिश्चित्य γ गाम्माγ यदा पुनरावृत्तिः (11) अभिसरणं कर्तुं शक्नोति तदा अस्माभिः सुनिश्चितं कर्तव्यं यत् ढालस्य अनुमानं भवति gk g_kछk विचरणं शून्यं प्रति प्रवृत्तं भवति । गणितीयदृष्ट्या एतत् यथा व्यक्तं कर्तुं शक्यते- १.
ई [ ∥ gk − ∇ f ( xk ) ∥ 2 ] → 0 as k → ∞ ( 12 ) एलिफ्ट[ | g_k - nabla f(x_k) |^2 right] rightarrow 0 क्वाड पाठ{as } k rightarrow infty quad (12)ई[∥छk−∇च(xk)∥2]→0यथाk→∞(12)
अपेक्षाः अत्र ईईई यावत् एल्गोरिदम् आधारितम् अस्ति क्क्k पुनरावृत्तीनां कृते सर्वे यादृच्छिकचराः गण्यन्ते । गुणः (12) सुनिश्चितं करोति यत् इष्टतमसमाधानं प्राप्ते VR पद्धतिं स्थगयितुं शक्यते। वयम् एतत् गुणं VR-पद्धतेः एकं लक्षणं मन्यामहे अतः VR-गुणं वदामः । ज्ञातव्यं यत् "कमकृतः" विचरणं व्यञ्जनं भ्रामकं भवितुम् अर्हति, यतः वस्तुतः विचरणं शून्यं प्रति प्रवृत्तं भवति । गुणः (12) एकः प्रमुखः कारकः अस्ति यः VR पद्धतीनां सिद्धान्ते (उचित-अनुमानानाम् अन्तर्गतम्) व्यवहारे च (यथा चित्रे 1 दर्शितम्) द्रुततरं अभिसरणं प्राप्तुं सक्षमं करोति
एकः सरलः सुधारविधिः SGD पुनरावर्तनीयसूत्रं (5) चरणस्य आकारं न्यूनीकृत्य अभिसरणं प्राप्तुं शक्नोति, अर्थात् प्रत्येकं ढालस्य अनुवादं कर्तुं विशिष्टा पद्धतिः घटयितुं भवति ∇ फि ( x ∗ ) नबला च_इ(x^*) .∇चअहम्(x∗), एषः विधिः यथा विवक्षितः ।
xk + 1 = xk − γ ( ∇ fik ( xk ) − ∇ fik ( x ∗ ) ) ( 13 ) x_{k+1} = x_k - गामा (नबला f_{i_k}(x_k) - नबला f_{i_k}( x^*)) चतुष्क (13) .xk+1=xk−γ(∇चअहम्k(xk)−∇चअहम्k(x∗))(13)
एषा पद्धतिः SGD2 [22] इति कथ्यते ।यद्यपि वयं प्रायः प्रत्येकं निश्चितरूपेण ज्ञातुं न शक्नुमः ∇ फि ( x ∗ ) नबला च_इ(x^*) .∇चअहम्(x∗) , परन्तु SGD2, उदाहरणरूपेण, विचरणनिवृत्तिपद्धतेः मूलभूतलक्षणं सम्यक् दर्शयितुं शक्नोति ।अपि च, अनेकानि विचरणनिवृत्तिविधयः SGD2 पद्धतेः अनुमानितरूपेण द्रष्टुं शक्यन्ते; ∇ फि ( x ∗ ) नबला च_इ(x^*) .∇चअहम्(x∗), परन्तु तस्य स्थाने एकं विधिं प्रयोजयन्तु यत् अनुमानं कर्तुं शक्नोति ∇ फि ( x ∗ ) नबला च_इ(x^*) .∇चअहम्(x∗) अनुमानित मूल्य।
ज्ञातव्यं यत् SGD2 पूर्ण-ढालस्य निष्पक्ष-अनुमानस्य उपयोगं करोति ।यतः ∇ च ( x ∗ ) = 0 नबला च(x^*) = 0∇च(x∗)=0,च: १.
ई [ ∇ फिक ( xk ) − ∇ fik ( x ∗ ) ] = ∇ च ( xk ) − ∇ च ( x ∗ ) = ∇ च ( xk ) E[nabla f_{i_k}(x_k) - नबला f_{i_k} (x^*)] = नबला च(x_k) - नबला च(x^*) = नबला च(x_k)ई[∇चअहम्k(xk)−∇चअहम्k(x∗)]=∇च(xk)−∇च(x∗)=∇च(xk)
तदतिरिक्तं यदा SGD2 इष्टतमसमाधानं प्राप्नोति तदा स्वाभाविकतया स्थगितम् भविष्यति यतः कस्यापि कृते iiअहम्,अस्ति:
( ∇ fi ( x ) − ∇ fi ( x ∗ ) ) ∣ x = x ∗ = 0 (नबला f_i(x) - नबला f_i(x^*)) bigg|_{x=x^*} = 0(∇चअहम्(x)−∇चअहम्(x∗))
x=x∗=0
अग्रे अवलोकनेन सह xk x_kxk समीपः x ∗ x^* ९.x∗(अनन्तरार्थम् ∇ फि नब्ला च_इ∇चअहम्), SGD2 विचरणनिवृत्तिगुणं (12) तृप्तं करोति यतोहि :
E [ ∥ gk − ∇ f ( xk ) ∥ 2 ] = E [ ∥ ∇ fik ( xk ) − ∇ fik ( x ∗ ) − ∇ f ( xk ) ∥ 2 ] ≤ ई [ ∥ ∇ fik ( xk ) − ∇ fik ( x ∗ ) ∥ 2 ] उन्नत[ | g_k - nabla f(x_k) |^2 right] = \वाम[ | नबला च_{i_k}(x_k) - नबला च_{i_k}(x^*) - नबला च(x_k) |^2 दाहिना] leq Eleft[ | नब्ला च_{इ_क}(x_k) - नब्ला च_{इ_क}(x^*) |^2 सही]ई[∥छk−∇च(xk)∥2]=ई[∥∇चअहम्k(xk)−∇चअहम्k(x∗)−∇च(xk)∥2]≤ई[∥∇चअहम्k(xk)−∇चअहम्k(x∗)∥2]
अत्र वयं लेम्मा २ उपयुञ्ज्महे, अस्तु X = ∇ fik ( xk ) − ∇ fik ( x ∗ ) X = नबला f_{i_k}(x_k) - नबला f_{i_k}(x^*)X=∇चअहम्k(xk)−∇चअहम्k(x∗), लाभं च गृहीतवान् ई [ ∇ fik ( xk ) − ∇ fik ( x ∗ ) ] = ∇ f ( xk ) E[nabla f_{i_k}(x_k) - नबला f_{i_k}(x^*)] = नबला च(x_k)ई[∇चअहम्k(xk)−∇चअहम्k(x∗)]=∇च(xk) प्रकृति। एषः गुणः सूचयति यत् SGD2 इत्यस्य पारम्परिक SGD पद्धतीनां अपेक्षया द्रुततरं अभिसरणवेगः अस्ति, यस्य विवरणं अस्माभिः परिशिष्टे B मध्ये कृतम् अस्ति ।
अस्मिन् खण्डे वयं विचरणनिवृत्ति-विधिविश्लेषणार्थं प्रयुक्तौ मानक-अनुमानौ परिचययिष्यामः, तथा च पारम्परिक-एसजीडी-पद्धत्या सह तुलने एतेषां धारणानां अन्तर्गतं त्वरण-प्रभावस्य चर्चां करिष्यामः प्रथमं वयं कल्पयामः यत् ढालस्य लिप्सिट्ज् निरन्तरता अस्ति, यस्य अर्थः अस्ति यत् ढालस्य परिवर्तनस्य गतिः परिमितः अस्ति ।
कार्यम् इति कल्पयामः ffचभेद्यः अस्ति च एल.एलल- स्निग्ध, सर्वेषां कृते xxx तथा य्य्य् कश्चित् च 0 < L < ∞ 0 < L < infty0<ल<∞,निम्नलिखितानि शर्ताः : १.
∥ ∇ f ( x ) − ∇ f ( y ) ∥ ≤ L ∥ x − y ∥ ( 14 ) |नबला च(x) - नबला च(य)| leq L|x - य| चतुर्धा (१४) २.∥∇च(x)−∇च(य्)∥≤ल∥x−य्∥(14)
प्रत्येकं इति भावः fi : R d → R fi: mathbb{R}^d दक्षिणबाण mathbb{R}चअहम्:आरघ→आर भेद्यः, २. L i L_iलअहम्- स्निग्धं, वयं परिभाषयामः L अधिकतम L_{पाठ{अधिकतम}}लअधिकतमम् कृते max { ल 1 , . . . , L n } अधिकतम{L_1, . . . , ल_न}अधिकतमम्{ल1,...,लन}。
यद्यपि सामान्यतया एषा दुर्बल-अनुमानं मन्यते तथापि अनन्तरं अध्यायेषु वयं VR-विधिनाम् चर्चां करिष्यामः ये अ-सुचारु-समस्यानां कृते उपयुक्ताः सन्ति । द्विगुणविभेद्यस्य एकचरफलनस्य कृते, एल.एलल-स्निग्धता सहजतया अवगन्तुं शक्यते यथा: द्वितीयव्युत्पन्नं इति कल्पयितुं तुल्यम् एल.एलल ऊर्ध्वसीमा इत्यर्थः ∣ च ′ ′ ( x ) ∣ ≤ L |f''(x)| leq L∣च′′(x)∣≤ल सर्वेषां कृते x ∈ R dx in mathbb{R}^dx∈आरघ .बहुचरस्य द्विगुणविभेदनीयकार्यस्य कृते हेस्सियन्-मात्रिकायाः ग्रहणस्य तुल्यम् अस्ति ∇ २ च ( x ) नबला^२ च(x) २.∇2च(x) एकवचनं मूल्यम् एल.एलल ऊर्ध्वसीमा ।
द्वितीया परिकल्पना वयं विचारयामः यत् कार्यं (च) अस्ति μ मुμ-बलवत् उत्तलं, यस्य अर्थः कस्यचित् कृते इति μ > 0 मु > ०μ>0,नियोग x ↦ च ( x ) − μ 2 ∥ x ∥ 2 x mapsto f(x) - frac{mu}{2}|x|^2x↦च(x)−2μ∥x∥2 उत्तलम् अस्ति।अपि च प्रत्येकस्य कृते इ = १ , . . . , नि = १, . . . , नअहम्=1,...,न, fi : R d → R fi: mathbb{R}^d दक्षिणबाण mathbb{R}चअहम्:आरघ→आर उत्तलम् अस्ति।
एषा प्रबलप्रतिपत्तिः ।न्यूनतमवर्गसमस्यायां प्रत्येकं (fi$ उत्तलं भवति, परन्तु समग्रं कार्यं (f) केवलं डिजाइनमात्रिकायां भवति अ : = [ क 1 , . . . , अण् ] अ := [क_१, . . . , एकम्]एकः:=[एकः1,...,एकःन] तस्य पूर्णपङ्क्तिक्रमः भवति चेत् एव सः दृढतया उत्तलः भवति । L2 नियमितीकरणं लॉजिस्टिक रिग्रेशनसमस्या नियमितीकरणपदस्य अस्तित्वस्य कारणेन एतां धारणाम् पूरयति, यत्र μ ≥ λ मु गेक लम्ब्दाμ≥λ。
एतासां धारणानां तृप्तिम् अकुर्वन् समस्यानां एकः महत्त्वपूर्णः वर्गः रूपस्य अनुकूलनसमस्याः सन्ति :
x ∗ ∈ arg min x ∈ R df ( x ) = 1 n ∑ i = 1 n l i ( ai T x ) + λ 2 ∥ x ∥ 2 ( 15 ) x^* in argmin_{x in mathbb{R }^d} f(x) = भग्न{1}{न} योग_{i=1}^{n} ell_i(a_i^Tx) + frac{lambda}{2}|x|^2 क्वाड (15)x∗∈अर्छx∈आरघमिच(x)=न1अहम्=1∑नℓअहम्(एकःअहम्टीx)+2λ∥x∥2(15)
यत्र प्रत्येकं "हानि" कार्यम् l i : R → R ell_i: mathbb{R} दक्षिणबाण mathbb{R}ℓअहम्:आर→आर द्विगुणं भेद्यम्, तस्य द्वितीयं व्युत्पन्नं च ल इ ′ ′ एल्_इ'' ।ℓअहम्′′ 0 तथा च केचन ऊर्ध्वसीमाः प्रतिबन्धितः अस्ति एम.एमम मध्ये। अस्मिन् यन्त्रशिक्षणे L2 नियमितीकरणेन सह विविधानि हानिकार्याणि समाविष्टानि सन्ति, यथा न्यूनतमवर्गाः, लॉजिस्टिकप्रतिगमनं, प्रोबिटप्रतिगमनं, ह्यूबररोबस्टप्रतिगमनम् इत्यादयःएवं सति सर्वेषां कृते iiअहम्,अस्माकं अस्ति L i ≤ M ∥ ai ∥ 2 + λ L_i leq M|a_i|^2 + लम्बदालअहम्≤म∥एकःअहम्∥2+λ तथा μ ≥ λ मु गेक लम्ब्दाμ≥λ。
एतेषां धारणानां अन्तर्गतं ढाल-अवरोहणस्य (GD) पद्धतेः अभिसरण-दरः कण्डिशन्-सङ्ख्यायाः आधारेण निर्धारितः भवति κ : = ल / μ कप्पा := ल/मुκ:=ल/μ निश्चिनोति। कण्डिशन्-सङ्ख्या सर्वदा 1 इत्यस्मात् अधिका वा समाना वा भवति, यदा च 1 इत्यस्मात् महत्त्वपूर्णतया अधिका भवति तदा फंक्शनस्य समोच्चयः अतीव अण्डाकाराः भवन्ति, येन GD पद्धतेः पुनरावृत्तयः दोलनाः भवन्तिप्रत्युत यदा κ कप्पाκ यदा १ इत्यस्य समीपे भवति तदा GD पद्धतिः शीघ्रं अभिसरति ।
धारणा १, २ च अन्तर्गतं वीआर-विधिः रेखीय-दरेन अभिसरणं करोति ।वयं वदामः यत् यादृच्छिकविधेः ({f(x_k)}) फंक्शन् मूल्यं द्वारा दत्तं भवति 0 < ρ ≤ 1 0 < rho leq 10<ρ≤1 रेखीयसमागमस्य गतिः (अपेक्षया), यदि नित्यं विद्यते ग > ० ग > ०ग>0 करोति : १.
ई [ च ( xk ) ] − च ( x ∗ ) ≤ ( 1 − ρ ) k C = O ( exp ( − k ρ ) ) ∀ k ( 16 ) E[f(x_k)] - f(x^* ) leq (1 - rho)^k C = O(exp(-krho)) क्वाड forall k क्वाड (16)ई[च(xk)]−च(x∗)≤(1−ρ)kग=ओ(exp(−kρ))∀k(16)
इदं शास्त्रीय-एसजीडी-पद्धतीनां विपरीतम् अस्ति यत् प्रत्येकस्मिन् पुनरावृत्तौ ढालस्य निष्पक्ष-अनुमानानाम् उपरि एव निर्भरं भवति, ये केवलं एतेषां धारणानां अन्तर्गतं उपरेखीय-दरं प्राप्नुवन्ति:
ई [ च ( xk ) ] − च ( x ∗ ) ≤ O ( 1 / k ) E[f(x_k)] - f(x^*) leq O(1/k)ई[च(xk)]−च(x∗)≤ओ(1/k)
न्यूनतमं यत् एतत् असमानतां पूरयति क्क्k एल्गोरिदम् इत्यस्य पुनरावर्तनीयजटिलता इति कथ्यते । GD, SGD तथा VR पद्धतीनां मूलभूतरूपान्तराणां कृते एकस्य पुनरावृत्तेः पुनरावर्तनीयजटिलता, मूल्यं च निम्नलिखितम् अस्ति ।
अल्गोरिदम | पुनरावृत्तीनां संख्या | एकस्य पुनरावृत्तेः व्ययः |
---|---|---|
जी.डी | ओ ( κ log ( 1 / ε ) ) O(कप्पा log(1/epsilon))ओ(κलोछ(1/ϵ)) | ओ ( न ) ओ(न) .ओ(न) |
एसजीडी | ओ ( κ अधिकतम अधिकतम ( 1 / ε ) ) ओ (कप्पा_{पाठ{अधिकतम}} अधिकतम(1/एप्सिलॉन))ओ(κअधिकतमम्अधिकतमम्(1/ϵ)) | ओ ( १ ) ओ(१) ९.ओ(1) |
वि.आर | ओ ( ( κ max + n ) log ( 1 / ε ) ) O((कप्पा_{पाठ{अधिकतम}} + n) log(1/epsilon))ओ((κअधिकतमम्+न)लोछ(1/ϵ)) | ओ ( १ ) ओ(१) ९.ओ(1) |
एल्गोरिदमस्य कुलचालनसमयः पुनरावृत्तिजटिलतायाः पुनरावृत्तिचालनसमयस्य च उत्पादेन निर्धारितः भवति ।अत्र प्रयुक्तः κ अधिकतम : = अधिकतम i L i / μ कप्पा_{पाठ{अधिकतम}} := अधिकतम_i L_i/muκअधिकतमम्:=अधिकतमम्अहम्लअहम्/μ .सूचना κ अधिकतम ≥ κ कप्पा_{पाठ{अधिकतम}} गेक् कप्पाκअधिकतमम्≥κअतः GD इत्यस्य पुनरावृत्तिजटिलता VR पद्धत्याः अपेक्षया लघु भवति ।
परन्तु यतः GD इत्यस्य प्रतिपुनरावृत्तिः व्ययः VR पद्धतेः एव भवति nnन गुणा, कुलचालनसमयस्य दृष्ट्या VR पद्धतिः श्रेष्ठा भवति ।
शास्त्रीय-एसजीडी-पद्धतीनां लाभः अस्ति यत् तेषां चालनसमयः अभिसरण-दरः च अस्य उपरि न निर्भरं भवति nnन, परन्तु तस्य सहिष्णुता अस्ति ε epsilon इतिϵ इत्यस्य आश्रयः बहु दुर्बलतरः अस्ति, यत् सहिष्णुता अल्पा भवति चेत् एसजीडी इत्यस्य दुर्बलप्रदर्शनं व्याख्यायते ।
परिशिष्ट B मध्ये वयं सरलं प्रमाणं प्रदामः यत् SGD2 पद्धतेः VR पद्धतेः समाना पुनरावर्तनीयजटिलता अस्ति इति दर्शयति।
विचरणनिवृत्ति-विधिनाम् (VR) पद्धतीनां विकासः अनेकपदार्थैः गतः अस्ति, तथा च पद्धतीनां प्रारम्भिकसमूहस्य परिणामेण अभिसरणदरेषु महत्त्वपूर्णतया सुधारः अभवत् अस्याः विधिश्रृङ्खलायाः आरम्भः SAG एल्गोरिदम् अस्ति । तदनन्तरं आकस्मिकद्वयनिर्देशाङ्कारोहण (SDCA) एल्गोरिदम्, MISO एल्गोरिदम्, आकस्मिकविचरणनिवृत्त्यक ढाल (SVRG/S2GD) एल्गोरिदम्, SAGA (अर्थात् "सुधारितः" SAG) एल्गोरिदम् च एकैकस्य पश्चात् बहिः आगताः
अस्मिन् अध्याये वयं एतानि अग्रणी-वीआर-पद्धतीनि समीपतः अवलोकयामः । अध्याये ४ वयं केचन नवीनाः पद्धतयः अन्वेषयिष्यामः ये विशिष्टेषु अनुप्रयोगपरिदृश्येषु एतेषां मूलभूतविधिषु अपेक्षया श्रेष्ठलक्षणं दर्शयन्ति ।
प्रथमविचरणनिवृत्ति (VR) पद्धतेः अस्माकं अन्वेषणं पूर्णढालसंरचनायाः अनुकरणेन आरभ्यते ।यतः पूर्णप्रवणता ∇ च ( x ) नब्ला च(x) .∇च(x) इति सर्वम् ∇ फि ( x ) नब्ला च_इ(x) .∇चअहम्(x) ढालस्य सरलं औसतं, ततः पूर्णप्रवणतायाः अस्माकं अनुमानम् gk g_kछk एतेषां ढाल-अनुमानानाम् अपि औसतं भवेत् । एतेन विचारेण अस्माकं प्रथमा VR पद्धतिः उत्पन्ना: stochastic average gradient (SAG) method इति ।
SAG पद्धतिः [37], [65] प्रारम्भिकवृद्धिगतसमुच्चयप्रवणता (IAG) पद्धतेः यादृच्छिकसंस्करणम् अस्ति [4] । SAG इत्यस्य मूलविचारः अस्ति यत् प्रत्येकस्य दत्तांशबिन्दुस्य कृते iiअहम् अनुमानं निर्वाहयन्तु विक् ≈ ∇ फि ( xk ) v_{ik} लगभग नबला f_i(x_k) .विik≈∇चअहम्(xk) .ततः, एतेषां प्रयोगः विक् वि_{इक}विik मूल्यानां औसतं सम्पूर्णस्य ढालस्य अनुमानरूपेण उपयुज्यते अर्थात् :
g ˉ k = 1 n ∑ j = 1 nvjk ≈ 1 n ∑ j = 1 n ∇ fj ( xk ) = ∇ f ( xk ) ( 18 ) bar{g}_k = frac{1}{n} sum_{j= 1}^{n} v_{jk} approx frac{1}{n} sum_{j=1}^{n} नब्ला f_j(x_k) = नब्ला च(x_k) क्वाड (18)छˉk=न1झ=1∑नविjk≈न1झ=1∑न∇चझ(xk)=∇च(xk)(18)
SAG इत्यस्य प्रत्येकं पुनरावृत्तौ, सेट् तः { १ , ... , न } {१, ल्डोट्स, न} ।{1,…,न} तः एकं अनुक्रमणिकां निष्कासयन्तु इक् इ_क्अहम्k, ततः निम्नलिखितनियमानुसारं अद्यतनं भवति वजक् व_{जक्} ९.विjk:
vjkk + 1 = { ∇ fik ( xk ) , यदि j = ikvjkk , यदि j ≠ इक ( 19 ) v_{jk}^{k+1} ={∇चअहम्k(xk),यदिझ=अहम्kविkझk,यदिझ≠अहम्k चतुर्धा (१९) २.विjkk+1={∇चअहम्k(xk),विjkk,यदिझ=अहम्kयदिझ=अहम्k(19)
तेषु प्रत्येकं व ० इ व_{०इ}वि0अहम् शून्यं वा आरम्भं कर्तुं शक्यते ∇ फि ( x 0 ) नबला च_इ(x_0) .∇चअहम्(x0) अनुमानित मूल्य।समाधानेन सह x ∗ x^* ९.x∗ सन्निकर्षः, प्रत्येकं विक् वि_{इक}विik क्रमेण अभिसृत्य भविष्यति ∇ फि ( x ∗ ) नबला च_इ(x^*) .∇चअहम्(x∗), एवं VR गुणं (12) तृप्तं करोति।
SAG इत्यस्य कुशलतापूर्वकं कार्यान्वयनार्थं अस्माभिः गणनायां ध्यानं दातव्यम् g ˉ k bar{g}_kछˉk प्रतिवारं आद्यतः योगस्य आरम्भं न कर्तुं nnन सदिशः, यतः एतत् nnन यदा महत् भवति तदा व्ययः अधिकः भवति।दिष्ट्या प्रत्येकस्य पुनरावृत्तेः एकमेव भवति इति कारणतः विक् वि_{इक}विik पदाः परिवर्तयिष्यन्ति तथा च अस्माभिः प्रतिवारं सम्पूर्णस्य योगस्य पुनः गणना न कर्तव्या।विशेषतः पुनरावृत्तिकाले तत् कल्पयतु क्क्k सूचकाङ्कात् निष्कासितम् इक् इ_क्अहम्k, तर्हि अस्ति : १.
g ˉ k = 1 n ∑ j = 1 j ≠ iknvjk + 1 nvikk = g ˉ k − 1 − 1 nvikk − 1 + 1 nvikk ( 20 ) bar{g}_k = frac{1}{n} sum_{substack{ j=1 \ j neq i_k}}^{n} v_{jk} + frac{1}{n} v_{i_k}^k = बार{g}_{k-1} - frac{1}{n} v_{i_k}^{k-1} + frac{1}{n} v_{i_k}^k चतुर्थ (20)छˉk=न1झ=1झ=अहम्k∑नविjk+न1विअहम्kk=छˉk−1−न1विअहम्kk−1+न1विअहम्kk(20)
यतः अतिरिक्तं विक् वि_{इ_क्} २.विअहम्k सर्वं व्यतिरिक्तम् वजक् व_{जक्} ९.विjk मूल्यानि सर्वाणि समानानि एव तिष्ठन्ति, वयं केवलं प्रत्येकं संग्रहयामः jjझ अनुरूपः सदिशः वज व_जविझ . एल्गोरिदम् १ SAG पद्धतेः विशिष्टं कार्यान्वयनम् दर्शयति ।
SAG रेखीयसमागमं प्राप्तुं प्रथमा आकस्मिकविधिः अस्ति, तस्य पुनरावृत्तिजटिलता च अस्ति ओ ( ( κ max + n ) log ( 1 / ε ) ) O((कप्पा_{पाठ{अधिकतम}} + n) log(1/epsilon))ओ((κअधिकतमम्+न)लोछ(1/ϵ)), चरणस्य आकारस्य उपयोगेन γ = ओ ( 1 / L max ) गामा = O(1/L_{text{max}})γ=ओ(1/लअधिकतमम्) . एतत् रेखीयसमागमं चित्रे १ द्रष्टुं शक्यते ।ज्ञातव्यं यत् कारणात्... L अधिकतम L_{पाठ{अधिकतम}}लअधिकतमम्-किमपि कृते चिकनी कार्यम् L ′ ≥ L max L' geq L_{पाठ{अधिकतम}}ल′≥लअधिकतमम् अपि ल ′ ल' ।ल′- चिकनी, SAG पद्धतयः पर्याप्तरूपेण लघुचरणस्य आकारस्य कृते रेखीय-अभिसरण-दरं प्राप्नुवन्ति, शास्त्रीय-SGD-पद्धतीनां विपरीतम्, ये केवलं घटमान-चरण-आकारस्य अनुक्रमैः सह उपरेखीय-दरं प्राप्नुवन्ति, येषां व्यवहारे समायोजनं कठिनं भवति
तस्मिन् समये SAG इत्यस्य रेखीय-अभिसरणं महत्त्वपूर्णा उन्नतिः आसीत् यतः प्रत्येकस्मिन् पुनरावृत्तौ केवलं एकं आकस्मिक-ढालम् (एकं दत्तांशबिन्दुं संसाधयन्) गणनां करोति स्म परन्तु श्मिट् इत्यादिभिः [65] प्रदत्तं अभिसरणप्रमाणम् अतीव जटिलं भवति, सङ्गणकसत्यापितपदेषु च निर्भरं भवति । SAG इत्यस्य विश्लेषणं कठिनं भवति इति एकं प्रमुखं कारणं अस्ति यत् gk g_kछk ढालस्य पक्षपातपूर्णः अनुमानः अस्ति ।
तदनन्तरं वयं SAGA पद्धतिं परिचययामः, SAG इत्यस्य एकः प्रकारः यः सहचयनात्मकानां अवधारणायाः शोषणं कृत्वा SAG पद्धतेः निष्पक्षरूपं निर्माति यस्य प्रदर्शनं समानं भवति परन्तु विश्लेषणं सुलभं भवति
एल्गोरिदम 1: SAG विधि
एकः न्यूनीकृतः मूलभूतः निष्पक्षः ढाल-अनुमानः ∇ fik ( xk ) नबला च_{i_k}(x_k) .∇चअहम्k(xk) विचरणपद्धतिः तथाकथितसहचयनात्मकानां, अथवा नियन्त्रणचरानाम् उपयोगेन भवति ।कृते i = 1 , ... , नि = 1, ल्डोट्स, नअहम्=1,…,न,स्थापयति vi ∈ R d v_i in mathbb{R}^dविअहम्∈आरघ सदिशः अस्ति ।एतेषां सदिशानां उपयोगेन वयं पूर्णं ढालं परिवर्तयितुं शक्नुमः ∇ च ( x ) नब्ला च(x) .∇च(x) पुनर्लिखितम् यथा- १.
∇ f ( x ) = 1 n ∑ i = 1 n ( ∇ fi ( x ) − वि + वि ) = 1 n ∑ i = 1 n ∇ fi ( x ) − वि + 1 n ∑ j = 1 nvj nabla f( x) = frac{1}{n} sum_{i=1}^{n}(नबला f_i(x) - v_i + v_i) = frac{1}{n} sum_{i=1}^{n} नबला f_i(x) - v_i + frac{1}{n} योग_{j=1}^{n} v_j∇च(x)=न1अहम्=1∑न(∇चअहम्(x)−विअहम्+विअहम्)=न1अहम्=1∑न∇चअहम्(x)−विअहम्+न1झ=1∑नविझ
: = 1 n ∑ i = 1 n ∇ fi ( x , v ) ( 21 ) := frac{1}{n} sum_{i=1}^{n} नब्ला f_i(x, v) क्वाड (21):=न1अहम्=1∑न∇चअहम्(x,वि)(21)
यत् परिभाषयति ∇ fi ( x , v ) : = ∇ fi ( x ) − vi + 1 n ∑ j = 1 nvj नब्ला f_i(x, v) := नब्ला f_i(x) - v_i + frac{1}{n} sum_{ j=1}^{n} वि_ज∇चअहम्(x,वि):=∇चअहम्(x)−विअहम्+न1∑झ=1नविझ .अधुना, वयं यादृच्छिकरूपेण a sample कर्तुं शक्नुमः ∇ फि ( x , v ) नब्ला f_i(x, v) .∇चअहम्(x,वि) सम्पूर्णं ढालं निर्मातुं ∇ च ( x ) नब्ला च(x) .∇च(x) एक निष्पक्ष अनुमान के i ∈ { 1 , ... , n } इ इत्यत्र {1, ldots, n} .अहम्∈{1,…,न}, भवान् SGD पद्धतिं प्रयोक्तुं शक्नोति तथा च ढाल-अनुमानस्य उपयोगं कर्तुं शक्नोति:
gk = ∇ fik ( xk , v ) = ∇ fik ( xk ) − vik + 1 n ∑ j = 1 nvj ( 22 ) g_k = नबला f_{i_k}(x_k, v) = नबला f_{i_k}(x_k) - . v_{i_k} + frac{1}{n} योग_{j=1}^{n} v_j क्वाड (22)छk=∇चअहम्k(xk,वि)=∇चअहम्k(xk)−विअहम्k+न1झ=1∑नविझ(22)
अवलोकनार्थम् वि व_इविअहम् चयनयुग्मभेदः gk g_kछk प्रभावं, वयं शक्नुमः gk = ∇ fik ( xk , v ) g_k = नबला f_{i_k}(x_k, v) .छk=∇चअहम्k(xk,वि) प्रतिस्थापनं प्रयोगं च कुरुत E i ∼ 1 n [ vi ] = 1 n ∑ j = 1 nvj E_i sim frac{1}{n}[v_i] = frac{1}{n} sum_{j=1}^{n} v_jईअहम्∼न1[विअहम्]=न1∑झ=1नविझ अपेक्षायाः गणनाय वयं प्राप्नुमः :
ई [ ∥ ∇ फि ( xk ) − वि + ई इ ∼ १ न [ वि − ∇ फि ( xk ) ] ∥ २ ] ≤ ई [ ∥ ∇ फि ( xk ) − वि ∥ २ ] ( २३ ) ई वाम[ |नाब्ला f_i(x_k) - v_i + E_i sim frac{1}{n}[v_i - नब्ला f_i(x_k)]|^2 right] leq E left[ |nabla f_i(x_k) - v_i|^2 right] क्वाड (23 ) ९.ई[∥∇चअहम्(xk)−विअहम्+ईअहम्∼न1[विअहम्−∇चअहम्(xk)]∥2]≤ई[∥∇चअहम्(xk)−विअहम्∥2](23)
अत्र लेम्मा २ प्रयुक्तः, यत्र X = ∇ fi ( xk ) − vi X = नबला f_i(x_k) - v_iX=∇चअहम्(xk)−विअहम् .अयं बाध्यः (२३) दर्शयति यत् यदि वि व_इविअहम् सह क्क्k वृद्धिः समीपे अस्ति ∇ फि ( xk ) नबला f_i(x_k) .∇चअहम्(xk) , वयं VR विशेषताः (12) प्राप्तुं शक्नुमः।अत एव वयं आह्वयेम वि व_इविअहम् सहचयनकाः सन्ति, तथा च वयं तान् विचरणं न्यूनीकर्तुं चयनं कर्तुं शक्नुमः ।
यथा, एषः उपायः SGD2 पद्धत्या (13) अपि कार्यान्वितः भवति, यत्र... वि = ∇ फि ( x ∗ ) v_i = नबला च_इ(x^*)विअहम्=∇चअहम्(x∗) .तथापि व्यवहारे एतत् सामान्यतया न प्रयुक्तं यतोहि वयं प्रायः न जानीमः ∇ फि ( x ∗ ) नबला च_इ(x^*) .∇चअहम्(x∗) .अधिकः व्यावहारिकः विकल्पः अस्ति वि व_इविअहम् यथा वयं जानीमः x ˉ i ∈ R d bar{x}_i in mathbb{R}^dxˉअहम्∈आरघ समीपस्थः ढालः ∇ fi ( x ˉ i ) नबला च_इ(बार{x}_i) .∇चअहम्(xˉअहम्) . प्रत्येकं कार्यस्य कृते सागा fi f_iचअहम् सन्दर्भबिन्दुस्य उपयोगं कुर्वन्तु x ˉ i ∈ R d bar{x}_i in mathbb{R}^dxˉअहम्∈आरघ, सहचयनात्मकानां च प्रयोगं कुर्वन्ति वि = ∇ फि ( x ˉ i ) v_i = नबला च_इ(बार{x}_i) .विअहम्=∇चअहम्(xˉअहम्), येषु प्रत्येकं x ˉ इ बार{x}_ixˉअहम् अस्माकं अन्तिममूल्यांकनं भविष्यति fi f_iचअहम् बिन्दु। एतेषां सहचयनानाम् उपयोगेन वयं (22) इत्यस्य अनुसरणं कृत्वा ढाल-अनुमानं निर्मातुम् अर्हति, यत् -
gk = ∇ fik ( xk ) − ∇ fik ( x ˉ ik ) + 1 n ∑ j = 1 n ∇ fj ( x ˉ j ) ( 24 ) g_k = नबला f_{i_k}(x_k) - नबला f_{i_k}( बार{x}_{i_k}) + frac{1}{n} sum_{j=1}^{n} नबला f_j(बार{x}_j) चतुर्थ (24)छk=∇चअहम्k(xk)−∇चअहम्k(xˉअहम्k)+न1झ=1∑न∇चझ(xˉझ)(24)
SAGA इत्यस्य कार्यान्वयनार्थं वयं gradients संग्रहीतुं शक्नुमः ∇ fi ( x ˉ i ) नबला च_इ(बार{x}_i) .∇चअहम्(xˉअहम्) वितरणं nnन सन्दर्भ बिन्दु x ˉ इ बार{x}_ixˉअहम् .कल्पय इत्यर्थः vj = ∇ fj ( x ˉ j ) v_j = नब्ला f_j(बार{x}_j)विझ=∇चझ(xˉझ) कृते j ∈ { 1 , ... , n } j in {1, ldots, n} .झ∈{1,…,न}, प्रत्येकस्मिन् पुनरावृत्तौ वयं SAG इव आकस्मिकं ढालम् अद्यतनीकरोमः वज व_जविझ。
एल्गोरिदम् २ सागा
SAGA पद्धतेः पुनरावृत्तिजटिलता SAG इत्यस्य समाना अस्ति ओ ( ( κ max + n ) log ( 1 / ε ) ) O((कप्पा_{पाठ{अधिकतम}} + n) log(1/epsilon))ओ((κअधिकतमम्+न)लोछ(1/ϵ)), चरणस्य आकारस्य उपयोगेन γ = ओ ( 1 / L max ) गामा = O(1/L_{text{max}})γ=ओ(1/लअधिकतमम्) , परन्तु प्रमाणं बहु सरलतरम् अस्ति।परन्तु SAG इव SAGA पद्धत्या भण्डारणस्य आवश्यकता भवति nnन सहायक सदिश vi ∈ R d v_i in mathbb{R}^dविअहम्∈आरघ कृते i = 1 , ... , नि = 1, ल्डोट्स, नअहम्=1,…,न, यस्य अर्थः आवश्यकता ओ ( न् ) ओ(न् ) .ओ(नघ) भण्डारणस्थानस्य ।कदा द्द्घ तथा nnन यदा उभयम् अपि बृहत् भवति तदा एतत् सम्भवं न भवेत् । अग्रिमे खण्डे वयं नियमितरेखीयप्रतिरूपादिसामान्यप्रतिमानानाम् कृते एतां स्मृतिआवश्यकतां कथं न्यूनीकर्तुं शक्यते इति विस्तरेण वदामः ।
यदा समर्थः भवति nnन यदा स्मृतौ सहायकसदिशद्वयं संगृहीतं भवति तदा SAG तथा SAGA इत्येतयोः व्यवहारः समानरूपेण भवति । यदि एषा स्मृति-आवश्यकता अत्यधिका अस्ति तर्हि SVRG-विधिः, यस्याः समीक्षां वयं अग्रिमे खण्डे करिष्यामः, सा उत्तमः विकल्पः अस्ति । एसवीआरजी पद्धतिः समानं अभिसरणदरं प्राप्नोति तथा च प्रायः व्यवहारे प्रायः तथैव द्रुतं भवति, परन्तु केवलं आवश्यकता भवति ओ ( घ ) ओ(घ) .ओ(घ) स्मृतेः, सामान्यप्रकरणानाम् कृते ।
सागा-पद्धतेः उद्भवात् पूर्वं केषुचित् प्रारम्भिकेषु कार्येषु प्रथमवारं सहचयनात्मकानां परिचयः कृतः यत् सागा-पद्धत्या आवश्यकायाः उच्चस्मृतिसमस्यायाः समाधानं भवति स्मएते अध्ययनाः नियतसन्दर्भबिन्दौ निर्मिताः भवन्ति x ˉ ∈ R d bar{x} in mathbb{R}^dxˉ∈आरघ covariates, वयं तस्मिन् बिन्दौ पूर्ण-ढालस्य गणनां कृतवन्तः ∇ च ( x ˉ ) नब्ला च(बार{x})∇च(xˉ) .सन्दर्भबिन्दून् संग्रह्य x ˉ बार{x}xˉ तथा तदनुरूपं सम्पूर्णं ढालम् ∇ च ( x ˉ ) नब्ला च(बार{x})∇च(xˉ), प्रत्येकं संग्रहणं विना एतत् कर्तुं शक्नुमः ∇ fj ( x ˉ ) नबला f_j(बार{x})∇चझ(xˉ) सति प्रयोगः x ˉ j = x ˉ बार{x}_j = बार{x}xˉझ=xˉ सर्वेभ्यः jjझ अद्यतनं कार्यान्वितुं (24)।विशेषतः, एतेषां सदिशानां संग्रहणस्य स्थाने वयं प्रत्येकस्मिन् पुनरावृत्तौ संगृहीतसन्दर्भबिन्दून् उपयुञ्ज्महे x ˉ बार{x}xˉ गणयितुं ∇ फिक ( x ˉ ) नबला च_{इ_क}(बार{x})∇चअहम्k(xˉ) . एषा पद्धतिः मूलतः भिन्न-भिन्न-लेखकैः भिन्न-भिन्न-नाम्ना प्रस्ताविता, परन्तु पश्चात् [28] तथा [84] इत्येतयोः नामकरणस्य अनुसरणं कृत्वा एस.वी.आर.जी.
वयं एल्गोरिदम् 3 इत्यस्मिन् SVRG पद्धतिं औपचारिकं कुर्मः ।
(23) इत्यस्य उपयोगेन वयं ढाल-अनुमानं व्युत्पादयितुं शक्नुमः gk g_kछk इत्यस्य विचरणं सीमाबद्धम् अस्ति : १.
ई [ ∥ gk − ∇ f ( xk ) ∥ 2 ] ≤ ई [ ∥ ∇ fi ( xk ) − ∇ fi ( x ˉ ) ∥ 2 ] ≤ L अधिकतम 2 ∥ xk − x ˉ ∥ 2 ऊंच[ | g_k - nabla f(x_k) |^2 right] leq Eleft[ | नबला च_इ(x_k) - नबला च_इ(बार{x}) |^2 सही] लेक L_{पाठ{अधिकतम}}^2 | x_k - बार{x} |^2ई[∥छk−∇च(xk)∥2]≤ई[∥∇चअहम्(xk)−∇चअहम्(xˉ)∥2]≤लअधिकतमम्2∥xk−xˉ∥2
यत्र द्वितीया असमानता प्रत्येकं प्रयुङ्क्ते fi f_iचअहम् इत्यस्य L i L_iलअहम्-स्निग्धता।
ज्ञातव्यं यत् सन्दर्भबिन्दुः x ˉ बार{x}xˉ वर्तमानबिन्दुस्य यावत् समीपं भवति xk x_kxk, ढाल-अनुमानस्य विचरणं यावत् लघु भवति ।
SVRG पद्धतिः प्रभावी भवितुम् अस्माभिः सन्दर्भबिन्दून् बहुधा अद्यतनीकरणं करणीयम् x ˉ बार{x}xˉ (तया पूर्णप्रवणतायाः गणना आवश्यकी भवति) न्यूनीकृतविचरणस्य लाभस्य विरुद्धं तौल्यते ।अस्य कारणात् वयं प्रत्येकं त्त प्रत्येकं पुनरावृत्तौ एकवारं सन्दर्भबिन्दुं अद्यतनं कुर्वन्तु यत् तस्य समीपे भवति xk x_kxk (एल्गोरिदम II-C इत्यस्य पङ्क्तिः ११ पश्यन्तु)।अर्थात् SVRG पद्धत्या द्वौ पाशौ स्तः : एकः बाह्यः पाशः ssस, यत्र सन्दर्भप्रवणतायाः गणना भवति ∇ च ( x ˉ s − 1 ) नबला च(बार{x}_{s-1})∇च(xˉस−1)(रेखा ४), तथा च एकः आन्तरिकः पाशः यत्र सन्दर्भबिन्दुः नियतः भवति तथा च आन्तरिकपुनरावृत्तिः आकस्मिक ढालपदस्य आधारेण अद्यतनं भवति (२२) । xk x_kxk(पङ्क्तिः १०) ।
SAG तथा SAGA इत्येतयोः विपरीतम् SVRG इत्यस्य केवलं आवश्यकता भवति ओ ( घ ) ओ(घ) .ओ(घ) स्मृतेः । SVRG इत्यस्य दोषाः सन्ति : १) अस्माकं अतिरिक्तः पैरामीटर् अस्ति त्त, अर्थात् आन्तरिकपाशस्य दीर्घता समायोजितव्या भवति
जॉन्सन्, झाङ्ग् [28] इत्यनेन दर्शितं यत् एसवीआरजी इत्यस्य पुनरावर्तनीयजटिलता अस्ति ओ ( ( κ max + n ) log ( 1 / ε ) ) O((कप्पा_{पाठ{अधिकतम}} + n) log(1/epsilon))ओ((κअधिकतमम्+न)लोछ(1/ϵ)) , SAG तथा SAGA इत्येतयोः सदृशम् ।एषा परिकल्पनान्तर्गतपाशसङ्ख्या त्त संग्रहात् { 1 , ... , m } {1, ldots, m} .{1,…,पु} एकरूपनमूनाकरणस्य परिस्थितौ प्राप्तम्, यत्र L अधिकतम L_{पाठ{अधिकतम}}लअधिकतमम्, μ मुμ, सोपानस्य आकारः γ गाम्माγ तथा त्त तयोः मध्ये केचन आश्रयाः अवश्यं पूरिताः भवेयुः।व्यवहारे प्रयोगेन γ = ओ ( 1 / L max ) गामा = O(1/L_{text{max}})γ=ओ(1/लअधिकतमम्) तथा आन्तरिकपाशदीर्घता त = न्त = नत=न, SVRG उत्तमं प्रदर्शनं कर्तुं प्रवृत्तः भवति, यत् चित्रे 1 वयं यत् सेटिङ्ग् प्रयुक्तवन्तः तत् एव ।
अधुना, मूल SVRG पद्धतेः बहवः विविधताः सन्ति ।यथा, केचन विविधताः उपयुञ्जते त्त वैकल्पिकवितरणं [32], केचन प्रकाराः रूपस्य अनुमतिं ददति ओ ( 1 / L max ) O(1/L_{पाठ{अधिकतम}})ओ(1/लअधिकतमम्) सोपानपरिमाणं [27], [33], [35] ।उपयोगेन केचन विविधताः अपि सन्ति ∇ च ( x ˉ ) नब्ला च(बार{x})∇च(xˉ) एतेषां पूर्ण-ढाल-मूल्यांकनानां व्ययस्य न्यूनीकरणाय लघु-बैच-सन्निकर्षः, तथा च VR-गुणानां संरक्षणाय लघु-बैच-आकारं वर्धयति ।केचन प्रकाराः अपि सन्ति यत्र [५४] इत्यस्य अनुसारं अन्तः पाशस्य मध्ये अद्यतनं पुनरावृत्तिः भवति । gk g_kछk:
[ g_k = नब्ला च_{इ_क}(x_k) - नब्ला च_{इ_क}(x_{k-1}) + ग_{क-1} क्वाड (25) ]
एतेन अधिकं स्थानीयं सन्निकर्षं प्राप्यते । अस्य निरन्तर-अद्यतन-रूपस्य (25) उपयोगेन गैर-उत्तल-कार्यं न्यूनीकर्तुं अद्वितीय-लाभाः दृश्यन्ते, यथा वयं चतुर्थ-खण्डे संक्षेपेण चर्चां कुर्मः ।अन्ते SVRG इत्यस्य लाभं ग्रहीतुं शक्नोति इति ज्ञातव्यम् ∇ च ( x ˉ s ) नबला च(बार{x}_s) .∇च(xˉस) मूल्यं एल्गोरिदम् कदा समाप्तं कर्तव्यमिति निर्णये सहायकं भवति ।
एल्गोरिदम 3 SVRG विधि
SAG तथा SVRG पद्धतीनां एकः दोषः अस्ति यत् तेषां चरणाकारः अज्ञातमूल्यानां उपरि निर्भरं भवति ये केषुचित् समस्यासु अज्ञाताः भवितुम् अर्हन्ति । L अधिकतम L_{पाठ{अधिकतम}}लअधिकतमम् . एसवीआरजी इत्यस्मात् पूर्वं एसडीसीए-पद्धत्या [70], प्रारम्भिक-वीआर-विधिषु अन्यतमत्वेन, समन्वय-अवरोह-विधिषु अनुसन्धानं परिमित-योगसमस्यासु विस्तारितम् एसडीसीए तथा तस्य रूपान्तराणां पृष्ठतः विचारः अस्ति यत् ढालस्य निर्देशांकाः प्राकृतिकं विचरणं न्यूनीकर्तुं ढाल-अनुमानं प्रदास्यन्ति ।विशेषतः, कल्पयतु j ∈ { 1 , ... , d } j in {1, ldots, d} .झ∈{1,…,घ}, परिभाषय च ∇ jf ( x ) : = ( ∂ f ( x ) ∂ xj ) ej nabla_j f(x) := वाम( frac{आंशिक f(x)}{आंशिक x_j} दक्षिण) e_j∇झच(x):=(∂xझ∂च(x))ङझ इति (च(x)) इत्यस्य ठः । jjझ समन्वयदिशि व्युत्पन्नाः, यत्र ej ∈ R d e_j in mathbb{R}^dङझ∈आरघ इति प्रथमम् jjझ इकाई सदिश।समन्वयव्युत्पन्नस्य एकः प्रमुखः गुणः अस्ति यत् ∇ jf ( x ∗ ) = 0 नबला_ज च(x^*) = 0∇झच(x∗)=0, यतः वयं जानीमः ∇ च ( x ∗ ) = 0 नबला च(x^*) = 0∇च(x∗)=0 .प्रत्येकं दत्तांशबिन्दुना सह अस्य व्युत्पन्नम् ∇ fj नब्ला f_j∇चझ भिन्नम्, उत्तरम् x ∗ x^* ९.x∗ शून्यं न स्यात्। अतः अस्माकं कृते : १.
∥ ∇ f ( x ) − ∇ jf ( x ) ∥ 2 → 0 当 x → x ∗ ( 26 ) | nabla f(x) - nabla_j f(x) |^2 दक्षिणबाण 0 चतुर्पाठ पाठ{当} चतुर् x दक्षिणबाण x^* चतुर्थ (26)∥∇च(x)−∇झच(x)∥2→0कदाx→x∗(26)
अस्य अर्थः अस्ति यत् निर्देशांकव्युत्पन्नं विचरणनिवृत्तिगुणं (12) पूरयति ।तदतिरिक्तं वयं उपयोक्तुं शक्नुमः ∇ jf ( x ) नब्ला_ज च(x) .∇झच(x) निर्माणं कर्तुं ∇ च ( x ) नब्ला च(x) .∇च(x) an unbiased estimate of.यथा - कल्पयतु jjझ इति संग्रहात् { १ , ... , घ } {१, ल्डोट्स, घ} ।{1,…,घ} मध्ये एक समानरूपेण यादृच्छिकरूपेण चयनितः अनुक्रमणिका .तेन कस्यचित् कृते i ∈ { 1 , ... , d } i in {1, ldots, d} इति ।अहम्∈{1,…,घ},अस्माकं अस्ति प [ ज = इ ] = १ घ प[ज = इ] = भग्न{1}{ड}पु[झ=अहम्]=घ1 . अतएव, d × ∇ jf ( x ) d गुणा nabla_j f(x) .घ×∇झच(x) आम् ∇ च ( x ) नब्ला च(x) .∇च(x) यतः एकः निष्पक्षः अनुमानः : १.
ई [ d ∇ jf ( x ) ] = d ∑ i = 1 d P [ j = i ] ∂ f ( x ) ∂ xiei = ∑ i = 1 d ∂ f ( x ) ∂ xiei = ∇ f ( x ) Eleft[ d nabla_j f(x) right] = d sum_{i=1}^{d} P[j = i] frac{partial f(x)}{आंशिक x_i} e_i = योग_{i=1}^{d} frac{partial f(x)}{आंशिक x_i} e_i = नब्ला च(x)ई[घ∇झच(x)]=घअहम्=1∑घपु[झ=अहम्]∂xअहम्∂च(x)ङअहम्=अहम्=1∑घ∂xअहम्∂च(x)ङअहम्=∇च(x)
अतएव, ∇ jf ( x ) नब्ला_ज च(x) .∇झच(x) सहचयनात्मकानां उपयोगस्य आवश्यकतां विना, पूर्ण-ढालस्य अनुमानं कृत्वा VR कृते वयं अपेक्षिताः सर्वे आदर्शगुणाः सन्ति । अस्य निर्देशांक-प्रवणतायाः उपयोगस्य एकः दोषः अस्ति यत् अस्माकं योगसमस्यायाः (2) कृते एतत् गणनारूपेण महत् भवति ।यतो हि गणना ∇ jf ( x ) नब्ला_ज च(x) .∇झच(x) सम्पूर्णं दत्तांशसमूहं भ्रमितुं आवश्यकता यतः ∇ jf ( x ) = 1 n ∑ i = 1 n ∇ jfi ( x ) नब्ला_j f(x) = frac{1}{n} sum_{i=1}^{n} नबला_j f_i(x)∇झच(x)=न1∑अहम्=1न∇झचअहम्(x) . अतः निर्देशांकव्युत्पन्नानाम् उपयोगः अस्माकं योगसमस्यायाः संरचनायाः सह असङ्गतः प्रतीयते । परन्तु वयं प्रायः मूलसमस्यां (2) तथाकथितद्वयसूत्रीकरणे पुनः लिखितुं शक्नुमः, यत्र निर्देशांकव्युत्पन्नाः निहितसंरचनायाः शोषणं कर्तुं शक्नुवन्ति
यथा, L2 नियमितस्य रेखीयप्रतिरूपस्य (15) द्वयसूत्रं अस्ति :
v ∗ ∈ arg अधिकतम v ∈ R n 1 n ∑ i = 1 n − l i ∗ ( − vi ) − λ 2 ∥ 1 λ ∑ i = 1 nviai ∥ 2 ( 27 ) v^* in argmax_{v in mathbb{R}^n} frac{1}{n} sum_{i=1}^{n} -ell_i^*(-v_i) - frac{lambda}{2} वाम| frac{1}{लम्बदा} sum_{i=1}^{n} v_i a_i right|^2 quad (27)वि∗∈अर्छवि∈आरनअधिकतमम्न1अहम्=1∑न−ℓअहम्∗(−विअहम्)−2λ
λ1अहम्=1∑नविअहम्एकःअहम्
2(27)
इत्यस्मिन् l i ∗ ( v ) ell_i^*(v) .ℓअहम्∗(वि) आम् ल इ एल_इℓअहम् उत्तल संयुग्मः ।वयं मानचित्रणस्य उपयोगं कर्तुं शक्नुमः x = 1 λ ∑ i = 1 nviaix = frac{1}{लम्ब्दा} योग_{i=1}^{n} v_i a_ix=λ1∑अहम्=1नविअहम्एकःअहम् मूलसमस्यां पुनः स्थापयितुं (१५) . xxx चरः ।समाधानं करिष्यति वि ∗ व^*वि∗ उपर्युक्तस्य मानचित्रणस्य दक्षिणभागे प्रतिस्थापनं कृत्वा (15) इत्यस्य समाधानं प्राप्तुं शक्नुमः । x ∗ x^* ९.x∗。
ध्यानं कुर्वन्तु यत् अस्याः द्वयसमस्यायाः अस्ति nnन वास्तविक चर vi ∈ R v_i in mathbb{R}विअहम्∈आर , प्रत्येकस्य प्रशिक्षणनमूनायाः कृते एकस्य अनुरूपम्।अपि च प्रत्येकं द्वयहानिकार्यम् ल इ ∗ एल्_इ^*ℓअहम्∗ केवलम् वि व_इविअहम् कार्यम् । हानिकार्ये प्रथमं पदं समन्वयेन विच्छेद्यमिति यावत् । निर्देशाङ्केषु एषा पृथक्त्वं द्वितीयपदस्य सरलरूपेण सह मिलित्वा निर्देशाङ्कारोहणविधिं कुशलतया कार्यान्वितुं शक्नोति ।ननु शालेव-श्वर्ट्ज्, झाङ्ग् च दर्शितवन्तौ यत् अस्याः समस्यायाः उपरि समन्वय-आरोहणस्य पुनरावर्तनीयजटिलता SAG, SAGA, SVRG इत्येतयोः सदृशी अस्ति ओ ( ( κ max + n ) log ( 1 / ε ) ) O((कप्पा_{पाठ{अधिकतम}} + n) log(1/epsilon))ओ((κअधिकतमम्+न)लोछ(1/ϵ))。
पुनरावृत्तिव्ययः एल्गोरिदम् संरचना च अतीव समाना अस्ति: अनुसरणं कृत्वा योगः ∑ i = 1 न्वियै योग_{i=1}^{n} v_i a_i∑अहम्=1नविअहम्एकःअहम् (27) इत्यस्मिन् द्वितीयपदं नियन्त्रयितुं प्रत्येकं द्वयसमन्वयारोहणपुनरावृत्तिः केवलं एकं प्रशिक्षणनमूनं विचारयितुं आवश्यकं भवति, तथा च प्रत्येकस्य पुनरावृत्तेः व्ययः समानः भवति यथा nnन न किमपि कर्तव्यम् ।तदतिरिक्तं, वयं 1D रेखासन्धानस्य उपयोगं कर्तुं शक्नुमः यत् यथा अधिकतमं कर्तुं चरणस्य आकारस्य कुशलतापूर्वकं गणनां कर्तुं शक्नुमः वि व_इविअहम् कार्यस्य द्वयात्मकं उद्देश्यम्।विना अपि इत्यर्थः L अधिकतम L_{पाठ{अधिकतम}}लअधिकतमम् अथवा प्रासंगिकमात्रायाः ज्ञानं, VR पद्धतीनां कृते द्रुततरं दुष्टतम-प्रकरणसमयं प्राप्तुं अपि सम्भवति ।
मूलभूतविचरणनिवृत्तिविधिं (VR) कार्यान्वितुं उचितप्रदर्शनं प्राप्तुं च अनेकाः कार्यान्वयनविषयाणि सम्बोधनीयाः । अस्मिन् खण्डे वयं उपरि न आच्छादितानां कतिपयानां विषयाणां चर्चां कुर्मः ।
अनुकूलन-एल्गोरिदम्-क्षेत्रे, विशेषतः भिन्नता-निवृत्ति-विधिषु यथा आकस्मिक-सरासरी-ढाल-(SAG), आकस्मिक-सरासरी-ढाल-अल्गोरिदम् (SAGA) तथा आकस्मिक-ढाल-अल्गोरिदम् (SVRG) इत्यादिषु, चरण-आकारस्य सेटिंग् एकः प्रमुखः विषयः अस्तियद्यपि आकस्मिक-द्वय-निर्देशाङ्क-आरोहण (SDCA) पद्धतेः कृते वयं चरण-आकारं निर्धारयितुं द्वय-उद्देश्यस्य उपयोगं कर्तुं शक्नुमः तथापि SAG, SAGA तथा SVRG इत्येतयोः मूल-चर-विधिनाम् सैद्धान्तिकः आधारः अस्ति यत् चरण-आकारः भवितुम् अर्हति γ = O ( 1 L max ) गामा = ओलेफ्ट(frac{1}{L_{text{max}}}right)γ=ओ(लअधिकतमम्1) आवेदनपत्रं।तथापि व्यावहारिकप्रयोगेषु वयं प्रायः न जानीमः L अधिकतम L_{पाठ{अधिकतम}}लअधिकतमम् , इत्यस्य सटीकं मूल्यं, अन्येषां चरणाकारानाम् उपयोगेन च उत्तमं कार्यं दातुं शक्नोति ।
पूर्ण-ढाल-अवरोह (पूर्ण-GD) पद्धत्या चरण-आकारं सेट् कर्तुं एकः क्लासिक-रणनीतिः आर्मिजो रेखा-अन्वेषणम् अस्ति ।दत्त वर्तमान बिन्दु xk x_kxk तथा अन्वेषणदिशा gk g_kछk, आर्मिजो रेखा अन्वेषण in γ क गमा_क्γk रेखायां निर्वह्यते, या यथा विवक्षितम् γ k ∈ { γ : xk + γ gk } गामा_क in {गामा : x_k + गामा g_k}γk∈{γ:xk+γछk}, तथा च कार्यस्य पर्याप्तं न्यूनीकरणं अपेक्षितम् अर्थात् :
f ( xk + γ kgk ) < f ( xk ) − c γ k ∥ ∇ f ( xk ) ∥ 2 f(x_k + गामा_k g_k) < f(x_k) - c गामा_क |नब्ला च(x_k)|^2च(xk+γkछk)<च(xk)−गγk∥∇च(xk)∥2
परन्तु अस्मिन् दृष्टिकोणे बहुविधाः अभ्यर्थीपदार्थाः आवश्यकाः सन्ति γ क गमा_क्γk गणना च ( xk + γ kgk ) f(x_k + गामा_k g_k) .च(xk+γkछk), यत् मूल्याङ्कयति च ( x ) च(x) .च(x) सम्पूर्णं दत्तांशसमूहं भ्रमितुं यदा आगच्छति तदा व्ययः निषेधात्मकः।
एतस्याः समस्यायाः समाधानार्थं निम्नलिखितशर्ताः पूरयन्तः तान् अन्वेष्टुं यादृच्छिकविविधताविधिः उपयोक्तुं शक्यते γ क गमा_क्γk:
fik ( xk + γ kgk ) < fik ( xk ) − c γ k ∥ ∇ fik ( xk ) ∥ 2 f_{ik}(x_k + गामा_k g_k) < f_{ik}(x_k) - ग गामा_क |नब्ला च_{ik }(x_k)|^2चik(xk+γkछk)<चik(xk)−गγk∥∇चik(xk)∥2
एषः उपायः प्रायः व्यवहारे सम्यक् कार्यं करोति, विशेषतः यदा... ∥ ∇ फ़िक ( xk ) ∥ |नबला f_{ik}(x_k)|∥∇चik(xk)∥ शून्यस्य समीपे न, यद्यपि सम्प्रति अस्य उपायस्य समर्थनार्थं सिद्धान्तः नास्ति ।
तदतिरिक्तं मैराल् इत्यनेन व्यवहारे सोपानस्य आकारस्य निर्धारणाय "बोट्टौ-प्रविधिः" प्रस्ताविता । एषा पद्धतिः दत्तांशसमूहस्य लघुभागं (उदा. ५%) गृहीत्वा द्विचक्रीय-अन्वेषणं करोति यत् अस्मिन् नमूने एकस्मिन् पास-मध्ये इष्टतम-पद-आकारं अन्वेष्टुं प्रयतते आर्मिजो रेखा अन्वेषणस्य सदृशं एषा पद्धतिः प्रायः व्यवहारे उत्तमं प्रदर्शनं करोति, परन्तु पुनः सैद्धान्तिकस्य आधारस्य अभावः अस्ति ।
कृपया ज्ञातव्यं यत् उपर्युक्ता सामग्री मूलपाठस्य पुनः कथनम् अस्ति, गणितीयसूत्राणां चरानाञ्च प्रतिनिधित्वार्थं Markdown प्रारूपस्य उपयोगेन ।
परन्तु एसडीसीए-पद्धतेः केचन दोषाः अपि सन्ति ।प्रथमं तस्य उत्तलसंयुग्मस्य गणना आवश्यकी भवति ल इ ∗ एल्_इ^*ℓअहम्∗ न तु सरलस्य ढालस्य। अस्माकं उत्तलसंयुग्मानां कृते स्वचालितविभेदसमतुल्यः नास्ति, अतः एतेन कार्यान्वयनप्रयत्नः वर्धयितुं शक्यते । अद्यतनकार्यं "द्वयमुक्त" SDCA पद्धतयः प्रस्ताविताः येषां संयुग्मनस्य आवश्यकता नास्ति तथा च तस्य स्थाने प्रत्यक्षतया ढालस्य उपयोगः भवति । परन्तु एतेषु विधिषु सोपानस्य आकारं निर्धारयितुं द्वयलक्ष्यस्य अनुसरणं न सम्भवति ।द्वितीयं यद्यपि SDCA केवलं आवश्यकम् ओ ( न + घ ) ओ(न + घ) .ओ(न+घ) स्मृतिः (15) समस्यायाः समाधानार्थं, परन्तु अस्य समस्यावर्गस्य कृते SAG/SAGA इत्यस्य केवलं आवश्यकता अस्ति ओ ( न + घ ) ओ(न + घ) .ओ(न+घ) स्मृतेः (द्रष्टव्यम् - खण्डः ३) ।SAG/SAGA इत्यनेन सह अधिकसामान्यसमस्यानां कृते उपयुक्तः SDCA इत्यस्य एकः प्रकारः ओ ( न् ) ओ(न् ) .ओ(नघ) स्मृतिः यतः वि व_इविअहम् भवितुं भवति द्द्घ तत्त्वानां सदिशः । एसडीसीए इत्यस्य एकः अन्तिमः सूक्ष्मः दोषः अस्ति यत् सः अन्तर्निहितरूपेण एकं प्रबलं उत्तलतानित्यं गृह्णाति μ मुμ समान λ लम्ब्दाλ .कृते μ मुμ अधिकं λ लम्ब्दाλ समस्या, मूल VR पद्धतिः सामान्यतया SDCA इत्यस्मात् महत्त्वपूर्णतया अधिकं प्रदर्शनं करोति।
एल्गोरिदम् अनुकूलनस्य क्षेत्रे वयं प्रायः पुनरावर्तनीयजटिलतायाः सैद्धान्तिकपरिणामेषु अवलम्ब्य विशिष्टसटीकताम् प्राप्तुं एल्गोरिदमस्य कृते आवश्यकानां पुनरावृत्तीनां दुष्टतम-प्रकरणसङ्ख्यायाः पूर्वानुमानं कुर्मः परन्तु एताः सैद्धान्तिकसीमाः प्रायः केषुचित् नित्येषु अवलम्बन्ते येषां पूर्वानुमानं कर्तुं न शक्नुमः, व्यावहारिकप्रयोगेषु च एल्गोरिदम् प्रायः न्यूनेषु पुनरावृत्तौ अपेक्षितसटीकतां प्राप्तुं शक्नोति अतः अस्माभिः केचन परीक्षणमापदण्डाः स्थापयितव्याः येन एल्गोरिदम् कदा समाप्तिः कर्तव्या इति निर्धारयितुं शक्यते ।
पारम्परिकपूर्ण-ढाल-अवरोह (पूर्ण-GD) पद्धत्या वयं प्रायः ढालस्य मानदण्डस्य उपयोगं कुर्मः ∥ ∇ च ( xk ) ∥ | नबला च(x_k) |∥∇च(xk)∥ अथवा पुनरावृत्तिः कदा स्थगितव्यः इति निर्णयार्थं एतत्सम्बद्धम् अन्यत् किमपि परिमाणम् ।SVRG पद्धतेः कृते वयं समानं मानदण्डं स्वीकुर्वितुं शक्नुमः परन्तु उपयोगं कर्तुं शक्नुमः ∥ ∇ च ( x ˉ s ) ∥ | नबला च(बार{x}_s) |∥∇च(xˉस)∥ न्यायस्य आधारत्वेन ।SAG/SAGA पद्धतेः कृते यद्यपि वयं स्पष्टतया सम्पूर्णस्य ढालस्य गणनां न कुर्मः तथापि $ g_{bar{k}} $ इति परिमाणं क्रमेण अनुमानितं भविष्यति ∇ च ( xk ) नबला च(x_k) .∇च(xk), अतः प्रयोगः ∥ gk ˉ ∥ | ग_{बार{क}} |∥छkˉ∥ यथा स्थगितस्थितिः युक्तियुक्तः अनुमानात्मकः।
SDCA पद्धत्या, केनचित् अतिरिक्तेन रिकार्डिङ्ग् कार्येण सह, वयं अतिरिक्तं असममितव्ययम् न योजयित्वा द्वय उद्देश्यस्य ढालं निरीक्षितुं शक्नुमः ।तदतिरिक्तं, अधिकव्यवस्थितः उपायः द्वैध-अन्तरस्य अनुसरणं स्यात्, यद्यपि एतेन... ओ ( न ) ओ(न) .ओ(न) व्ययः, परन्तु द्वयान्तरप्रमाणैः सह समाप्तिस्थितिः प्रदातुं समर्थः अस्ति । तदतिरिक्तं दृढतया उत्तललक्ष्यस्य इष्टतमतास्थितेः आधारेण MISO पद्धतिः द्विघातनीचसीमाधारितं सिद्धान्तगतपद्धतिं स्वीकुर्वति [४१
निम्नलिखितम् गणितीयसूत्राणि चराः च सन्ति ये Markdown प्रारूपेण व्यक्तानि सन्ति ।
कृपया ज्ञातव्यं यत् उपर्युक्ता सामग्री मूलपाठस्य पुनः कथनम् अस्ति, गणितीयसूत्राणां चरानाञ्च प्रतिनिधित्वार्थं Markdown प्रारूपस्य उपयोगेन ।
यद्यपि Stochastic Variational Gradient Reduction of Gradient (SVRG) एल्गोरिदम् पूर्वविविधतानिवृत्तिविधिनाम् स्मृति-आवश्यकताम् समाप्तं करोति तथापि व्यावहारिक-अनुप्रयोगेषु SAG (Stochastic Average Gradient Descent) तथा SAGA (Stochastic Average Gradient Descent with Gradient Acumulation) एल्गोरिदम् अनेकेषु समस्यासु उपयुज्यते .SVRG एल्गोरिदम् इत्यस्मात् न्यूनानि पुनरावृत्तयः आवश्यकाः भवन्ति ।एतेन एकः विचारः प्रेरितः यत् किं केचन विषयाः सन्ति ये SAG/SAGA इत्यस्य अनुमतिं ददति ओ ( न् ) ओ(न् ) .ओ(नघ) स्मृति-आवश्यकताः अधः कार्यान्विताः सन्ति । अस्मिन् खण्डे रेखीयप्रतिमानानाम् एकं वर्गं अन्वेषितम् अस्ति यस्य कृते स्मृतेः आवश्यकताः महत्त्वपूर्णतया न्यूनीकर्तुं शक्यन्ते ।
रेखीयप्रतिरूपं विचारयन्तु यत्र प्रत्येकं कार्यं भवति fi ( x ) f_i(x) .चअहम्(x) इति व्यज्यते ξ i ( ai ⊤ x ) xi_i(mathbf{a}_i^top x)ξअहम्(एकःअहम्⊤x) .दक्षिणः xxx व्युत्पन्नं ढालरूपं ददाति- १.
∇ fi ( x ) = ξ ′ ( ai ⊤ x ) ऐ नबला f_i(x) = xi'(mathbf{a}_i^top x) mathbf{a}_i∇चअहम्(x)=ξ′(एकःअहम्⊤x)एकःअहम्
अत्र, ξ ′ xi' इति ।ξ′ व्यक्त ξ xiξ इति व्युत्पन्नम् ।अस्माकं eigenvectors इत्यस्य प्रत्यक्षं प्रवेशः अस्ति इति कल्पयित्वा ऐ मथबफ{क}_इएकःअहम्, ततः SAG/SAGA पद्धतिं कार्यान्वितुं केवलं scalar इत्यस्य संग्रहणं करणीयम् ξ ( ऐ ⊤ x ) xi(mathbf{a}_i^top x)ξ(एकःअहम्⊤x) .एवं प्रकारेण स्मृतेः आवश्यकताः तः भिन्नाः भवन्ति ओ ( न् ) ओ(न् ) .ओ(नघ) न्यूनीकृतम् ओ ( न ) ओ(न) .ओ(न) . SVRG एल्गोरिदम् अपि ढालस्य एतस्याः संरचनायाः लाभं ग्रहीतुं शक्नोति: एतत् संग्रह्य nnन scalar, वयं प्रति SVRG "आन्तरिक" पुनरावृत्तिम् आवश्यकानां ढालमूल्यांकनानां संख्यां 1 यावत् न्यूनीकर्तुं शक्नुमः अस्य समस्यावर्गस्य कृते ।
अन्ये प्रकाराः समस्याः सन्ति, यथा संभाव्यतावादी चित्रात्मकप्रतिमानाः, ये स्मृतेः आवश्यकतां न्यूनीकर्तुं सम्भावनां अपि प्रददति [६६] । विशिष्टदत्तांशसंरचनायाः, एल्गोरिदम् अनुकूलनस्य च माध्यमेन रनटाइम् इत्यत्र एल्गोरिदम् इत्यनेन आवश्यकाः स्मृतिसंसाधनाः अधिकं न्यूनीकर्तुं शक्यन्ते ।
निम्नलिखितम् गणितीयसूत्राणि चराः च सन्ति ये Markdown प्रारूपेण व्यक्तानि सन्ति ।
केषुचित् समस्यासु ढालः ∇ फि ( x ) नब्ला च_इ(x) .∇चअहम्(x) शून्यमूल्यानां बहूनां संख्यां भवितुं शक्नोति, यथा विरलविशेषतायुक्तं रेखीयप्रतिरूपम् ।अस्मिन् सन्दर्भे पारम्परिकं स्टोचैस्टिक ढाल-अवरोह (SGD) एल्गोरिदम् कुशलतया कार्यान्वितुं शक्यते, यत्र गणनाजटिलता ढालस्य अशून्यतत्त्वानां संख्यायां रेखीयरूपेण भवति, यत् प्रायः समस्यापरिमाणात् बहु लघु भवति द्द्घ . परन्तु मानकविविधतानिवृत्ति-विधिषु (VR) एतस्य लाभस्य शोषणं न भवति । दिष्ट्या अस्य उन्नयनार्थं द्वौ ज्ञातौ उपायौ स्तः ।
प्रथमं सुधारं श्मिट् इत्यादिभिः प्रस्तावितं, यत् अद्यतनप्रक्रियायाः सरलतायाः लाभं लभते तथा च "उड्डयनेन" गणनायाः एकं रूपं कार्यान्वितं करोति यथा प्रत्येकस्य पुनरावृत्तेः व्ययः शून्यस्य संख्यायाः आनुपातिकः भवति तत्त्वानि ।SAG उदाहरणरूपेण गृहीत्वा (किन्तु एषः उपायः सर्वेषां रूपान्तराणां कृते कार्यं करोति), एतत् प्रत्येकं पुनरावृत्तेः अनन्तरं सम्पूर्णं सदिशं न संग्रह्य क्रियते विक् वि_{इक}विik, परन्तु केवलं अशून्यतत्त्वानां अनुरूपानाम् गणनां करोति विक्ज वि_{इक_ज}विअहम्kझ, अन्तिमवारं सः तत्त्वः अशून्यः आसीत् तस्मात् प्रत्येकं चरं अद्यतनं कृत्वा विक्ज वि_{इक_ज}विअहम्kझ。
द्वितीयं सुधारपद्धतिः लेब्लोण्ड् इत्यादिभिः SAGA कृते प्रस्ताविता, यत् सूत्रं अद्यतनं करोति xk + 1 = xk − γ ( ∇ fik ( xk ) − ∇ fik ( x ˉ ik ) + g ˉ k ) x_{k+1} = x_k - गामा(नबला f_{ik}(x_k) - नबला f_{ik }(बार{x}_{ik}) + बार{g}_k)xk+1=xk−γ(∇चik(xk)−∇चik(xˉik)+छˉk) अतिरिक्त यादृच्छिकता प्रवर्तते। अत्र, ∇ फिक ( xk ) नबला च_{इक}(x_k) .∇चik(xk) तथा ∇ फिक ( x ˉ ik ) नबला च_{इक}(बार{x}_{इक})∇चik(xˉik) विरलः इति च g ˉ k bar{g}_kछˉk सघनम् अस्ति।अस्मिन् विधौ सघनपदम् ( g ˉ k ) j (बार{g}_k)_j(छˉk)झ इत्यस्य प्रत्येकं घटकं प्रतिस्थापितं भवति wj ( g ˉ k ) j w_j (बार{g}_k)_jwझ(छˉk)झ,इत्यस्मिन् w ∈ R dw in mathbb{R}^dw∈आरघ एकः यादृच्छिकः विरलः सदिशः अस्ति यस्य समर्थनसमूहः मध्ये समाविष्टः अस्ति ∇ फिक ( xk ) नबला च_{इक}(x_k) .∇चik(xk) , तथा च सर्वेषां तत्त्वानां १ तुल्ययुक्तः नित्यसदिशः अपेक्षितः । एवं च, अद्यतनप्रक्रिया निष्पक्षः (यद्यपि इदानीं विरलः) एव तिष्ठति, तथा च वर्धितः विचरणः एल्गोरिदमस्य अभिसरणदरं न प्रभावितं करोति । अधिकविवरणं लेब्लोण्ड् इत्यादिभिः प्रदत्तम् अस्ति ।
निम्नलिखितम् गणितीयसूत्राणि चराः च सन्ति ये Markdown प्रारूपेण व्यक्तानि सन्ति ।