प्रौद्योगिकी साझेदारी

[गहनशिक्षण] ग्राफिकल मॉडल मूलभूताः (7): मशीन लर्निंग अनुकूलने विचरणनिवृत्तिविधिः (1)

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

संक्षेपः

आकस्मिक अनुकूलनं यन्त्रशिक्षणस्य महत्त्वपूर्णः घटकः अस्ति, तस्य मूलं च आकस्मिक-ढाल-अवरोह-एल्गोरिदम् (SGD) अस्ति, एषा पद्धतिः ६० वर्षाणाम् अधिककालपूर्वं प्रथमवारं प्रस्तावितायाः अनन्तरं व्यापकरूपेण प्रयुक्ता अस्ति विगत अष्टवर्षेषु वयं एकं रोमाञ्चकं नूतनं विकासं दृष्टवन्तः: आकस्मिक-अनुकूलन-विधिषु विचरण-निवृत्ति-प्रविधयः । एतानि विचरणनिवृत्तिविधयः (VR पद्धतयः) तेषु परिदृश्येषु उत्तमं प्रदर्शनं कुर्वन्ति येषु प्रशिक्षणदत्तांशस्य बहुविधपुनरावृत्तयः अनुमन्यन्ते, सिद्धान्ते व्यवहारे च SGD इत्यस्मात् द्रुततरं अभिसरणं दर्शयन्ति वेगस्य एषा वृद्धिः वी.आर.पद्धतिषु वर्धमानं रुचिं, अस्मिन् क्षेत्रे द्रुतगत्या सञ्चितं शोधनिष्पादनं च प्रकाशयति । अयं लेखः सीमितदत्तांशसमूह अनुकूलनार्थं VR पद्धतीनां प्रमुखसिद्धान्तानां प्रमुखप्रगतीनां च समीक्षां करोति, यस्य उद्देश्यं गैर-विशेषज्ञपाठकान् सूचयितुं भवति । वयं मुख्यतया उत्तल-अनुकूलन-वातावरणेषु केन्द्रीभवन्ति तथा च गैर-उत्तल-कार्यस्य न्यूनतमीकरणाय विस्तारेषु रुचिं विद्यमानानाम् पाठकानां कृते सन्दर्भं प्रदामः ।

मुख्यशब्दाः |.यन्त्रशिक्षणम्;

१ परिचयः

यन्त्रशिक्षणसंशोधनक्षेत्रे एकः मूलभूतः महत्त्वपूर्णः च विषयः अस्ति यत् विशालदत्तांशसमूहे प्रतिरूपस्य अनुकूलनं कथं करणीयम् इति । यथा, रेखीय न्यूनतमवर्गप्रतिरूपस्य विशिष्टं प्रकरणं विचारयितुं शक्नुमः :

x ∗ ∈ arg ⁡ min ⁡ x ∈ R d 1 n ∑ i = 1 n ( ai T x − bi ) 2 x^* in argmin_{x in mathbb{R}^d} frac{1}{n} sum_{ i=1}^{n} (क_इ^T x - b_i)^2xअर्xआरमि1अहम्‌=1(एकःअहम्‌टीxअहम्‌)2

अस्मिन् आदर्शे अस्माकं कृते अस्ति द्द् पैरामीटर्स्, ये सदिशैः प्रतिनिधित्वं कुर्वन्ति x ∈ R dx in mathbb{R}^dxआर प्रदत्त।तावत्पर्यन्तं अस्माकं हस्ते अस्ति nn दत्तांशबिन्दवः, यत्र विशेषतासदिशः अपि सन्ति ai ∈ R d a_i in mathbb{R}^dएकःअहम्‌आर तथा लक्ष्यमूल्यं बि ∈ R b_i in mathbb{R}अहम्‌आर .मॉडलस्य अनुकूलनप्रक्रिया एतान् मापदण्डान् समायोजयितुं भवति येन मॉडलस्य पूर्वानुमानितं उत्पादनं भवति ऐ T x a_i^T xएकःअहम्‌टीx लक्ष्यमूल्यस्य यथासम्भवं समीपे औसतेन बि ब_इअहम्‌

अधिकव्यापकरूपेण वयं हानिकार्यस्य उपयोगं कर्तुं शक्नुमः fi ( x ) f_i(x) .अहम्‌(x) आदर्शपूर्वसूचनानां मापनार्थं तथा च... iiअहम्‌ दत्तांशबिन्दवः कियत् समीपे सन्ति : १.

x ∗ ∈ arg ⁡ min ⁡ x ∈ R df ( x ) : = 1 n ∑ i = 1 nfi ( x ) x^* in argmin_{x in mathbb{R}^d} f(x) := frac{1 }{न} योग_{i=1}^{n} f_i(x)xअर्xआरमि(x):=1अहम्‌=1अहम्‌(x)

हानि कार्य fi ( x ) f_i(x) .अहम्‌(x) यदि बृहत्तरं भवति तर्हि आदर्शस्य पूर्वानुमानं दत्तांशतः बहु विचलितं भवति इति सूचयति; fi ( x ) f_i(x) .अहम्‌(x) शून्यस्य समानं, मॉडल् दत्तांशबिन्दून् सम्यक् उपयुज्यते ।नियोग च ( x ) च(x) .(x) सम्पूर्णे दत्तांशसमूहे मॉडलस्य औसतहानिः प्रतिबिम्बयति ।

उपरिष्टाद् रूपं (2) इत्यादीनि समस्यानि न केवलं रेखीयन्यूनतमवर्गसमस्यासु प्रवर्तन्ते, अपितु यन्त्रशिक्षणे अध्ययनितेषु अन्येषु अनेकेषु प्रतिरूपेषु अपि प्रवर्तन्ते । यथा, लॉजिस्टिक रिग्रेशन मॉडल् मध्ये वयं समाधानं कुर्मः :

x ∗ ∈ arg ⁡ min ⁡ x ∈ R d 1 n ∑ i = 1 n log ⁡ ( 1 + e − biai T x ) + λ 2 ∥ x ∥ 2 2 x^* in argmin_{x in mathbb{R}^ d} frac{1}{n} sum_{i=1}^{n} log(1 + e^{-b_i a_i^T x}) + frac{lambda}{2} |x|_2^2xअर्xआरमि1अहम्‌=1लो(1+अहम्‌एकःअहम्‌टीx)+2λx22

अत्र वयं व्यवहारं कुर्मः bi ∈ { − 1 , + 1 } b_i in {-1, +1} .अहम्‌{1,+1} द्विचक्रीयवर्गीकरणसमस्यायाः कृते पूर्वानुमानं आधारितम् अस्ति ऐ T x a_i^T xएकःअहम्‌टीx प्रतीकाः ।सूत्रे नियमितीकरणपदमपि प्रवर्तते λ 2 ∥ x ∥ 2 2 फ्रैक{लम्ब्डा}{2} |x|_2^22λx22 दत्तांशस्य अतियोग्यतां परिहरितुं, यत्र ∥ x ∥ २ २ |x|_२^२x22 व्यक्त xxx इत्यस्य यूक्लिडियन-मान्यतायाः वर्गः .

अधिकांशेषु पर्यवेक्षितशिक्षणप्रतिरूपेषु प्रशिक्षणप्रक्रियारूपेण (2) रूपेण व्यक्तं कर्तुं शक्यते, यत्र L1 नियमितकृताः न्यूनतमवर्गाः, समर्थनसदिशयन्त्रं (SVM), प्रधानघटकविश्लेषणं, सशर्त यादृच्छिकक्षेत्राणि तथा गहनन्यूरलजालम् इत्यादयः सन्ति

आधुनिकसमस्याप्रसङ्गेषु एकः प्रमुखः आव्हानः दत्तांशबिन्दुसङ्ख्या अस्ति nn सम्भवतः अत्यन्तं विशालः। वयं प्रायः एतादृशैः दत्तांशसमूहैः सह व्यवहारं कुर्मः ये टेराबाइट्-परिधितः दूरं भवन्ति तथा च अन्तर्जालः, उपग्रहाः, दूरस्थसंवेदकाः, वित्तीयविपणयः, वैज्ञानिकप्रयोगाः च इत्यादिभ्यः विविधस्रोतेभ्यः आगन्तुं शक्नुवन्ति एतादृशानां बृहत्दत्तांशसमूहानां निवारणाय एकः सामान्यः उपायः अस्ति यत् स्टोचैस्टिक ग्रेडिएण्ट् डिसेण्ट् (SGD) एल्गोरिदम् इत्यस्य उपयोगः भवति, यः प्रत्येकस्मिन् पुनरावृत्तौ केवलं अल्पसंख्याकानां यादृच्छिकरूपेण चयनितदत्तांशबिन्दून् उपयुज्यते अपि च, अद्यतनकाले विचरण-निवृत्ति- (VR) आकस्मिक-ढाल-विधिषु रुचिः तीव्रवृद्धिः अभवत्, येषु पारम्परिक-आकस्मिक-ढाल-विधिषु अपेक्षया द्रुततर-अभिसरण-दराः सन्ति
अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु
चित्र 1. मशरूम-दत्तांशसमूहस्य आधारेण लॉजिस्टिक-प्रतिगमनसमस्यायाः उपरि [7], ढाल-अवरोहण (GD), त्वरित-ढाल-अवरोहण (AGD, [50] मध्ये त्वरित-GD), आकस्मिक-ढाल-अवरोहण (SGD) तथा ADAM [30 ] पद्धतिः आसीत् विचरणनिवृत्ति-विधिभिः (VR) SAG तथा SVRG इत्यनेन सह तुलने, यत्र n = 8124, d = 112 ।

1.1.ढाल तथा आकस्मिक ढाल अवरोह विधि

ढाल अवरोह (GD) उपर्युक्तसमस्यायाः (2) समाधानार्थं प्रयुक्तः एकः क्लासिकः एल्गोरिदम् अस्ति, तस्य पुनरावर्तनीयं अद्यतनसूत्रं च निम्नलिखितम् अस्ति ।
xk + 1 = xk − γ 1 n ∑ i = 1 n ∇ fi ( xk ) x_{k+1} = x_k - गामा frac{1}{n} sum_{i=1}^{n} नबला f_i(x_k ) ९.xk+1=xkγ1अहम्‌=1अहम्‌(xk)

अत्र, γ गाम्माγ शून्यात् अधिकं नियतपदमूल्यं भवति ।GD एल्गोरिदम् इत्यस्य प्रत्येकं पुनरावृत्तेः समये प्रत्येकं दत्तांशबिन्दुः भवितुमर्हति iiअहम्‌ ढालस्य गणनां कुर्वन्तु ∇ फि ( xk ) नबला f_i(x_k) .अहम्‌(xk), यस्य अर्थः अस्ति यत् GD सर्वान् अपेक्षते nn दत्तांशबिन्दुनाम् सम्पूर्णं भ्रमणं कुर्वन्तु।यदा दत्तांशसमूहस्य आकारः nn यदा अतीव विशालं भवति तदा GD एल्गोरिदम् इत्यस्य प्रत्येकस्य पुनरावृत्तेः व्ययः अतीव अधिकः भवति, अतः तस्य अनुप्रयोगः सीमितः भवति ।

विकल्परूपेण वयं आकस्मिक-ढाल-अवरोह (SGD) पद्धतिं विचारयितुं शक्नुमः, या प्रथमवारं रॉबिन्स्-मोन्रो-योः प्रस्ताविता आसीत्, तस्याः पुनरावर्तनीय-अद्यतन-सूत्रं च निम्नलिखितम् अस्ति ।
xk + 1 = xk − γ ∇ fik ( xk ) x_{k+1} = x_k - गामा नबला f_{i_k}(x_k)xk+1=xkγअहम्‌k(xk)

SGD एल्गोरिदम् प्रत्येकस्मिन् पुनरावृत्तौ केवलं एकस्य यादृच्छिकरूपेण चयनितस्य दत्तांशबिन्दुस्य ढालस्य उपयोगेन कार्यं करोति । ∇ fik ( xk ) नबला च_{i_k}(x_k) .अहम्‌k(xk) प्रत्येकस्य पुनरावृत्तेः व्ययस्य न्यूनीकरणाय । चित्रे १ वयं द्रष्टुं शक्नुमः यत् अनुकूलनप्रक्रियायाः प्रारम्भिकपदेषु एसजीडी जीडी (त्वरितजीडीविधयः च) अपेक्षया अधिका महत्त्वपूर्णा प्रगतिः प्राप्नोतिआलेखः युगानां दृष्ट्या अनुकूलनस्य प्रगतिम् दर्शयति, ये सर्वेषां गणनारूपेण परिभाषिताः सन्ति nn प्रशिक्षणनमूनानां कृते ढालस्य संख्या। GD एल्गोरिदम् प्रत्येकं गोलं एकं पुनरावृत्तिं करोति, यदा तु SGD एल्गोरिदम् प्रत्येकं गोलं एकं पुनरावृत्तिं करोति nn पुनरावृत्तयः ।वयं SGD तथा GD इत्येतयोः तुलनायाः आधाररूपेण गोलानां उपयोगं कुर्मः, यतः कल्पनायाः अन्तर्गतम् nn अत्यन्तं बृहत् सन्दर्भेषु उभयोः पद्धतयोः मुख्यव्ययः ढालस्य मध्ये केन्द्रितः भवति ∇ फि ( xk ) नबला f_i(x_k) .अहम्‌(xk) गणना ।

1.2.विचरणसमस्या

यादृच्छिक अनुक्रमणिकाकरणं विचारयामः इक् इ_क्अहम्‌k संग्रहात् { १ , ... , न } {१, ल्डोट्स, न} ।{1,,} एकरूपयादृच्छिकचयनस्य सन्दर्भे सर्वेषां कृते इति अस्य अर्थः iiअहम्‌,चिनोतु इक् = इ इ_क् = इअहम्‌k=अहम्‌ संभाव्यता प [ इक् = इ ] प[इ_क = इ] ।पु[अहम्‌k=अहम्‌] समान १ न भग्न{१}{न}1 . एवं सति . ∇ fik ( xk ) नबला च_{i_k}(x_k) .अहम्‌k(xk) यथा ∇ च ( xk ) नबला च(x_k) .(xk) इत्यस्य अनुमानकः निष्पक्षः यतः अपेक्षायाः परिभाषया अस्माकं कृते अस्ति :
ई [ ∇ फिक ( xk ) ∣ xk ] = 1 n ∑ i = 1 n ∇ fi ( xk ) = ∇ f ( xk ) ( 6 ) E[nabla f_{i_k}(x_k) | x_k] = frac{1}{n} sum_{i=1}^{n} नब्ला f_i(x_k) = नब्ला च(x_k) क्वाड (6)[अहम्‌k(xk)xk]=1अहम्‌=1अहम्‌(xk)=(xk)(6)

यद्यपि SGD (Stochastic Gradient Descent) पद्धतिः प्रत्येकस्मिन् पुनरावृत्तौ कार्यस्य गारण्टीं न ददाति ff will इत्यस्य मूल्यं न्यूनीभवति, परन्तु समासे ऋणात्मकपूर्णप्रवणतां प्रति गच्छति, यत् अधः दिशं प्रतिनिधियति ।

परन्तु एसजीडी पुनरावृत्तीनां अभिसरणं सुनिश्चित्य निष्पक्षं ढाल-अनुमानकं भवति चेत् पर्याप्तं नास्ति । एतत् बिन्दुं दर्शयितुं चित्रे 2 (वामभागे) LIBSVM [7] द्वारा प्रदत्तस्य चतुःश्रेणीदत्तांशसमूहस्य नित्यं चरणाकारस्य उपयोगेन लॉजिस्टिक रिग्रेशन फंक्शन् प्रयोक्तुं SGD इत्यस्य पुनरावर्तनीयं प्रक्षेपवक्रं दर्शयतिआकृतौ समकेन्द्रितानि दीर्घवृत्तानि कार्यस्य समोच्चं दर्शयन्ति अर्थात् कार्यमूल्यम् च ( x ) = cf(x) = ग(x)= तदनुरूप बिन्दु xxx स्खति, cc वास्तविकसङ्ख्यासमूहे विशिष्टः नित्यः अस्ति ।भिन्नानि नित्यमूल्यानि cc भिन्न-भिन्न दीर्घवृत्तानां अनुरूपम् अस्ति ।

एसजीडी इत्यस्य पुनरावर्तनीयः प्रक्षेपवक्रः इष्टतमसमाधानं प्रति (चित्रे हरिततारकेन सूचितः) न अभिसरति, अपितु इष्टतमसमाधानस्य परितः बिन्दुमेघं निर्माति तस्य विपरीतम्, वयं चित्रे 2 एकस्याः विचरण-कमीकरणस्य (VR) पद्धतेः, आकस्मिक-सरासरी-ढालस्य (SAG) पुनरावर्तनीय-प्रक्षेपवक्रं दर्शयामः, तस्यैव नित्य-चरण-आकारस्य उपयोगेन, यस्य परिचयं वयं पश्चात् करिष्यामः अस्मिन् उदाहरणे SGD अभिसरणं कर्तुं असफलतायाः कारणं अस्ति यत् आकस्मिक-ढालः एव शून्यं प्रति अभिसरणं न करोति, अतः, नित्य-चरण-SGD पद्धतिः (5) कदापि न स्थगयतिएतत् ढाल-अवरोह (GD) पद्धतीनां तीक्ष्णविपरीतम् अस्ति, ये स्वाभाविकतया यथा स्थगयन्ति xk x_kxk उपसर्गाः x ∗ x^* ९.x,प्रवणता ∇ च ( xk ) नबला च(x_k) .(xk) शून्यं प्रति प्रवृत्तिः भविष्यति।
अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु
चित्र 2. नियत-चरण-SGD (वाम) तथा SAG (दक्षिण) पुनरावर्तनीय-विधिनाम् उपयोगेन द्वि-आयामी लॉजिस्टिक-प्रतिगमनस्य कृते स्तर-सेट-प्लॉट्। हरिततारकं x सूचयतिअनबद्धः ।

1.3 शास्त्रीय विचरणनिवृत्तिविधिः

प्रसंस्करणस्य कारणात् ∇ फि ( xk ) नबला f_i(x_k) .अहम्‌(xk) मूल्यानां विचरणेन उत्पद्यमानानाम् अ-अभिसरणसमस्यानां कृते अनेकाः शास्त्रीयाः तकनीकाः सन्ति ।यथा, रॉबिन्स्, मोन्रो [६४] च न्यूनतां गच्छन्तीनां सोपानानां श्रृङ्खलां प्रयुञ्जते γ क गमा_क्γk विचरणसमस्यायाः समाधानार्थं, सुनिश्चितं कृत्वा यत् उत्पादः γ k ∇ fik ( xk ) गामा_क नबला f_{i_k}(x_k) .γkअहम्‌k(xk) शून्यं यावत् अभिसरणं कर्तुं शक्नोति। परन्तु एल्गोरिदम् अतिशीघ्रं वा विलम्बेन वा न स्थगयितुं न्यूनतां गच्छन्तीनां पदानां एतस्य क्रमस्य समायोजनं कठिनसमस्या अस्ति ।

विचरणं न्यूनीकर्तुं अन्यत् शास्त्रीयं तन्त्रं बहुविधस्य उपयोगः अस्ति ∇ फि ( xk ) नबला f_i(x_k) .अहम्‌(xk) average of पूर्णं ढालं प्राप्तुं ∇ च ( x ) नब्ला च(x) .(x) अधिकं सटीकं अनुमानम्। एषः उपायः लघुसमूहः इति कथ्यते, विशेषतया तदा उपयोगी भवति यदा बहुविध-ढालानां समानान्तरेण मूल्याङ्कनं कर्तुं शक्यते । एतेन रूपस्य पुनरावृत्तिः भवति- १.
xk + 1 = xk − γ 1 ∣ B k ∣ ∑ i ∈ B k ∇ fi ( xk ) ( 7 ) x_{k+1} = x_k - गामा फ्रैक{1}{|B_k|} B_k में योग_{i} नबला च_इ(x_k) चतुर्थ (7) .xk+1=xkγk1अहम्‌kअहम्‌(xk)(7)
इत्यस्मिन्‌ B k B_kk एकः यादृच्छिकः अनुक्रमणिकासमूहः अस्ति, . ∣ ब क ∣ |ब_क|k व्यक्त B k B_kk आकारस्य ।यदि B k B_kk प्रतिस्थापनेन सह समानरूपेण नमूनाकरणं कृत्वा, ततः अस्य ढाल-अनुमानस्य विचरणं "बैच-आकारेन" सम्बद्धं भवति । ∣ ब क ∣ |ब_क|k विपरीतरूपेण आनुपातिकं भवति, अतः बैच-आकारं वर्धयित्वा विचरणं न्यूनीकर्तुं शक्यते ।

परन्तु एतादृशानां पुनरावृत्तीनां व्ययः बैच-आकारस्य आनुपातिकः भवति, अतः विचरण-निवृत्तेः एतत् रूपं वर्धित-गणना-व्ययस्य मूल्येन आगच्छति ।

SGD इत्यस्य विचरणं न्यूनीकर्तुं अनुभवजन्यप्रदर्शने सुधारं कर्तुं च अन्यत् सामान्यं रणनीतिं "गतिम्" योजयितुं वर्तते, यत् पूर्वपदेषु प्रयुक्तायाः दिशायाः आधारेण अतिरिक्तं पदं भवति विशेषतः गतियुक्तस्य एसजीडी इत्यस्य रूपं निम्नलिखितम् अस्ति ।
xk + 1 = xk − γ mk ( 9 ) x_{k+1} = x_k - गामा m_k क्वाड (9) .xk+1=xkγपुk(9)
यत्र गतिमापदण्डः β बीटाβ श्रेण्यां (०, १) स्थितम् ।यदि प्रारम्भिक गतिः म ० = ० म_० = ०पु0=0, विस्तारं च (8) . mk m_kपुk अपडेट् कृते वयं प्राप्नुमः mk m_kपुk पूर्वप्रवणानाम् भारितसरासरी अस्ति : १.
mk = ∑ t = 0 k β k − t ∇ फिट ( xt ) ( 10 ) m_k = sum_{t=0}^{k} बीटा^{kt} नबला f_{i_t}(x_t) क्वाड (10)पुk==0kβkअहम्‌(x)(10)
अतएव, mk m_kपुk आकस्मिकप्रवणतायाः भारितयोगः अस्ति ।यतः ∑ t = 0 k β k − t = 1 − β k + 1 1 − β sum_{t=0}^{k} बीटा^{kt} = फ्रैक{1 - बीटा^{k+1}}{1 - बीटा} २.=0kβk=1β1βk+1, वयं परिवर्तनं कर्तुं शक्नुमः 1 − β 1 − β kmk frac{1 - बीटा}{1 - बीटा^क} m_k1βk1βपुk आकस्मिकप्रवणतायाः भारितसरासरी इति गण्यते ।यदि वयं एतस्य तुलनां सम्पूर्णप्रवणतायाः व्यञ्जनेन सह कुर्मः ∇ च ( xk ) = 1 n ∑ i = 1 n ∇ fi ( xk ) नब्ला f(x_k) = frac{1}{n} sum_{i=1}^{n} नबला f_i(x_k)(xk)=1अहम्‌=1अहम्‌(xk) तुलनां कर्तुं वयं शक्नुमः 1 − β 1 − β kmk frac{1 - बीटा}{1 - बीटा^क} m_k1βk1βपुk(अपि च mk m_kपुk ) पूर्णप्रवणतायाः अनुमानरूपेण व्याख्यायते । यद्यपि एषः भारितः योगः विचरणं न्यूनीकरोति तथापि प्रमुखविषयान् अपि उत्थापयति ।यतो हि भारितयोगः (१०) सद्यः नमूनाकृतानां ढालानाम् अधिकं भारं ददाति, अतः सः पूर्णप्रवणतायाः अभिसरणं न करिष्यति ∇ च ( xk ) नबला च(x_k) .(xk) , उत्तरं सरलं औसतम् अस्ति । प्रथमा विचरणनिवृत्तिविधिः वयं खण्डे II-A द्रक्ष्यामः, सा कस्यापि भारितसरासरीयाः स्थाने सरलसरासरीयाः उपयोगेन एतस्याः समस्यायाः समाधानं करोति ।

1.4 आधुनिक विचरणनिवृत्तिविधयः

शास्त्रीयपद्धतीनां विपरीतम् ते प्रत्यक्षतया एकस्य वा अधिकस्य वा उपयोगं कुर्वन्ति ∇ फि ( xk ) नबला f_i(x_k) .अहम्‌(xk) यथा ∇ च ( xk ) नबला च(x_k) .(xk) सन्निकर्षरूपेण आधुनिकविचरणनिवृत्तिविधयः (VR) भिन्नां रणनीतिं प्रयुञ्जते ।एतेषां पद्धतीनां प्रयोगः भवति ∇ फि ( xk ) नबला f_i(x_k) .अहम्‌(xk) ढाल-अनुमानं अद्यतनीकर्तुं gk g_kk, यस्य लक्ष्यं करणं भवति gk g_kk समीपं गच्छन् ∇ च ( xk ) नबला च(x_k) .(xk) .विशेषतः वयं आशास्महे gk g_kk तर्पयितुं समर्थः gk ≈ ∇ f ( xk ) g_k लगभग नबला च(x_k) .k(xk) . एतादृशानां ढाल-अनुमानानाम् आधारेण ततः वयं रूपस्य अनुमानितं ढाल-पदं कुर्मः :
xk + 1 = xk − γ gk ( 11 ) x_{k+1} = x_k - गामा g_k क्वाड (11) .xk+1=xkγk(11)
अत्र γ > 0 गामा > 0γ>0 चरणस्य आकारस्य मापदण्डः अस्ति ।

नित्यं सोपानप्रमाणस्य उपयोगः भवति इति सुनिश्चित्य γ गाम्माγ यदा पुनरावृत्तिः (11) अभिसरणं कर्तुं शक्नोति तदा अस्माभिः सुनिश्चितं कर्तव्यं यत् ढालस्य अनुमानं भवति gk g_kk विचरणं शून्यं प्रति प्रवृत्तं भवति । गणितीयदृष्ट्या एतत् यथा व्यक्तं कर्तुं शक्यते- १.
ई [ ∥ gk − ∇ f ( xk ) ∥ 2 ] → 0 as k → ∞ ( 12 ) एलिफ्ट[ | g_k - nabla f(x_k) |^2 right] rightarrow 0 क्वाड पाठ{as } k rightarrow infty quad (12)[k(xk)2]0यथाk(12)
अपेक्षाः अत्र ईई यावत् एल्गोरिदम् आधारितम् अस्ति क्क्k पुनरावृत्तीनां कृते सर्वे यादृच्छिकचराः गण्यन्ते । गुणः (12) सुनिश्चितं करोति यत् इष्टतमसमाधानं प्राप्ते VR पद्धतिं स्थगयितुं शक्यते। वयम् एतत् गुणं VR-पद्धतेः एकं लक्षणं मन्यामहे अतः VR-गुणं वदामः । ज्ञातव्यं यत् "कमकृतः" विचरणं व्यञ्जनं भ्रामकं भवितुम् अर्हति, यतः वस्तुतः विचरणं शून्यं प्रति प्रवृत्तं भवति । गुणः (12) एकः प्रमुखः कारकः अस्ति यः VR पद्धतीनां सिद्धान्ते (उचित-अनुमानानाम् अन्तर्गतम्) व्यवहारे च (यथा चित्रे 1 दर्शितम्) द्रुततरं अभिसरणं प्राप्तुं सक्षमं करोति

1.5. विचरणनिवृत्तिविधेः प्रथमं उदाहरणम् : SGD2

एकः सरलः सुधारविधिः SGD पुनरावर्तनीयसूत्रं (5) चरणस्य आकारं न्यूनीकृत्य अभिसरणं प्राप्तुं शक्नोति, अर्थात् प्रत्येकं ढालस्य अनुवादं कर्तुं विशिष्टा पद्धतिः घटयितुं भवति ∇ फि ( x ∗ ) नबला च_इ(x^*) .अहम्‌(x), एषः विधिः यथा विवक्षितः ।
xk + 1 = xk − γ ( ∇ fik ( xk ) − ∇ fik ( x ∗ ) ) ( 13 ) x_{k+1} = x_k - गामा (नबला f_{i_k}(x_k) - नबला f_{i_k}( x^*)) चतुष्क (13) .xk+1=xkγ(अहम्‌k(xk)अहम्‌k(x))(13)
एषा पद्धतिः SGD2 [22] इति कथ्यते ।यद्यपि वयं प्रायः प्रत्येकं निश्चितरूपेण ज्ञातुं न शक्नुमः ∇ फि ( x ∗ ) नबला च_इ(x^*) .अहम्‌(x) , परन्तु SGD2, उदाहरणरूपेण, विचरणनिवृत्तिपद्धतेः मूलभूतलक्षणं सम्यक् दर्शयितुं शक्नोति ।अपि च, अनेकानि विचरणनिवृत्तिविधयः SGD2 पद्धतेः अनुमानितरूपेण द्रष्टुं शक्यन्ते; ∇ फि ( x ∗ ) नबला च_इ(x^*) .अहम्‌(x), परन्तु तस्य स्थाने एकं विधिं प्रयोजयन्तु यत् अनुमानं कर्तुं शक्नोति ∇ फि ( x ∗ ) नबला च_इ(x^*) .अहम्‌(x) अनुमानित मूल्य।

ज्ञातव्यं यत् SGD2 पूर्ण-ढालस्य निष्पक्ष-अनुमानस्य उपयोगं करोति ।यतः ∇ च ( x ∗ ) = 0 नबला च(x^*) = 0(x)=0,च: १.
ई [ ∇ फिक ( xk ) − ∇ fik ( x ∗ ) ] = ∇ च ( xk ) − ∇ च ( x ∗ ) = ∇ च ( xk ) E[nabla f_{i_k}(x_k) - नबला f_{i_k} (x^*)] = नबला च(x_k) - नबला च(x^*) = नबला च(x_k)[अहम्‌k(xk)अहम्‌k(x)]=(xk)(x)=(xk)
तदतिरिक्तं यदा SGD2 इष्टतमसमाधानं प्राप्नोति तदा स्वाभाविकतया स्थगितम् भविष्यति यतः कस्यापि कृते iiअहम्‌,अस्ति:
( ∇ fi ( x ) − ∇ fi ( x ∗ ) ) ∣ x = x ∗ = 0 (नबला f_i(x) - नबला f_i(x^*)) bigg|_{x=x^*} = 0(अहम्‌(x)अहम्‌(x)) x=x=0

अग्रे अवलोकनेन सह xk x_kxk समीपः x ∗ x^* ९.x(अनन्तरार्थम् ∇ फि नब्ला च_इअहम्‌), SGD2 विचरणनिवृत्तिगुणं (12) तृप्तं करोति यतोहि :
E [ ∥ gk − ∇ f ( xk ) ∥ 2 ] = E [ ∥ ∇ fik ( xk ) − ∇ fik ( x ∗ ) − ∇ f ( xk ) ∥ 2 ] ≤ ई [ ∥ ∇ fik ( xk ) − ∇ fik ( x ∗ ) ∥ 2 ] उन्नत[ | g_k - nabla f(x_k) |^2 right] = \वाम[ | नबला च_{i_k}(x_k) - नबला च_{i_k}(x^*) - नबला च(x_k) |^2 दाहिना] leq Eleft[ | नब्ला च_{इ_क}(x_k) - नब्ला च_{इ_क}(x^*) |^2 सही][k(xk)2]=[∥∇अहम्‌k(xk)अहम्‌k(x)(xk)2][∥∇अहम्‌k(xk)अहम्‌k(x)2]
अत्र वयं लेम्मा २ उपयुञ्ज्महे, अस्तु X = ∇ fik ( xk ) − ∇ fik ( x ∗ ) X = नबला f_{i_k}(x_k) - नबला f_{i_k}(x^*)X=अहम्‌k(xk)अहम्‌k(x), लाभं च गृहीतवान् ई [ ∇ fik ( xk ) − ∇ fik ( x ∗ ) ] = ∇ f ( xk ) E[nabla f_{i_k}(x_k) - नबला f_{i_k}(x^*)] = नबला च(x_k)[अहम्‌k(xk)अहम्‌k(x)]=(xk) प्रकृति। एषः गुणः सूचयति यत् SGD2 इत्यस्य पारम्परिक SGD पद्धतीनां अपेक्षया द्रुततरं अभिसरणवेगः अस्ति, यस्य विवरणं अस्माभिः परिशिष्टे B मध्ये कृतम् अस्ति ।

1.6.विचरणनिवृत्तिविधिः द्रुतगतिना अभिसरणम्

अस्मिन् खण्डे वयं विचरणनिवृत्ति-विधिविश्लेषणार्थं प्रयुक्तौ मानक-अनुमानौ परिचययिष्यामः, तथा च पारम्परिक-एसजीडी-पद्धत्या सह तुलने एतेषां धारणानां अन्तर्गतं त्वरण-प्रभावस्य चर्चां करिष्यामः प्रथमं वयं कल्पयामः यत् ढालस्य लिप्सिट्ज् निरन्तरता अस्ति, यस्य अर्थः अस्ति यत् ढालस्य परिवर्तनस्य गतिः परिमितः अस्ति ।

धारणा १ (लिप्स्चिट्ज निरन्तरता) २.

कार्यम् इति कल्पयामः ffभेद्यः अस्ति च एल.एल- स्निग्ध, सर्वेषां कृते xxx तथा य्य्य् कश्चित् च 0 &lt; L &lt; ∞ 0 &lt; L &lt; infty0<<,निम्नलिखितानि शर्ताः : १.
∥ ∇ f ( x ) − ∇ f ( y ) ∥ ≤ L ∥ x − y ∥ ( 14 ) |नबला च(x) - नबला च(य)| leq L|x - य| चतुर्धा (१४) २.∥∇(x)(य्)xय्(14)
प्रत्येकं इति भावः fi : R d → R fi: mathbb{R}^d दक्षिणबाण mathbb{R}अहम्‌:आरआर भेद्यः, २. L i L_iअहम्‌- स्निग्धं, वयं परिभाषयामः L अधिकतम L_{पाठ{अधिकतम}}अधिकतमम् कृते max ⁡ { ल 1 , . . . , L n } अधिकतम{L_1, . . . , ल_न}अधिकतमम्{1,...,}

यद्यपि सामान्यतया एषा दुर्बल-अनुमानं मन्यते तथापि अनन्तरं अध्यायेषु वयं VR-विधिनाम् चर्चां करिष्यामः ये अ-सुचारु-समस्यानां कृते उपयुक्ताः सन्ति । द्विगुणविभेद्यस्य एकचरफलनस्य कृते, एल.एल-स्निग्धता सहजतया अवगन्तुं शक्यते यथा: द्वितीयव्युत्पन्नं इति कल्पयितुं तुल्यम् एल.एल ऊर्ध्वसीमा इत्यर्थः ∣ च ′ ′ ( x ) ∣ ≤ L |f''(x)| leq L′′(x) सर्वेषां कृते x ∈ R dx in mathbb{R}^dxआर .बहुचरस्य द्विगुणविभेदनीयकार्यस्य कृते हेस्सियन्-मात्रिकायाः ​​ग्रहणस्य तुल्यम् अस्ति ∇ २ च ( x ) नबला^२ च(x) २.2(x) एकवचनं मूल्यम् एल.एल ऊर्ध्वसीमा ।

कल्पना २ (बलवत् उत्तलता) २.

द्वितीया परिकल्पना वयं विचारयामः यत् कार्यं (च) अस्ति μ मुμ-बलवत् उत्तलं, यस्य अर्थः कस्यचित् कृते इति μ &gt; 0 मु &gt; ०μ>0,नियोग x ↦ च ( x ) − μ 2 ∥ x ∥ 2 x mapsto f(x) - frac{mu}{2}|x|^2x(x)2μx2 उत्तलम् अस्ति।अपि च प्रत्येकस्य कृते इ = १ , . . . , नि = १, . . . , नअहम्‌=1,..., fi : R d → R fi: mathbb{R}^d दक्षिणबाण mathbb{R}अहम्‌:आरआर उत्तलम् अस्ति।

एषा प्रबलप्रतिपत्तिः ।न्यूनतमवर्गसमस्यायां प्रत्येकं (fi$ उत्तलं भवति, परन्तु समग्रं कार्यं (f) केवलं डिजाइनमात्रिकायां भवति अ : = [ क 1 , . . . , अण् ] अ := [क_१, . . . , एकम्‌]एकः:=[एकः1,...,एकः] तस्य पूर्णपङ्क्तिक्रमः भवति चेत् एव सः दृढतया उत्तलः भवति । L2 नियमितीकरणं लॉजिस्टिक रिग्रेशनसमस्या नियमितीकरणपदस्य अस्तित्वस्य कारणेन एतां धारणाम् पूरयति, यत्र μ ≥ λ मु गेक लम्ब्दाμλ

एतासां धारणानां तृप्तिम् अकुर्वन् समस्यानां एकः महत्त्वपूर्णः वर्गः रूपस्य अनुकूलनसमस्याः सन्ति :
x ∗ ∈ arg ⁡ min ⁡ x ∈ R df ( x ) = 1 n ∑ i = 1 n l i ( ai T x ) + λ 2 ∥ x ∥ 2 ( 15 ) x^* in argmin_{x in mathbb{R }^d} f(x) = भग्न{1}{न} योग_{i=1}^{n} ell_i(a_i^Tx) + frac{lambda}{2}|x|^2 क्वाड (15)xअर्xआरमि(x)=1अहम्‌=1अहम्‌(एकःअहम्‌टीx)+2λx2(15)
यत्र प्रत्येकं "हानि" कार्यम् l i : R → R ell_i: mathbb{R} दक्षिणबाण mathbb{R}अहम्‌:आरआर द्विगुणं भेद्यम्, तस्य द्वितीयं व्युत्पन्नं च ल इ ′ ′ एल्_इ'' ।अहम्‌′′ 0 तथा च केचन ऊर्ध्वसीमाः प्रतिबन्धितः अस्ति एम.एम मध्ये। अस्मिन् यन्त्रशिक्षणे L2 नियमितीकरणेन सह विविधानि हानिकार्याणि समाविष्टानि सन्ति, यथा न्यूनतमवर्गाः, लॉजिस्टिकप्रतिगमनं, प्रोबिटप्रतिगमनं, ह्यूबररोबस्टप्रतिगमनम् इत्यादयःएवं सति सर्वेषां कृते iiअहम्‌,अस्माकं अस्ति L i ≤ M ∥ ai ∥ 2 + λ L_i leq M|a_i|^2 + लम्बदाअहम्‌एकःअहम्‌2+λ तथा μ ≥ λ मु गेक लम्ब्दाμλ

एतेषां धारणानां अन्तर्गतं ढाल-अवरोहणस्य (GD) पद्धतेः अभिसरण-दरः कण्डिशन्-सङ्ख्यायाः आधारेण निर्धारितः भवति κ : = ल / μ कप्पा := ल/मुκ:=/μ निश्चिनोति। कण्डिशन्-सङ्ख्या सर्वदा 1 इत्यस्मात् अधिका वा समाना वा भवति, यदा च 1 इत्यस्मात् महत्त्वपूर्णतया अधिका भवति तदा फंक्शनस्य समोच्चयः अतीव अण्डाकाराः भवन्ति, येन GD पद्धतेः पुनरावृत्तयः दोलनाः भवन्तिप्रत्युत यदा κ कप्पाκ यदा १ इत्यस्य समीपे भवति तदा GD पद्धतिः शीघ्रं अभिसरति ।

धारणा १, २ च अन्तर्गतं वीआर-विधिः रेखीय-दरेन अभिसरणं करोति ।वयं वदामः यत् यादृच्छिकविधेः ({f(x_k)}) फंक्शन् मूल्यं द्वारा दत्तं भवति 0 &lt; ρ ≤ 1 0 &lt; rho leq 10<ρ1 रेखीयसमागमस्य गतिः (अपेक्षया), यदि नित्यं विद्यते ग &gt; ० ग &gt; ०>0 करोति : १.
ई [ च ( xk ) ] − च ( x ∗ ) ≤ ( 1 − ρ ) k C = O ( exp ⁡ ( − k ρ ) ) ∀ k ( 16 ) E[f(x_k)] - f(x^* ) leq (1 - rho)^k C = O(exp(-krho)) क्वाड forall k क्वाड (16)[(xk)](x)(1ρ)k=(exp(kρ))k(16)
इदं शास्त्रीय-एसजीडी-पद्धतीनां विपरीतम् अस्ति यत् प्रत्येकस्मिन् पुनरावृत्तौ ढालस्य निष्पक्ष-अनुमानानाम् उपरि एव निर्भरं भवति, ये केवलं एतेषां धारणानां अन्तर्गतं उपरेखीय-दरं प्राप्नुवन्ति:
ई [ च ( xk ) ] − च ( x ∗ ) ≤ O ( 1 / k ) E[f(x_k)] - f(x^*) leq O(1/k)[(xk)](x)(1/k)
न्यूनतमं यत् एतत् असमानतां पूरयति क्क्k एल्गोरिदम् इत्यस्य पुनरावर्तनीयजटिलता इति कथ्यते । GD, SGD तथा VR पद्धतीनां मूलभूतरूपान्तराणां कृते एकस्य पुनरावृत्तेः पुनरावर्तनीयजटिलता, मूल्यं च निम्नलिखितम् अस्ति ।

अल्गोरिदमपुनरावृत्तीनां संख्याएकस्य पुनरावृत्तेः व्ययः
जी.डी ओ ( κ log ⁡ ( 1 / ε ) ) O(कप्पा log(1/epsilon))(κलो(1/ϵ)) ओ ( न ) ओ(न) .()
एसजीडी ओ ( κ अधिकतम अधिकतम ⁡ ( 1 / ε ) ) ओ (कप्पा_{पाठ{अधिकतम}} अधिकतम(1/एप्सिलॉन))(κअधिकतमम्अधिकतमम्(1/ϵ)) ओ ( १ ) ओ(१) ९.(1)
वि.आर ओ ( ( κ max + n ) log ⁡ ( 1 / ε ) ) O((कप्पा_{पाठ{अधिकतम}} + n) log(1/epsilon))((κअधिकतमम्+)लो(1/ϵ)) ओ ( १ ) ओ(१) ९.(1)

एल्गोरिदमस्य कुलचालनसमयः पुनरावृत्तिजटिलतायाः पुनरावृत्तिचालनसमयस्य च उत्पादेन निर्धारितः भवति ।अत्र प्रयुक्तः κ अधिकतम : = अधिकतम ⁡ i L i / μ कप्पा_{पाठ{अधिकतम}} := अधिकतम_i L_i/muκअधिकतमम्:=अधिकतमम्अहम्‌अहम्‌/μ .सूचना κ अधिकतम ≥ κ कप्पा_{पाठ{अधिकतम}} गेक् कप्पाκअधिकतमम्κअतः GD इत्यस्य पुनरावृत्तिजटिलता VR पद्धत्याः अपेक्षया लघु भवति ।

परन्तु यतः GD इत्यस्य प्रतिपुनरावृत्तिः व्ययः VR पद्धतेः एव भवति nn गुणा, कुलचालनसमयस्य दृष्ट्या VR पद्धतिः श्रेष्ठा भवति ।

शास्त्रीय-एसजीडी-पद्धतीनां लाभः अस्ति यत् तेषां चालनसमयः अभिसरण-दरः च अस्य उपरि न निर्भरं भवति nn, परन्तु तस्य सहिष्णुता अस्ति ε epsilon इतिϵ इत्यस्य आश्रयः बहु दुर्बलतरः अस्ति, यत् सहिष्णुता अल्पा भवति चेत् एसजीडी इत्यस्य दुर्बलप्रदर्शनं व्याख्यायते ।

परिशिष्ट B मध्ये वयं सरलं प्रमाणं प्रदामः यत् SGD2 पद्धतेः VR पद्धतेः समाना पुनरावर्तनीयजटिलता अस्ति इति दर्शयति।

2. मूलभूत विचरणनिवृत्तिविधिः

विचरणनिवृत्ति-विधिनाम् (VR) पद्धतीनां विकासः अनेकपदार्थैः गतः अस्ति, तथा च पद्धतीनां प्रारम्भिकसमूहस्य परिणामेण अभिसरणदरेषु महत्त्वपूर्णतया सुधारः अभवत् अस्याः विधिश्रृङ्खलायाः आरम्भः SAG एल्गोरिदम् अस्ति । तदनन्तरं आकस्मिकद्वयनिर्देशाङ्कारोहण (SDCA) एल्गोरिदम्, MISO एल्गोरिदम्, आकस्मिकविचरणनिवृत्त्यक ढाल (SVRG/S2GD) एल्गोरिदम्, SAGA (अर्थात् "सुधारितः" SAG) एल्गोरिदम् च एकैकस्य पश्चात् बहिः आगताः

अस्मिन् अध्याये वयं एतानि अग्रणी-वीआर-पद्धतीनि समीपतः अवलोकयामः । अध्याये ४ वयं केचन नवीनाः पद्धतयः अन्वेषयिष्यामः ये विशिष्टेषु अनुप्रयोगपरिदृश्येषु एतेषां मूलभूतविधिषु अपेक्षया श्रेष्ठलक्षणं दर्शयन्ति ।

2.1. आकस्मिक औसत ढाल विधि (SAG) ।

प्रथमविचरणनिवृत्ति (VR) पद्धतेः अस्माकं अन्वेषणं पूर्णढालसंरचनायाः अनुकरणेन आरभ्यते ।यतः पूर्णप्रवणता ∇ च ( x ) नब्ला च(x) .(x) इति सर्वम् ∇ फि ( x ) नब्ला च_इ(x) .अहम्‌(x) ढालस्य सरलं औसतं, ततः पूर्णप्रवणतायाः अस्माकं अनुमानम् gk g_kk एतेषां ढाल-अनुमानानाम् अपि औसतं भवेत् । एतेन विचारेण अस्माकं प्रथमा VR पद्धतिः उत्पन्ना: stochastic average gradient (SAG) method इति ।

SAG पद्धतिः [37], [65] प्रारम्भिकवृद्धिगतसमुच्चयप्रवणता (IAG) पद्धतेः यादृच्छिकसंस्करणम् अस्ति [4] । SAG इत्यस्य मूलविचारः अस्ति यत् प्रत्येकस्य दत्तांशबिन्दुस्य कृते iiअहम्‌ अनुमानं निर्वाहयन्तु विक् ≈ ∇ फि ( xk ) v_{ik} लगभग नबला f_i(x_k) .विikअहम्‌(xk) .ततः, एतेषां प्रयोगः विक् वि_{इक}विik मूल्यानां औसतं सम्पूर्णस्य ढालस्य अनुमानरूपेण उपयुज्यते अर्थात् :
g ˉ k = 1 n ∑ j = 1 nvjk ≈ 1 n ∑ j = 1 n ∇ fj ( xk ) = ∇ f ( xk ) ( 18 ) bar{g}_k = frac{1}{n} sum_{j= 1}^{n} v_{jk} approx frac{1}{n} sum_{j=1}^{n} नब्ला f_j(x_k) = नब्ला च(x_k) क्वाड (18)ˉk=1=1विjk1=1(xk)=(xk)(18)

SAG इत्यस्य प्रत्येकं पुनरावृत्तौ, सेट् तः { १ , ... , न } {१, ल्डोट्स, न} ।{1,,} तः एकं अनुक्रमणिकां निष्कासयन्तु इक् इ_क्अहम्‌k, ततः निम्नलिखितनियमानुसारं अद्यतनं भवति वजक् व_{जक्} ९.विjk
vjkk + 1 = { ∇ fik ( xk ) , यदि j = ikvjkk , यदि j ≠ इक ( 19 ) v_{jk}^{k+1} ={अहम्‌k(xk),यदि=अहम्‌kविkk,यदिअहम्‌k चतुर्धा (१९) २.विjkk+1={अहम्‌k(xk),विjkk,यदि=अहम्‌kयदि=अहम्‌k(19)
तेषु प्रत्येकं व ० इ व_{०इ}वि0अहम्‌ शून्यं वा आरम्भं कर्तुं शक्यते ∇ फि ( x 0 ) नबला च_इ(x_0) .अहम्‌(x0) अनुमानित मूल्य।समाधानेन सह x ∗ x^* ९.x सन्निकर्षः, प्रत्येकं विक् वि_{इक}विik क्रमेण अभिसृत्य भविष्यति ∇ फि ( x ∗ ) नबला च_इ(x^*) .अहम्‌(x), एवं VR गुणं (12) तृप्तं करोति।

SAG इत्यस्य कुशलतापूर्वकं कार्यान्वयनार्थं अस्माभिः गणनायां ध्यानं दातव्यम् g ˉ k bar{g}_kˉk प्रतिवारं आद्यतः योगस्य आरम्भं न कर्तुं nn सदिशः, यतः एतत् nn यदा महत् भवति तदा व्ययः अधिकः भवति।दिष्ट्या प्रत्येकस्य पुनरावृत्तेः एकमेव भवति इति कारणतः विक् वि_{इक}विik पदाः परिवर्तयिष्यन्ति तथा च अस्माभिः प्रतिवारं सम्पूर्णस्य योगस्य पुनः गणना न कर्तव्या।विशेषतः पुनरावृत्तिकाले तत् कल्पयतु क्क्k सूचकाङ्कात् निष्कासितम् इक् इ_क्अहम्‌k, तर्हि अस्ति : १.
g ˉ k = 1 n ∑ j = 1 j ≠ iknvjk + 1 nvikk = g ˉ k − 1 − 1 nvikk − 1 + 1 nvikk ( 20 ) bar{g}_k = frac{1}{n} sum_{substack{ j=1 \ j neq i_k}}^{n} v_{jk} + frac{1}{n} v_{i_k}^k = बार{g}_{k-1} - frac{1}{n} v_{i_k}^{k-1} + frac{1}{n} v_{i_k}^k चतुर्थ (20)ˉk=1=1=अहम्‌kविjk+1विअहम्‌kk=ˉk11विअहम्‌kk1+1विअहम्‌kk(20)

यतः अतिरिक्तं विक् वि_{इ_क्} २.विअहम्‌k सर्वं व्यतिरिक्तम् वजक् व_{जक्} ९.विjk मूल्यानि सर्वाणि समानानि एव तिष्ठन्ति, वयं केवलं प्रत्येकं संग्रहयामः jj अनुरूपः सदिशः वज व_जवि . एल्गोरिदम् १ SAG पद्धतेः विशिष्टं कार्यान्वयनम् दर्शयति ।

SAG रेखीयसमागमं प्राप्तुं प्रथमा आकस्मिकविधिः अस्ति, तस्य पुनरावृत्तिजटिलता च अस्ति ओ ( ( κ max + n ) log ⁡ ( 1 / ε ) ) O((कप्पा_{पाठ{अधिकतम}} + n) log(1/epsilon))((κअधिकतमम्+)लो(1/ϵ)), चरणस्य आकारस्य उपयोगेन γ = ओ ( 1 / L max ) गामा = O(1/L_{text{max}})γ=(1/अधिकतमम्) . एतत् रेखीयसमागमं चित्रे १ द्रष्टुं शक्यते ।ज्ञातव्यं यत् कारणात्... L अधिकतम L_{पाठ{अधिकतम}}अधिकतमम्-किमपि कृते चिकनी कार्यम् L ′ ≥ L max L' geq L_{पाठ{अधिकतम}}अधिकतमम् अपि ल ′ ल' ।- चिकनी, SAG पद्धतयः पर्याप्तरूपेण लघुचरणस्य आकारस्य कृते रेखीय-अभिसरण-दरं प्राप्नुवन्ति, शास्त्रीय-SGD-पद्धतीनां विपरीतम्, ये केवलं घटमान-चरण-आकारस्य अनुक्रमैः सह उपरेखीय-दरं प्राप्नुवन्ति, येषां व्यवहारे समायोजनं कठिनं भवति

तस्मिन् समये SAG इत्यस्य रेखीय-अभिसरणं महत्त्वपूर्णा उन्नतिः आसीत् यतः प्रत्येकस्मिन् पुनरावृत्तौ केवलं एकं आकस्मिक-ढालम् (एकं दत्तांशबिन्दुं संसाधयन्) गणनां करोति स्म परन्तु श्मिट् इत्यादिभिः [65] प्रदत्तं अभिसरणप्रमाणम् अतीव जटिलं भवति, सङ्गणकसत्यापितपदेषु च निर्भरं भवति । SAG इत्यस्य विश्लेषणं कठिनं भवति इति एकं प्रमुखं कारणं अस्ति यत् gk g_kk ढालस्य पक्षपातपूर्णः अनुमानः अस्ति ।

तदनन्तरं वयं SAGA पद्धतिं परिचययामः, SAG इत्यस्य एकः प्रकारः यः सहचयनात्मकानां अवधारणायाः शोषणं कृत्वा SAG पद्धतेः निष्पक्षरूपं निर्माति यस्य प्रदर्शनं समानं भवति परन्तु विश्लेषणं सुलभं भवति


एल्गोरिदम 1: SAG विधि

  1. मापदण्डः : चरणस्य आकारः γ &gt; 0 गामा &gt; 0γ>0
  2. आरम्भीकरणम् : १. x 0 x_0x0 vi = 0 ∈ R d v_i = 0 in mathbb{R}^dविअहम्‌=0आर कृते i = 1 , ... , नि = 1, ल्डोट्स, नअहम्‌=1,,
  3. दक्षिणः k = 1 , ... , T − 1 k = 1, ldots, T - 1k=1,,टी1 हेति:
    क. यादृच्छिकचयनम् ik ∈ { 1 , ... , n } इ_क इन {1, ldots, n} .अहम्‌k{1,,}
    ख. गणयतु g ˉ k = g ˉ k − 1 − 1 nvikk − 1 bar{g}_k = bar{g}_{k-1} - frac{1}{n} v_{i_k}^{k-1}ˉk=ˉk11विअहम्‌kk1
    ग. अद्यतनम् विक् = ∇ फिक ( xk ) v_{i_k}^k = नबला f_{i_k}(x_k)विअहम्‌kk=अहम्‌k(xk)
    d. ढाल अनुमानं अद्यतनं कुर्वन्तु g ˉ k = g ˉ k + 1 न्विक् बर्{g}_k = बार{g}_k + frac{1}{न} v_{i_k}^kˉk=ˉk+1विअहम्‌kk
    ङ. अद्यतनम् xk + 1 = xk − γ g ˉ k x_{k+1} = x_k - गामा बार{g}_kxk+1=xkγˉk
  4. उत्पादनम् : १. x T x_Txटी

2.2.सागविधिः

एकः न्यूनीकृतः मूलभूतः निष्पक्षः ढाल-अनुमानः ∇ fik ( xk ) नबला च_{i_k}(x_k) .अहम्‌k(xk) विचरणपद्धतिः तथाकथितसहचयनात्मकानां, अथवा नियन्त्रणचरानाम् उपयोगेन भवति ।कृते i = 1 , ... , नि = 1, ल्डोट्स, नअहम्‌=1,,,स्थापयति vi ∈ R d v_i in mathbb{R}^dविअहम्‌आर सदिशः अस्ति ।एतेषां सदिशानां उपयोगेन वयं पूर्णं ढालं परिवर्तयितुं शक्नुमः ∇ च ( x ) नब्ला च(x) .(x) पुनर्लिखितम् यथा- १.
∇ f ( x ) = 1 n ∑ i = 1 n ( ∇ fi ( x ) − वि + वि ) = 1 n ∑ i = 1 n ∇ fi ( x ) − वि + 1 n ∑ j = 1 nvj nabla f( x) = frac{1}{n} sum_{i=1}^{n}(नबला f_i(x) - v_i + v_i) = frac{1}{n} sum_{i=1}^{n} नबला f_i(x) - v_i + frac{1}{n} योग_{j=1}^{n} v_j(x)=1अहम्‌=1(अहम्‌(x)विअहम्‌+विअहम्‌)=1अहम्‌=1अहम्‌(x)विअहम्‌+1=1वि
: = 1 n ∑ i = 1 n ∇ fi ( x , v ) ( 21 ) := frac{1}{n} sum_{i=1}^{n} नब्ला f_i(x, v) क्वाड (21):=1अहम्‌=1अहम्‌(x,वि)(21)
यत् परिभाषयति ∇ fi ( x , v ) : = ∇ fi ( x ) − vi + 1 n ∑ j = 1 nvj नब्ला f_i(x, v) := नब्ला f_i(x) - v_i + frac{1}{n} sum_{ j=1}^{n} वि_जअहम्‌(x,वि):=अहम्‌(x)विअहम्‌+1=1वि .अधुना, वयं यादृच्छिकरूपेण a sample कर्तुं शक्नुमः ∇ फि ( x , v ) नब्ला f_i(x, v) .अहम्‌(x,वि) सम्पूर्णं ढालं निर्मातुं ∇ च ( x ) नब्ला च(x) .(x) एक निष्पक्ष अनुमान के i ∈ { 1 , ... , n } इ इत्यत्र {1, ldots, n} .अहम्‌{1,,}, भवान् SGD पद्धतिं प्रयोक्तुं शक्नोति तथा च ढाल-अनुमानस्य उपयोगं कर्तुं शक्नोति:
gk = ∇ fik ( xk , v ) = ∇ fik ( xk ) − vik + 1 n ∑ j = 1 nvj ( 22 ) g_k = नबला f_{i_k}(x_k, v) = नबला f_{i_k}(x_k) - . v_{i_k} + frac{1}{n} योग_{j=1}^{n} v_j क्वाड (22)k=अहम्‌k(xk,वि)=अहम्‌k(xk)विअहम्‌k+1=1वि(22)

अवलोकनार्थम् वि व_इविअहम्‌ चयनयुग्मभेदः gk g_kk प्रभावं, वयं शक्नुमः gk = ∇ fik ( xk , v ) g_k = नबला f_{i_k}(x_k, v) .k=अहम्‌k(xk,वि) प्रतिस्थापनं प्रयोगं च कुरुत E i ∼ 1 n [ vi ] = 1 n ∑ j = 1 nvj E_i sim frac{1}{n}[v_i] = frac{1}{n} sum_{j=1}^{n} v_jअहम्‌1[विअहम्‌]=1=1वि अपेक्षायाः गणनाय वयं प्राप्नुमः :
ई [ ∥ ∇ फि ( xk ) − वि + ई इ ∼ १ न [ वि − ∇ फि ( xk ) ] ∥ २ ] ≤ ई [ ∥ ∇ फि ( xk ) − वि ∥ २ ] ( २३ ) ई वाम[ |नाब्ला f_i(x_k) - v_i + E_i sim frac{1}{n}[v_i - नब्ला f_i(x_k)]|^2 right] leq E left[ |nabla f_i(x_k) - v_i|^2 right] क्वाड (23 ) ९.[∥∇अहम्‌(xk)विअहम्‌+अहम्‌1[विअहम्‌अहम्‌(xk)]2][∥∇अहम्‌(xk)विअहम्‌2](23)
अत्र लेम्मा २ प्रयुक्तः, यत्र X = ∇ fi ( xk ) − vi X = नबला f_i(x_k) - v_iX=अहम्‌(xk)विअहम्‌ .अयं बाध्यः (२३) दर्शयति यत् यदि वि व_इविअहम्‌ सह क्क्k वृद्धिः समीपे अस्ति ∇ फि ( xk ) नबला f_i(x_k) .अहम्‌(xk) , वयं VR विशेषताः (12) प्राप्तुं शक्नुमः।अत एव वयं आह्वयेम वि व_इविअहम्‌ सहचयनकाः सन्ति, तथा च वयं तान् विचरणं न्यूनीकर्तुं चयनं कर्तुं शक्नुमः ।

यथा, एषः उपायः SGD2 पद्धत्या (13) अपि कार्यान्वितः भवति, यत्र... वि = ∇ फि ( x ∗ ) v_i = नबला च_इ(x^*)विअहम्‌=अहम्‌(x) .तथापि व्यवहारे एतत् सामान्यतया न प्रयुक्तं यतोहि वयं प्रायः न जानीमः ∇ फि ( x ∗ ) नबला च_इ(x^*) .अहम्‌(x) .अधिकः व्यावहारिकः विकल्पः अस्ति वि व_इविअहम्‌ यथा वयं जानीमः x ˉ i ∈ R d bar{x}_i in mathbb{R}^dxˉअहम्‌आर समीपस्थः ढालः ∇ fi ( x ˉ i ) नबला च_इ(बार{x}_i) .अहम्‌(xˉअहम्‌) . प्रत्येकं कार्यस्य कृते सागा fi f_iअहम्‌ सन्दर्भबिन्दुस्य उपयोगं कुर्वन्तु x ˉ i ∈ R d bar{x}_i in mathbb{R}^dxˉअहम्‌आर, सहचयनात्मकानां च प्रयोगं कुर्वन्ति वि = ∇ फि ( x ˉ i ) v_i = नबला च_इ(बार{x}_i) .विअहम्‌=अहम्‌(xˉअहम्‌), येषु प्रत्येकं x ˉ इ बार{x}_ixˉअहम्‌ अस्माकं अन्तिममूल्यांकनं भविष्यति fi f_iअहम्‌ बिन्दु। एतेषां सहचयनानाम् उपयोगेन वयं (22) इत्यस्य अनुसरणं कृत्वा ढाल-अनुमानं निर्मातुम् अर्हति, यत् -
gk = ∇ fik ( xk ) − ∇ fik ( x ˉ ik ) + 1 n ∑ j = 1 n ∇ fj ( x ˉ j ) ( 24 ) g_k = नबला f_{i_k}(x_k) - नबला f_{i_k}( बार{x}_{i_k}) + frac{1}{n} sum_{j=1}^{n} नबला f_j(बार{x}_j) चतुर्थ (24)k=अहम्‌k(xk)अहम्‌k(xˉअहम्‌k)+1=1(xˉ)(24)

SAGA इत्यस्य कार्यान्वयनार्थं वयं gradients संग्रहीतुं शक्नुमः ∇ fi ( x ˉ i ) नबला च_इ(बार{x}_i) .अहम्‌(xˉअहम्‌) वितरणं nn सन्दर्भ बिन्दु x ˉ इ बार{x}_ixˉअहम्‌ .कल्पय इत्यर्थः vj = ∇ fj ( x ˉ j ) v_j = नब्ला f_j(बार{x}_j)वि=(xˉ) कृते j ∈ { 1 , ... , n } j in {1, ldots, n} .{1,,}, प्रत्येकस्मिन् पुनरावृत्तौ वयं SAG इव आकस्मिकं ढालम् अद्यतनीकरोमः वज व_जवि

एल्गोरिदम् २ सागा

  1. मापदण्डः : चरणस्य आकारः γ &gt; 0 गामा &gt; 0γ>0
  2. आरम्भीकरणम् : १. x 0 x_0x0 vi = 0 ∈ R d v_i = 0 in mathbb{R}^dविअहम्‌=0आर कृते i = 1 , ... , नि = 1, ल्डोट्स, नअहम्‌=1,,
  3. निर्वहणम्‌ k = 1 , ... , T − 1 k = 1, ldots, T - 1k=1,,टी1 पुनरावृत्तयः : १.
    क. यादृच्छिकचयनम् ik ∈ { 1 , ... , n } इ_क इन {1, ldots, n} .अहम्‌k{1,,}
    ख. पुरातनं मूल्यं रक्षतु वि पुरातन = विक् वि_{पाठ{पुराण}} = व_{इ_क}विवृद्धः=विअहम्‌k
    ग. अद्यतनम् विक् = ∇ फिक ( xk ) v_{i_k} = नबला f_{i_k}(x_k) .विअहम्‌k=अहम्‌k(xk)
    घ. अद्यतनम् xk + 1 = xk − γ ( vik − v old + g ˉ k ) x_{k+1} = x_k - गामा (v_{i_k} - v_{text{old}} + bar{g}_k)xk+1=xkγ(विअहम्‌kविवृद्धः+ˉk)
    ङ. ढाल अनुमानं अद्यतनं कुर्वन्तु g ˉ k = g ˉ k − 1 + 1 n ( vik − v old ) bar{g}_k = bar{g}_{k-1} + frac{1}{n} (v_{i_k} - v_{ पाठ{पुराण}}) २.ˉk=ˉk1+1(विअहम्‌kविवृद्धः)
  4. उत्पादनम् : १. x T x_Txटी

SAGA पद्धतेः पुनरावृत्तिजटिलता SAG इत्यस्य समाना अस्ति ओ ( ( κ max + n ) log ⁡ ( 1 / ε ) ) O((कप्पा_{पाठ{अधिकतम}} + n) log(1/epsilon))((κअधिकतमम्+)लो(1/ϵ)), चरणस्य आकारस्य उपयोगेन γ = ओ ( 1 / L max ) गामा = O(1/L_{text{max}})γ=(1/अधिकतमम्) , परन्तु प्रमाणं बहु सरलतरम् अस्ति।परन्तु SAG इव SAGA पद्धत्या भण्डारणस्य आवश्यकता भवति nn सहायक सदिश vi ∈ R d v_i in mathbb{R}^dविअहम्‌आर कृते i = 1 , ... , नि = 1, ल्डोट्स, नअहम्‌=1,,, यस्य अर्थः आवश्यकता ओ ( न् ) ओ(न् ) .() भण्डारणस्थानस्य ।कदा द्द् तथा nn यदा उभयम् अपि बृहत् भवति तदा एतत् सम्भवं न भवेत् । अग्रिमे खण्डे वयं नियमितरेखीयप्रतिरूपादिसामान्यप्रतिमानानाम् कृते एतां स्मृतिआवश्यकतां कथं न्यूनीकर्तुं शक्यते इति विस्तरेण वदामः ।

यदा समर्थः भवति nn यदा स्मृतौ सहायकसदिशद्वयं संगृहीतं भवति तदा SAG तथा SAGA इत्येतयोः व्यवहारः समानरूपेण भवति । यदि एषा स्मृति-आवश्यकता अत्यधिका अस्ति तर्हि SVRG-विधिः, यस्याः समीक्षां वयं अग्रिमे खण्डे करिष्यामः, सा उत्तमः विकल्पः अस्ति । एसवीआरजी पद्धतिः समानं अभिसरणदरं प्राप्नोति तथा च प्रायः व्यवहारे प्रायः तथैव द्रुतं भवति, परन्तु केवलं आवश्यकता भवति ओ ( घ ) ओ(घ) .() स्मृतेः, सामान्यप्रकरणानाम् कृते ।

2.3.SVRG विधिः

सागा-पद्धतेः उद्भवात् पूर्वं केषुचित् प्रारम्भिकेषु कार्येषु प्रथमवारं सहचयनात्मकानां परिचयः कृतः यत् सागा-पद्धत्या आवश्यकायाः ​​उच्चस्मृतिसमस्यायाः समाधानं भवति स्मएते अध्ययनाः नियतसन्दर्भबिन्दौ निर्मिताः भवन्ति x ˉ ∈ R d bar{x} in mathbb{R}^dxˉआर covariates, वयं तस्मिन् बिन्दौ पूर्ण-ढालस्य गणनां कृतवन्तः ∇ च ( x ˉ ) नब्ला च(बार{x})(xˉ) .सन्दर्भबिन्दून् संग्रह्य x ˉ बार{x}xˉ तथा तदनुरूपं सम्पूर्णं ढालम् ∇ च ( x ˉ ) नब्ला च(बार{x})(xˉ), प्रत्येकं संग्रहणं विना एतत् कर्तुं शक्नुमः ∇ fj ( x ˉ ) नबला f_j(बार{x})(xˉ) सति प्रयोगः x ˉ j = x ˉ बार{x}_j = बार{x}xˉ=xˉ सर्वेभ्यः jj अद्यतनं कार्यान्वितुं (24)।विशेषतः, एतेषां सदिशानां संग्रहणस्य स्थाने वयं प्रत्येकस्मिन् पुनरावृत्तौ संगृहीतसन्दर्भबिन्दून् उपयुञ्ज्महे x ˉ बार{x}xˉ गणयितुं ∇ फिक ( x ˉ ) नबला च_{इ_क}(बार{x})अहम्‌k(xˉ) . एषा पद्धतिः मूलतः भिन्न-भिन्न-लेखकैः भिन्न-भिन्न-नाम्ना प्रस्ताविता, परन्तु पश्चात् [28] तथा [84] इत्येतयोः नामकरणस्य अनुसरणं कृत्वा एस.वी.आर.जी.

वयं एल्गोरिदम् 3 इत्यस्मिन् SVRG पद्धतिं औपचारिकं कुर्मः ।

(23) इत्यस्य उपयोगेन वयं ढाल-अनुमानं व्युत्पादयितुं शक्नुमः gk g_kk इत्यस्य विचरणं सीमाबद्धम् अस्ति : १.
ई [ ∥ gk − ∇ f ( xk ) ∥ 2 ] ≤ ई [ ∥ ∇ fi ( xk ) − ∇ fi ( x ˉ ) ∥ 2 ] ≤ L अधिकतम 2 ∥ xk − x ˉ ∥ 2 ऊंच[ | g_k - nabla f(x_k) |^2 right] leq Eleft[ | नबला च_इ(x_k) - नबला च_इ(बार{x}) |^2 सही] लेक L_{पाठ{अधिकतम}}^2 | x_k - बार{x} |^2[k(xk)2][∥∇अहम्‌(xk)अहम्‌(xˉ)2]अधिकतमम्2xkxˉ2
यत्र द्वितीया असमानता प्रत्येकं प्रयुङ्क्ते fi f_iअहम्‌ इत्यस्य L i L_iअहम्‌-स्निग्धता।

ज्ञातव्यं यत् सन्दर्भबिन्दुः x ˉ बार{x}xˉ वर्तमानबिन्दुस्य यावत् समीपं भवति xk x_kxk, ढाल-अनुमानस्य विचरणं यावत् लघु भवति ।

SVRG पद्धतिः प्रभावी भवितुम् अस्माभिः सन्दर्भबिन्दून् बहुधा अद्यतनीकरणं करणीयम् x ˉ बार{x}xˉ (तया पूर्णप्रवणतायाः गणना आवश्यकी भवति) न्यूनीकृतविचरणस्य लाभस्य विरुद्धं तौल्यते ।अस्य कारणात् वयं प्रत्येकं त् प्रत्येकं पुनरावृत्तौ एकवारं सन्दर्भबिन्दुं अद्यतनं कुर्वन्तु यत् तस्य समीपे भवति xk x_kxk (एल्गोरिदम II-C इत्यस्य पङ्क्तिः ११ पश्यन्तु)।अर्थात् SVRG पद्धत्या द्वौ पाशौ स्तः : एकः बाह्यः पाशः ss, यत्र सन्दर्भप्रवणतायाः गणना भवति ∇ च ( x ˉ s − 1 ) नबला च(बार{x}_{s-1})(xˉ1)(रेखा ४), तथा च एकः आन्तरिकः पाशः यत्र सन्दर्भबिन्दुः नियतः भवति तथा च आन्तरिकपुनरावृत्तिः आकस्मिक ढालपदस्य आधारेण अद्यतनं भवति (२२) । xk x_kxk(पङ्क्तिः १०) ।

SAG तथा SAGA इत्येतयोः विपरीतम् SVRG इत्यस्य केवलं आवश्यकता भवति ओ ( घ ) ओ(घ) .() स्मृतेः । SVRG इत्यस्य दोषाः सन्ति : १) अस्माकं अतिरिक्तः पैरामीटर् अस्ति त्, अर्थात् आन्तरिकपाशस्य दीर्घता समायोजितव्या भवति

जॉन्सन्, झाङ्ग् [28] इत्यनेन दर्शितं यत् एसवीआरजी इत्यस्य पुनरावर्तनीयजटिलता अस्ति ओ ( ( κ max + n ) log ⁡ ( 1 / ε ) ) O((कप्पा_{पाठ{अधिकतम}} + n) log(1/epsilon))((κअधिकतमम्+)लो(1/ϵ)) , SAG तथा SAGA इत्येतयोः सदृशम् ।एषा परिकल्पनान्तर्गतपाशसङ्ख्या त् संग्रहात् { 1 , ... , m } {1, ldots, m} .{1,,पु} एकरूपनमूनाकरणस्य परिस्थितौ प्राप्तम्, यत्र L अधिकतम L_{पाठ{अधिकतम}}अधिकतमम् μ मुμ, सोपानस्य आकारः γ गाम्माγ तथा त् तयोः मध्ये केचन आश्रयाः अवश्यं पूरिताः भवेयुः।व्यवहारे प्रयोगेन γ = ओ ( 1 / L max ) गामा = O(1/L_{text{max}})γ=(1/अधिकतमम्) तथा आन्तरिकपाशदीर्घता त = न्त = न=, SVRG उत्तमं प्रदर्शनं कर्तुं प्रवृत्तः भवति, यत् चित्रे 1 वयं यत् सेटिङ्ग् प्रयुक्तवन्तः तत् एव ।

अधुना, मूल SVRG पद्धतेः बहवः विविधताः सन्ति ।यथा, केचन विविधताः उपयुञ्जते त् वैकल्पिकवितरणं [32], केचन प्रकाराः रूपस्य अनुमतिं ददति ओ ( 1 / L max ) O(1/L_{पाठ{अधिकतम}})(1/अधिकतमम्) सोपानपरिमाणं [27], [33], [35] ।उपयोगेन केचन विविधताः अपि सन्ति ∇ च ( x ˉ ) नब्ला च(बार{x})(xˉ) एतेषां पूर्ण-ढाल-मूल्यांकनानां व्ययस्य न्यूनीकरणाय लघु-बैच-सन्निकर्षः, तथा च VR-गुणानां संरक्षणाय लघु-बैच-आकारं वर्धयति ।केचन प्रकाराः अपि सन्ति यत्र [५४] इत्यस्य अनुसारं अन्तः पाशस्य मध्ये अद्यतनं पुनरावृत्तिः भवति । gk g_kk
[ g_k = नब्ला च_{इ_क}(x_k) - नब्ला च_{इ_क}(x_{k-1}) + ग_{क-1} क्वाड (25) ]
एतेन अधिकं स्थानीयं सन्निकर्षं प्राप्यते । अस्य निरन्तर-अद्यतन-रूपस्य (25) उपयोगेन गैर-उत्तल-कार्यं न्यूनीकर्तुं अद्वितीय-लाभाः दृश्यन्ते, यथा वयं चतुर्थ-खण्डे संक्षेपेण चर्चां कुर्मः ।अन्ते SVRG इत्यस्य लाभं ग्रहीतुं शक्नोति इति ज्ञातव्यम् ∇ च ( x ˉ s ) नबला च(बार{x}_s) .(xˉ) मूल्यं एल्गोरिदम् कदा समाप्तं कर्तव्यमिति निर्णये सहायकं भवति ।

एल्गोरिदम 3 SVRG विधि

  1. मापदण्डः : चरणस्य आकारः γ &gt; 0 गामा &gt; 0γ>0
  2. सन्दर्भबिन्दुम् आरभत x ˉ 0 = x 0 ∈ R d bar{x}_0 = x_0 in mathbb{R}^dxˉ0=x0आर
  3. बाह्यसञ्चारं कुर्वन्तु s = 1 , 2 , ... s = 1, 2, ldots=1,2,
    क. गणनां कृत्वा संग्रहणं कुर्वन्तु ∇ च ( x ˉ s − 1 ) नबला च(बार{x}_{s-1})(xˉ1)
    ख. कल्पयतु x 0 = x ˉ s − 1 x_0 = बार{x}_{s-1} .x0=xˉ1
    ग. आन्तरिकपाशस्य पुनरावृत्तीनां संख्यां चिनोतु त्
    घ. आन्तरिकसञ्चारं कुर्वन्तु k = 0 , 1 , ... , t − 1 k = 0, 1, ldots, t - 1k=0,1,,1
    i. यादृच्छिकचयनम् ik ∈ { 1 , ... , n } इ_क इन {1, ldots, n} .अहम्‌k{1,,}
    ii.गणना gk = ∇ fik ( xk ) − ∇ fik ( x ˉ s − 1 ) + ∇ f ( x ˉ s − 1 ) g_k = नबला f_{i_k}(x_k) - नबला f_{i_k}(बार{x}_{ स-१}) + नब्ला च(बार{x}_{s-1})k=अहम्‌k(xk)अहम्‌k(xˉ1)+(xˉ1)
    iii.अद्यतन xk + 1 = xk − γ gk x_{k+1} = x_k - गामा g_kxk+1=xkγk
    ङ. सन्दर्भबिन्दु अद्यतन करें x ˉ s = xt बार{x}_s = x_txˉ=x

2.4.SDCA तथा तस्य रूपान्तराणि

SAG तथा SVRG पद्धतीनां एकः दोषः अस्ति यत् तेषां चरणाकारः अज्ञातमूल्यानां उपरि निर्भरं भवति ये केषुचित् समस्यासु अज्ञाताः भवितुम् अर्हन्ति । L अधिकतम L_{पाठ{अधिकतम}}अधिकतमम् . एसवीआरजी इत्यस्मात् पूर्वं एसडीसीए-पद्धत्या [70], प्रारम्भिक-वीआर-विधिषु अन्यतमत्वेन, समन्वय-अवरोह-विधिषु अनुसन्धानं परिमित-योगसमस्यासु विस्तारितम् एसडीसीए तथा तस्य रूपान्तराणां पृष्ठतः विचारः अस्ति यत् ढालस्य निर्देशांकाः प्राकृतिकं विचरणं न्यूनीकर्तुं ढाल-अनुमानं प्रदास्यन्ति ।विशेषतः, कल्पयतु j ∈ { 1 , ... , d } j in {1, ldots, d} .{1,,}, परिभाषय च ∇ jf ( x ) : = ( ∂ f ( x ) ∂ xj ) ej nabla_j f(x) := वाम( frac{आंशिक f(x)}{आंशिक x_j} दक्षिण) e_j(x):=(x(x)) इति (च(x)) इत्यस्य ठः । jj समन्वयदिशि व्युत्पन्नाः, यत्र ej ∈ R d e_j in mathbb{R}^dआर इति प्रथमम् jj इकाई सदिश।समन्वयव्युत्पन्नस्य एकः प्रमुखः गुणः अस्ति यत् ∇ jf ( x ∗ ) = 0 नबला_ज च(x^*) = 0(x)=0, यतः वयं जानीमः ∇ च ( x ∗ ) = 0 नबला च(x^*) = 0(x)=0 .प्रत्येकं दत्तांशबिन्दुना सह अस्य व्युत्पन्नम् ∇ fj नब्ला f_j भिन्नम्, उत्तरम् x ∗ x^* ९.x शून्यं न स्यात्। अतः अस्माकं कृते : १.
∥ ∇ f ( x ) − ∇ jf ( x ) ∥ 2 → 0 当 x → x ∗ ( 26 ) | nabla f(x) - nabla_j f(x) |^2 दक्षिणबाण 0 चतुर्पाठ पाठ{当} चतुर् x दक्षिणबाण x^* चतुर्थ (26)∥∇(x)(x)20कदाxx(26)
अस्य अर्थः अस्ति यत् निर्देशांकव्युत्पन्नं विचरणनिवृत्तिगुणं (12) पूरयति ।तदतिरिक्तं वयं उपयोक्तुं शक्नुमः ∇ jf ( x ) नब्ला_ज च(x) .(x) निर्माणं कर्तुं ∇ च ( x ) नब्ला च(x) .(x) an unbiased estimate of.यथा - कल्पयतु jj इति संग्रहात् { १ , ... , घ } {१, ल्डोट्स, घ} ।{1,,} मध्ये एक समानरूपेण यादृच्छिकरूपेण चयनितः अनुक्रमणिका .तेन कस्यचित् कृते i ∈ { 1 , ... , d } i in {1, ldots, d} इति ।अहम्‌{1,,},अस्माकं अस्ति प [ ज = इ ] = १ घ प[ज = इ] = भग्न{1}{ड}पु[=अहम्‌]=1 . अतएव, d × ∇ jf ( x ) d गुणा nabla_j f(x) .×(x) आम्‌ ∇ च ( x ) नब्ला च(x) .(x) यतः एकः निष्पक्षः अनुमानः : १.
ई [ d ∇ jf ( x ) ] = d ∑ i = 1 d P [ j = i ] ∂ f ( x ) ∂ xiei = ∑ i = 1 d ∂ f ( x ) ∂ xiei = ∇ f ( x ) Eleft[ d nabla_j f(x) right] = d sum_{i=1}^{d} P[j = i] frac{partial f(x)}{आंशिक x_i} e_i = योग_{i=1}^{d} frac{partial f(x)}{आंशिक x_i} e_i = नब्ला च(x)[(x)]=अहम्‌=1पु[=अहम्‌]xअहम्‌(x)अहम्‌=अहम्‌=1xअहम्‌(x)अहम्‌=(x)

अतएव, ∇ jf ( x ) नब्ला_ज च(x) .(x) सहचयनात्मकानां उपयोगस्य आवश्यकतां विना, पूर्ण-ढालस्य अनुमानं कृत्वा VR कृते वयं अपेक्षिताः सर्वे आदर्शगुणाः सन्ति । अस्य निर्देशांक-प्रवणतायाः उपयोगस्य एकः दोषः अस्ति यत् अस्माकं योगसमस्यायाः (2) कृते एतत् गणनारूपेण महत् भवति ।यतो हि गणना ∇ jf ( x ) नब्ला_ज च(x) .(x) सम्पूर्णं दत्तांशसमूहं भ्रमितुं आवश्यकता यतः ∇ jf ( x ) = 1 n ∑ i = 1 n ∇ jfi ( x ) नब्ला_j f(x) = frac{1}{n} sum_{i=1}^{n} नबला_j f_i(x)(x)=1अहम्‌=1अहम्‌(x) . अतः निर्देशांकव्युत्पन्नानाम् उपयोगः अस्माकं योगसमस्यायाः संरचनायाः सह असङ्गतः प्रतीयते । परन्तु वयं प्रायः मूलसमस्यां (2) तथाकथितद्वयसूत्रीकरणे पुनः लिखितुं शक्नुमः, यत्र निर्देशांकव्युत्पन्नाः निहितसंरचनायाः शोषणं कर्तुं शक्नुवन्ति

यथा, L2 नियमितस्य रेखीयप्रतिरूपस्य (15) द्वयसूत्रं अस्ति :
v ∗ ∈ arg ⁡ अधिकतम ⁡ v ∈ R n 1 n ∑ i = 1 n − l i ∗ ( − vi ) − λ 2 ∥ 1 λ ∑ i = 1 nviai ∥ 2 ( 27 ) v^* in argmax_{v in mathbb{R}^n} frac{1}{n} sum_{i=1}^{n} -ell_i^*(-v_i) - frac{lambda}{2} वाम| frac{1}{लम्बदा} sum_{i=1}^{n} v_i a_i right|^2 quad (27)विअर्विआरअधिकतमम्1अहम्‌=1अहम्‌(विअहम्‌)2λ λ1अहम्‌=1विअहम्‌एकःअहम्‌ 2(27)
इत्यस्मिन्‌ l i ∗ ( v ) ell_i^*(v) .अहम्‌(वि) आम्‌ ल इ एल_इअहम्‌ उत्तल संयुग्मः ।वयं मानचित्रणस्य उपयोगं कर्तुं शक्नुमः x = 1 λ ∑ i = 1 nviaix = frac{1}{लम्ब्दा} योग_{i=1}^{n} v_i a_ix=λ1अहम्‌=1विअहम्‌एकःअहम्‌ मूलसमस्यां पुनः स्थापयितुं (१५) . xxx चरः ।समाधानं करिष्यति वि ∗ व^*वि उपर्युक्तस्य मानचित्रणस्य दक्षिणभागे प्रतिस्थापनं कृत्वा (15) इत्यस्य समाधानं प्राप्तुं शक्नुमः । x ∗ x^* ९.x

ध्यानं कुर्वन्तु यत् अस्याः द्वयसमस्यायाः अस्ति nn वास्तविक चर vi ∈ R v_i in mathbb{R}विअहम्‌आर , प्रत्येकस्य प्रशिक्षणनमूनायाः कृते एकस्य अनुरूपम्।अपि च प्रत्येकं द्वयहानिकार्यम् ल इ ∗ एल्_इ^*अहम्‌ केवलम्‌ वि व_इविअहम्‌ कार्यम् । हानिकार्ये प्रथमं पदं समन्वयेन विच्छेद्यमिति यावत् । निर्देशाङ्केषु एषा पृथक्त्वं द्वितीयपदस्य सरलरूपेण सह मिलित्वा निर्देशाङ्कारोहणविधिं कुशलतया कार्यान्वितुं शक्नोति ।ननु शालेव-श्वर्ट्ज्, झाङ्ग् च दर्शितवन्तौ यत् अस्याः समस्यायाः उपरि समन्वय-आरोहणस्य पुनरावर्तनीयजटिलता SAG, SAGA, SVRG इत्येतयोः सदृशी अस्ति ओ ( ( κ max + n ) log ⁡ ( 1 / ε ) ) O((कप्पा_{पाठ{अधिकतम}} + n) log(1/epsilon))((κअधिकतमम्+)लो(1/ϵ))

पुनरावृत्तिव्ययः एल्गोरिदम् संरचना च अतीव समाना अस्ति: अनुसरणं कृत्वा योगः ∑ i = 1 न्वियै योग_{i=1}^{n} v_i a_iअहम्‌=1विअहम्‌एकःअहम्‌ (27) इत्यस्मिन् द्वितीयपदं नियन्त्रयितुं प्रत्येकं द्वयसमन्वयारोहणपुनरावृत्तिः केवलं एकं प्रशिक्षणनमूनं विचारयितुं आवश्यकं भवति, तथा च प्रत्येकस्य पुनरावृत्तेः व्ययः समानः भवति यथा nn न किमपि कर्तव्यम् ।तदतिरिक्तं, वयं 1D रेखासन्धानस्य उपयोगं कर्तुं शक्नुमः यत् यथा अधिकतमं कर्तुं चरणस्य आकारस्य कुशलतापूर्वकं गणनां कर्तुं शक्नुमः वि व_इविअहम्‌ कार्यस्य द्वयात्मकं उद्देश्यम्।विना अपि इत्यर्थः L अधिकतम L_{पाठ{अधिकतम}}अधिकतमम् अथवा प्रासंगिकमात्रायाः ज्ञानं, VR पद्धतीनां कृते द्रुततरं दुष्टतम-प्रकरणसमयं प्राप्तुं अपि सम्भवति ।

3. विचरणनिवृत्तेः व्यावहारिकविषयाः

मूलभूतविचरणनिवृत्तिविधिं (VR) कार्यान्वितुं उचितप्रदर्शनं प्राप्तुं च अनेकाः कार्यान्वयनविषयाणि सम्बोधनीयाः । अस्मिन् खण्डे वयं उपरि न आच्छादितानां कतिपयानां विषयाणां चर्चां कुर्मः ।

3.1.SAG/SAGA/SVRG सेटिंग् स्टेप साइज

अनुकूलन-एल्गोरिदम्-क्षेत्रे, विशेषतः भिन्नता-निवृत्ति-विधिषु यथा आकस्मिक-सरासरी-ढाल-(SAG), आकस्मिक-सरासरी-ढाल-अल्गोरिदम् (SAGA) तथा आकस्मिक-ढाल-अल्गोरिदम् (SVRG) इत्यादिषु, चरण-आकारस्य सेटिंग् एकः प्रमुखः विषयः अस्तियद्यपि आकस्मिक-द्वय-निर्देशाङ्क-आरोहण (SDCA) पद्धतेः कृते वयं चरण-आकारं निर्धारयितुं द्वय-उद्देश्यस्य उपयोगं कर्तुं शक्नुमः तथापि SAG, SAGA तथा SVRG इत्येतयोः मूल-चर-विधिनाम् सैद्धान्तिकः आधारः अस्ति यत् चरण-आकारः भवितुम् अर्हति γ = O ( 1 L max ) गामा = ओलेफ्ट(frac{1}{L_{text{max}}}right)γ=(अधिकतमम्1) आवेदनपत्रं।तथापि व्यावहारिकप्रयोगेषु वयं प्रायः न जानीमः L अधिकतम L_{पाठ{अधिकतम}}अधिकतमम् , इत्यस्य सटीकं मूल्यं, अन्येषां चरणाकारानाम् उपयोगेन च उत्तमं कार्यं दातुं शक्नोति ।

पूर्ण-ढाल-अवरोह (पूर्ण-GD) पद्धत्या चरण-आकारं सेट् कर्तुं एकः क्लासिक-रणनीतिः आर्मिजो रेखा-अन्वेषणम् अस्ति ।दत्त वर्तमान बिन्दु xk x_kxk तथा अन्वेषणदिशा gk g_kk, आर्मिजो रेखा अन्वेषण in γ क गमा_क्γk रेखायां निर्वह्यते, या यथा विवक्षितम् γ k ∈ { γ : xk + γ gk } गामा_क in {गामा : x_k + गामा g_k}γk{γ:xk+γk}, तथा च कार्यस्य पर्याप्तं न्यूनीकरणं अपेक्षितम् अर्थात् :
f ( xk + γ kgk ) &lt; f ( xk ) − c γ k ∥ ∇ f ( xk ) ∥ 2 f(x_k + गामा_k g_k) &lt; f(x_k) - c गामा_क |नब्ला च(x_k)|^2(xk+γkk)<(xk)γk∥∇(xk)2
परन्तु अस्मिन् दृष्टिकोणे बहुविधाः अभ्यर्थीपदार्थाः आवश्यकाः सन्ति γ क गमा_क्γk गणना च ( xk + γ kgk ) f(x_k + गामा_k g_k) .(xk+γkk), यत् मूल्याङ्कयति च ( x ) च(x) .(x) सम्पूर्णं दत्तांशसमूहं भ्रमितुं यदा आगच्छति तदा व्ययः निषेधात्मकः।

एतस्याः समस्यायाः समाधानार्थं निम्नलिखितशर्ताः पूरयन्तः तान् अन्वेष्टुं यादृच्छिकविविधताविधिः उपयोक्तुं शक्यते γ क गमा_क्γk
fik ( xk + γ kgk ) &lt; fik ( xk ) − c γ k ∥ ∇ fik ( xk ) ∥ 2 f_{ik}(x_k + गामा_k g_k) &lt; f_{ik}(x_k) - ग गामा_क |नब्ला च_{ik }(x_k)|^2ik(xk+γkk)<ik(xk)γk∥∇ik(xk)2
एषः उपायः प्रायः व्यवहारे सम्यक् कार्यं करोति, विशेषतः यदा... ∥ ∇ फ़िक ( xk ) ∥ |नबला f_{ik}(x_k)|∥∇ik(xk) शून्यस्य समीपे न, यद्यपि सम्प्रति अस्य उपायस्य समर्थनार्थं सिद्धान्तः नास्ति ।

तदतिरिक्तं मैराल् इत्यनेन व्यवहारे सोपानस्य आकारस्य निर्धारणाय "बोट्टौ-प्रविधिः" प्रस्ताविता । एषा पद्धतिः दत्तांशसमूहस्य लघुभागं (उदा. ५%) गृहीत्वा द्विचक्रीय-अन्वेषणं करोति यत् अस्मिन् नमूने एकस्मिन् पास-मध्ये इष्टतम-पद-आकारं अन्वेष्टुं प्रयतते आर्मिजो रेखा अन्वेषणस्य सदृशं एषा पद्धतिः प्रायः व्यवहारे उत्तमं प्रदर्शनं करोति, परन्तु पुनः सैद्धान्तिकस्य आधारस्य अभावः अस्ति ।

कृपया ज्ञातव्यं यत् उपर्युक्ता सामग्री मूलपाठस्य पुनः कथनम् अस्ति, गणितीयसूत्राणां चरानाञ्च प्रतिनिधित्वार्थं Markdown प्रारूपस्य उपयोगेन ।

परन्तु एसडीसीए-पद्धतेः केचन दोषाः अपि सन्ति ।प्रथमं तस्य उत्तलसंयुग्मस्य गणना आवश्यकी भवति ल इ ∗ एल्_इ^*अहम्‌ न तु सरलस्य ढालस्य। अस्माकं उत्तलसंयुग्मानां कृते स्वचालितविभेदसमतुल्यः नास्ति, अतः एतेन कार्यान्वयनप्रयत्नः वर्धयितुं शक्यते । अद्यतनकार्यं "द्वयमुक्त" SDCA पद्धतयः प्रस्ताविताः येषां संयुग्मनस्य आवश्यकता नास्ति तथा च तस्य स्थाने प्रत्यक्षतया ढालस्य उपयोगः भवति । परन्तु एतेषु विधिषु सोपानस्य आकारं निर्धारयितुं द्वयलक्ष्यस्य अनुसरणं न सम्भवति ।द्वितीयं यद्यपि SDCA केवलं आवश्यकम् ओ ( न + घ ) ओ(न + घ) .(+) स्मृतिः (15) समस्यायाः समाधानार्थं, परन्तु अस्य समस्यावर्गस्य कृते SAG/SAGA इत्यस्य केवलं आवश्यकता अस्ति ओ ( न + घ ) ओ(न + घ) .(+) स्मृतेः (द्रष्टव्यम् - खण्डः ३) ।SAG/SAGA इत्यनेन सह अधिकसामान्यसमस्यानां कृते उपयुक्तः SDCA इत्यस्य एकः प्रकारः ओ ( न् ) ओ(न् ) .() स्मृतिः यतः वि व_इविअहम्‌ भवितुं भवति द्द् तत्त्वानां सदिशः । एसडीसीए इत्यस्य एकः अन्तिमः सूक्ष्मः दोषः अस्ति यत् सः अन्तर्निहितरूपेण एकं प्रबलं उत्तलतानित्यं गृह्णाति μ मुμ समान λ लम्ब्दाλ .कृते μ मुμ अधिकं λ लम्ब्दाλ समस्या, मूल VR पद्धतिः सामान्यतया SDCA इत्यस्मात् महत्त्वपूर्णतया अधिकं प्रदर्शनं करोति।

3.2.समाप्तिशर्तानाम् निर्धारणम्

एल्गोरिदम् अनुकूलनस्य क्षेत्रे वयं प्रायः पुनरावर्तनीयजटिलतायाः सैद्धान्तिकपरिणामेषु अवलम्ब्य विशिष्टसटीकताम् प्राप्तुं एल्गोरिदमस्य कृते आवश्यकानां पुनरावृत्तीनां दुष्टतम-प्रकरणसङ्ख्यायाः पूर्वानुमानं कुर्मः परन्तु एताः सैद्धान्तिकसीमाः प्रायः केषुचित् नित्येषु अवलम्बन्ते येषां पूर्वानुमानं कर्तुं न शक्नुमः, व्यावहारिकप्रयोगेषु च एल्गोरिदम् प्रायः न्यूनेषु पुनरावृत्तौ अपेक्षितसटीकतां प्राप्तुं शक्नोति अतः अस्माभिः केचन परीक्षणमापदण्डाः स्थापयितव्याः येन एल्गोरिदम् कदा समाप्तिः कर्तव्या इति निर्धारयितुं शक्यते ।

पारम्परिकपूर्ण-ढाल-अवरोह (पूर्ण-GD) पद्धत्या वयं प्रायः ढालस्य मानदण्डस्य उपयोगं कुर्मः ∥ ∇ च ( xk ) ∥ | नबला च(x_k) |∥∇(xk) अथवा पुनरावृत्तिः कदा स्थगितव्यः इति निर्णयार्थं एतत्सम्बद्धम् अन्यत् किमपि परिमाणम् ।SVRG पद्धतेः कृते वयं समानं मानदण्डं स्वीकुर्वितुं शक्नुमः परन्तु उपयोगं कर्तुं शक्नुमः ∥ ∇ च ( x ˉ s ) ∥ | नबला च(बार{x}_s) |∥∇(xˉ) न्यायस्य आधारत्वेन ।SAG/SAGA पद्धतेः कृते यद्यपि वयं स्पष्टतया सम्पूर्णस्य ढालस्य गणनां न कुर्मः तथापि $ g_{bar{k}} $ इति परिमाणं क्रमेण अनुमानितं भविष्यति ∇ च ( xk ) नबला च(x_k) .(xk), अतः प्रयोगः ∥ gk ˉ ∥ | ग_{बार{क}} |kˉ यथा स्थगितस्थितिः युक्तियुक्तः अनुमानात्मकः।

SDCA पद्धत्या, केनचित् अतिरिक्तेन रिकार्डिङ्ग् कार्येण सह, वयं अतिरिक्तं असममितव्ययम् न योजयित्वा द्वय उद्देश्यस्य ढालं निरीक्षितुं शक्नुमः ।तदतिरिक्तं, अधिकव्यवस्थितः उपायः द्वैध-अन्तरस्य अनुसरणं स्यात्, यद्यपि एतेन... ओ ( न ) ओ(न) .() व्ययः, परन्तु द्वयान्तरप्रमाणैः सह समाप्तिस्थितिः प्रदातुं समर्थः अस्ति । तदतिरिक्तं दृढतया उत्तललक्ष्यस्य इष्टतमतास्थितेः आधारेण MISO पद्धतिः द्विघातनीचसीमाधारितं सिद्धान्तगतपद्धतिं स्वीकुर्वति [४१

निम्नलिखितम् गणितीयसूत्राणि चराः च सन्ति ये Markdown प्रारूपेण व्यक्तानि सन्ति ।

  • ढाल मानदण्डः १. ∥ ∇ च ( xk ) ∥ | नबला च(x_k) |∥∇(xk)
  • एसवीआरजी पद्धत्या ढालमान्यता : १. ∥ ∇ च ( x ˉ s ) ∥ | नबला च(बार{x}_s) |∥∇(xˉ)
  • SAG/SAGA पद्धत्यां सन्निकर्ष-ढालस्य राशिः: $ g_{bar{k}} $
  • प्रति पुनरावृत्तिः वर्धितः व्ययः : १. ओ ( न ) ओ(न) .()
  • MISO विधि
  • द्विघात निम्न सीमा

कृपया ज्ञातव्यं यत् उपर्युक्ता सामग्री मूलपाठस्य पुनः कथनम् अस्ति, गणितीयसूत्राणां चरानाञ्च प्रतिनिधित्वार्थं Markdown प्रारूपस्य उपयोगेन ।

3.3.स्मृतेः आवश्यकतां न्यूनीकरोतु

यद्यपि Stochastic Variational Gradient Reduction of Gradient (SVRG) एल्गोरिदम् पूर्वविविधतानिवृत्तिविधिनाम् स्मृति-आवश्यकताम् समाप्तं करोति तथापि व्यावहारिक-अनुप्रयोगेषु SAG (Stochastic Average Gradient Descent) तथा SAGA (Stochastic Average Gradient Descent with Gradient Acumulation) एल्गोरिदम् अनेकेषु समस्यासु उपयुज्यते .SVRG एल्गोरिदम् इत्यस्मात् न्यूनानि पुनरावृत्तयः आवश्यकाः भवन्ति ।एतेन एकः विचारः प्रेरितः यत् किं केचन विषयाः सन्ति ये SAG/SAGA इत्यस्य अनुमतिं ददति ओ ( न् ) ओ(न् ) .() स्मृति-आवश्यकताः अधः कार्यान्विताः सन्ति । अस्मिन् खण्डे रेखीयप्रतिमानानाम् एकं वर्गं अन्वेषितम् अस्ति यस्य कृते स्मृतेः आवश्यकताः महत्त्वपूर्णतया न्यूनीकर्तुं शक्यन्ते ।

रेखीयप्रतिरूपं विचारयन्तु यत्र प्रत्येकं कार्यं भवति fi ( x ) f_i(x) .अहम्‌(x) इति व्यज्यते ξ i ( ai ⊤ x ) xi_i(mathbf{a}_i^top x)ξअहम्‌(एकःअहम्‌x) .दक्षिणः xxx व्युत्पन्नं ढालरूपं ददाति- १.
∇ fi ( x ) = ξ ′ ( ai ⊤ x ) ऐ नबला f_i(x) = xi'(mathbf{a}_i^top x) mathbf{a}_iअहम्‌(x)=ξ(एकःअहम्‌x)एकःअहम्‌
अत्र, ξ ′ xi' इति ।ξ व्यक्त ξ xiξ इति व्युत्पन्नम् ।अस्माकं eigenvectors इत्यस्य प्रत्यक्षं प्रवेशः अस्ति इति कल्पयित्वा ऐ मथबफ{क}_इएकःअहम्‌, ततः SAG/SAGA पद्धतिं कार्यान्वितुं केवलं scalar इत्यस्य संग्रहणं करणीयम् ξ ( ऐ ⊤ x ) xi(mathbf{a}_i^top x)ξ(एकःअहम्‌x) .एवं प्रकारेण स्मृतेः आवश्यकताः तः भिन्नाः भवन्ति ओ ( न् ) ओ(न् ) .() न्यूनीकृतम् ओ ( न ) ओ(न) .() . SVRG एल्गोरिदम् अपि ढालस्य एतस्याः संरचनायाः लाभं ग्रहीतुं शक्नोति: एतत् संग्रह्य nn scalar, वयं प्रति SVRG "आन्तरिक" पुनरावृत्तिम् आवश्यकानां ढालमूल्यांकनानां संख्यां 1 यावत् न्यूनीकर्तुं शक्नुमः अस्य समस्यावर्गस्य कृते ।

अन्ये प्रकाराः समस्याः सन्ति, यथा संभाव्यतावादी चित्रात्मकप्रतिमानाः, ये स्मृतेः आवश्यकतां न्यूनीकर्तुं सम्भावनां अपि प्रददति [६६] । विशिष्टदत्तांशसंरचनायाः, एल्गोरिदम् अनुकूलनस्य च माध्यमेन रनटाइम् इत्यत्र एल्गोरिदम् इत्यनेन आवश्यकाः स्मृतिसंसाधनाः अधिकं न्यूनीकर्तुं शक्यन्ते ।

निम्नलिखितम् गणितीयसूत्राणि चराः च सन्ति ये Markdown प्रारूपेण व्यक्तानि सन्ति ।

  • रेखीयप्रतिरूपकार्यम् : १. fi ( x ) = ξ i ( ai ⊤ x ) f_i(x) = xi_i(mathbf{a}_i^top x)अहम्‌(x)=ξअहम्‌(एकःअहम्‌x)
  • ढाल अभिव्यक्तिः १. ∇ fi ( x ) = ξ ′ ( ai ⊤ x ) ऐ नबला f_i(x) = xi'(mathbf{a}_i^top x) mathbf{a}_iअहम्‌(x)=ξ(एकःअहम्‌x)एकःअहम्‌
  • विशेषता सदिशः : १. ऐ मथबफ{क}_इएकःअहम्‌
  • स्मृति-आवश्यकता 1000 तः आरभ्यते ओ ( न् ) ओ(न् ) .() यावत् न्यूनीकरोतु ओ ( न ) ओ(न) .()

3.4.विरल-ढालानां संसाधनम्

केषुचित् समस्यासु ढालः ∇ फि ( x ) नब्ला च_इ(x) .अहम्‌(x) शून्यमूल्यानां बहूनां संख्यां भवितुं शक्नोति, यथा विरलविशेषतायुक्तं रेखीयप्रतिरूपम् ।अस्मिन् सन्दर्भे पारम्परिकं स्टोचैस्टिक ढाल-अवरोह (SGD) एल्गोरिदम् कुशलतया कार्यान्वितुं शक्यते, यत्र गणनाजटिलता ढालस्य अशून्यतत्त्वानां संख्यायां रेखीयरूपेण भवति, यत् प्रायः समस्यापरिमाणात् बहु लघु भवति द्द् . परन्तु मानकविविधतानिवृत्ति-विधिषु (VR) एतस्य लाभस्य शोषणं न भवति । दिष्ट्या अस्य उन्नयनार्थं द्वौ ज्ञातौ उपायौ स्तः ।

प्रथमं सुधारं श्मिट् इत्यादिभिः प्रस्तावितं, यत् अद्यतनप्रक्रियायाः सरलतायाः लाभं लभते तथा च "उड्डयनेन" गणनायाः एकं रूपं कार्यान्वितं करोति यथा प्रत्येकस्य पुनरावृत्तेः व्ययः शून्यस्य संख्यायाः आनुपातिकः भवति तत्त्वानि ।SAG उदाहरणरूपेण गृहीत्वा (किन्तु एषः उपायः सर्वेषां रूपान्तराणां कृते कार्यं करोति), एतत् प्रत्येकं पुनरावृत्तेः अनन्तरं सम्पूर्णं सदिशं न संग्रह्य क्रियते विक् वि_{इक}विik, परन्तु केवलं अशून्यतत्त्वानां अनुरूपानाम् गणनां करोति विक्ज वि_{इक_ज}विअहम्‌k, अन्तिमवारं सः तत्त्वः अशून्यः आसीत् तस्मात् प्रत्येकं चरं अद्यतनं कृत्वा विक्ज वि_{इक_ज}विअहम्‌k

द्वितीयं सुधारपद्धतिः लेब्लोण्ड् इत्यादिभिः SAGA कृते प्रस्ताविता, यत् सूत्रं अद्यतनं करोति xk + 1 = xk − γ ( ∇ fik ( xk ) − ∇ fik ( x ˉ ik ) + g ˉ k ) x_{k+1} = x_k - गामा(नबला f_{ik}(x_k) - नबला f_{ik }(बार{x}_{ik}) + बार{g}_k)xk+1=xkγ(ik(xk)ik(xˉik)+ˉk) अतिरिक्त यादृच्छिकता प्रवर्तते। अत्र, ∇ फिक ( xk ) नबला च_{इक}(x_k) .ik(xk) तथा ∇ फिक ( x ˉ ik ) नबला च_{इक}(बार{x}_{इक})ik(xˉik) विरलः इति च g ˉ k bar{g}_kˉk सघनम् अस्ति।अस्मिन् विधौ सघनपदम् ( g ˉ k ) j (बार{g}_k)_j(ˉk) इत्यस्य प्रत्येकं घटकं प्रतिस्थापितं भवति wj ( g ˉ k ) j w_j (बार{g}_k)_jw(ˉk),इत्यस्मिन्‌ w ∈ R dw in mathbb{R}^dwआर एकः यादृच्छिकः विरलः सदिशः अस्ति यस्य समर्थनसमूहः मध्ये समाविष्टः अस्ति ∇ फिक ( xk ) नबला च_{इक}(x_k) .ik(xk) , तथा च सर्वेषां तत्त्वानां १ तुल्ययुक्तः नित्यसदिशः अपेक्षितः । एवं च, अद्यतनप्रक्रिया निष्पक्षः (यद्यपि इदानीं विरलः) एव तिष्ठति, तथा च वर्धितः विचरणः एल्गोरिदमस्य अभिसरणदरं न प्रभावितं करोति । अधिकविवरणं लेब्लोण्ड् इत्यादिभिः प्रदत्तम् अस्ति ।

निम्नलिखितम् गणितीयसूत्राणि चराः च सन्ति ये Markdown प्रारूपेण व्यक्तानि सन्ति ।

  • ढालः : १. ∇ फि ( x ) नब्ला च_इ(x) .अहम्‌(x)
  • SGD अद्यतनम् : १. xk + 1 = xk − γ ( ∇ fik ( xk ) − ∇ fik ( x ˉ ik ) + g ˉ k ) x_{k+1} = x_k - गामा(नबला f_{ik}(x_k) - नबला f_{ik }(बार{x}_{ik}) + बार{g}_k)xk+1=xkγ(ik(xk)ik(xˉik)+ˉk)
  • विरल ढालः : १. ∇ फिक ( xk ) नबला च_{इक}(x_k) .ik(xk) तथा ∇ फिक ( x ˉ ik ) नबला च_{इक}(बार{x}_{इक})ik(xˉik)
  • सघन ढालः : १. g ˉ k bar{g}_kˉk
  • यादृच्छिक विरल सदिशः : १. www
  • नित्यसदिशम् अपेक्षते : सर्वेषां तत्त्वानां 1 इत्यस्य सदिशः ।