प्रौद्योगिकी साझेदारी

गहनशिक्षणे नियमितीकरणप्रौद्योगिकी - शोरदृढता

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

प्रस्तावना

गहनशिक्षणस्य प्रबलविकासेन सह आदर्शानां कार्यप्रदर्शनक्षमता सामान्यीकरणक्षमता च शोधकर्तृणां केन्द्रबिन्दुः अभवत् । परन्तु व्यावहारिक-अनुप्रयोगेषु दत्तांशः प्रायः विविधैः शब्दैः सह भवति शोरस्य अस्तित्वं गहनशिक्षणप्रतिमानानाम् प्रशिक्षणप्रभावं भविष्यवाणीसटीकतां च गम्भीररूपेण प्रभावितं करोति, विशेषतः वाक्परिचयः, प्रतिबिम्बवर्गीकरणं च इत्यादिषु कार्येषु अतः गहनशिक्षणप्रतिमानानाम् शोरदृढतायां सुधारः अर्थात् शोरगुलयुक्तेषु वातावरणेषु प्रतिरूपस्य स्थिरप्रदर्शनस्य परिचयक्षमतायाश्च वर्धनं वर्तमानसंशोधनस्य महत्त्वपूर्णा दिशा अभवत् अधिकप्रभाविणः आँकडापूर्वसंसाधन-एल्गोरिदम्-निर्माणं कृत्वा, आदर्श-संरचनानां अनुकूलनं कृत्वा, शोर-वर्धित-प्रशिक्षणस्य अन्येषां तकनीकीसाधनानाञ्च परिचयं कृत्वा, गहन-शिक्षण-प्रतिरूपस्य शोर-प्रतिरोधस्य महत्त्वपूर्णं सुधारः कर्तुं शक्यते, अतः अधिकजटिल-परिदृश्येषु तस्य अनुप्रयोगः प्रवर्धितः भवति

कोलाहल दृढता

  • अस्तिगहनशिक्षण-दत्तांशसमूहवर्धनस्य नियमितीकरणप्रौद्योगिकी दत्तांशसमूहवर्धनरणनीत्याः रूपेण निवेशं प्रति शोरस्य अनुप्रयोगं प्रेरितवन्तः। केषाञ्चन मॉडलानां कृते मॉडलस्य निवेशे न्यूनतमविचरणयुक्तं शोरं योजयितुं भारयोः आदर्शदण्डं योजयितुं समतुल्यम् अस्ति (Bishop, 1995a,b) सामान्यतया, केवलं संकोचनमापदण्डानां अपेक्षया कोलाहल-इञ्जेक्शन् दूरतरं शक्तिशाली भवति, विशेषतः यदा गुप्त-एककेषु कोलाहलः योजितः भवति ।गुप्त-एककेषु कोलाहलं योजयितुं स्वस्य चर्चायाः योग्यः महत्त्वपूर्णः विषयः अस्ति
  • अन्यत्‌नियमितप्रतिरूपे कोलाहलस्य उपयोगः भारयोः सह योजयित्वा भवति . एषा तकनीक मुख्यतया पुनरावर्तनीय-तंत्रिकाजालेषु उपयुज्यते (Jim et al., 1996; Graves, 2011) । एतस्य व्याख्या भारविषये बेयसियन-अनुमानस्य आकस्मिक-कार्यन्वयनम् इति कर्तुं शक्यते । शिक्षणप्रक्रियायां बेयसियन-पद्धतेः उपयोगेन भारानाम् अनिश्चितत्वेन व्यवहारः क्रियते, एषा अनिश्चितता च संभाव्यतावितरेण प्रतिनिधित्वं कर्तुं शक्यते भारयोः कोलाहलं योजयितुं एतस्याः अनिश्चिततायाः प्रतिबिम्बस्य व्यावहारिकः आकस्मिकः उपायः अस्ति ।
  • कतिपयानां धारणानां अन्तर्गतं भारानाम् उपरि प्रयुक्तः कोलाहलः नियमितीकरणस्य अधिकपरम्परागतरूपेषु समतुल्यरूपेण व्याख्यातुं शक्यते, येन शिक्षितव्यस्य कार्यस्य स्थिरतां प्रोत्साहयति
  • वयं प्रतिगमनस्य प्रकरणस्य अध्ययनं कुर्मः अर्थात् विशेषतासमूहस्य प्रशिक्षणं कुर्मः x बोल्डसिम्बल{x}xफंक्शन् एकं स्केलर प्रति मैप् कृतम् य ^ ( x ) टोपी{य}(बोल्डसिम्बल{x})य्^(x), तथा च मॉडल् पूर्वानुमानमूल्यं मापनार्थं न्यूनतमवर्गव्ययकार्यस्य उपयोगं कुर्वन्तु य ^ टोपी{य} ।य्^सत्यमूल्येन सह य्य्य्त्रुटि
    J = E p ( x , y ) [ ( y ^ ( x ) − y ) 2 ] —सूत्र 1 J=mathbb{E}_{p(x,y)}[(hat{y}(boldsymbol{x} )-y)^2]quadtextbf{पादटिप्पणीप्रमाण{---सूत्र 1}}जे=पृ(x,य्)[(य्^(x)य्)2]सूत्रम्1
  • प्रशिक्षणसमूहे अन्तर्भवति मि.मीपुएनोटेशन उदाहरणानि { ( x ( i ) , y ( i ) ) , ... , ( x ( m ) , y ( m ) ) } {(बोल्डसिम्बल{x}^{(i)},y^{(i)}),बिन्दवः ,(बोल्डसिम्बल{x}^{(म)},य^{(म)})}{(x(अहम्‌),य्(अहम्‌)),,(x(पु),य्(पु))}
  • अधुना वयं कल्पयामः यत् प्रत्येकस्मिन् इनपुट् प्रतिनिधित्वे जालभारानाम् यादृच्छिकं क्षोभं योजितं भवति ε w ∼ N ( ε ; 0 , η I ) epsilon_wsimmathcal {N} (बोल्ड्सिम्बल {एप्सिलॉन}; 0,एटाबोल्ड्सिम्बल {I})ϵwन॰(ϵ;0,ηअहम्‌)कल्पयतु अस्माकं मानकम् अस्ति llस्तर MLP पाठ{MLP}म.एल.पी .वयं क्षोभप्रतिरूपं यथा सूचयामः y ^ ε W ( x ) टोपी{y}_{epsilon_{बोल्डसिम्बल{W}}}(बोल्डसिम्बल{x})य्^ϵ(x)
  • शोरप्रवेशस्य अभावेऽपि जालनिर्गमदोषस्य वर्गं न्यूनीकर्तुं अस्माकं रुचिः अस्ति । अतः उद्देश्यकार्यं भवति- १. { J ^ W = E p ( x , y , ε W ) [ ( y ^ ε W ( x ) − y ) 2 ] —सूत्र 2 = E p ( x , y , ε W ) [ y ^ ε W 2 ( x ) − 2 yy ^ ε W ( x ) + y 2 ] —सूत्र 3 {जे^=पृ(x,य्,ϵ)[(य्^ϵ(x)य्)2]सूत्रम्2=पृ(x,य्,ϵ)[य्^ϵ2(x)2य्य्^ϵ(x)+य्2]सूत्रम्3
  • लघु कृते η एताη, भारितकोलाहलं न्यूनीकरोति (variance is η I etaboldsymbol{I} इति ।ηअहम्‌)इत्यस्य जे जेजेअतिरिक्तनियमनपदं न्यूनीकर्तुं समकक्षम् J : η E p ( x , y ) [ ∥ ∇ W y ^ ( x ) ∥ 2 ] J:etamathbb{E}_{p(x,y)}left[Vertnabla_{boldsymbol{W}}hat{y} (boldsymbol{x})Vert^2right] इति ।जे:ηपृ(x,य्)[य्^(x)2]
  • नियमितीकरणस्य एतत् रूपं मापदण्डान् मापदण्डस्थानस्य क्षेत्रेषु प्रवेशं कर्तुं प्रोत्साहयति यत्र भारयोः लघुक्षोभस्य उत्पादनस्य उपरि तुल्यकालिकरूपेण अल्पः प्रभावः भवति अन्येषु शब्देषु, एतत् प्रतिरूपं एकस्मिन् प्रदेशे धक्कायति यत् भारस्य लघुपरिवर्तनस्य प्रति तुल्यकालिकरूपेण असंवेदनशीलं भवति, तथा च प्राप्ताः बिन्दवः केवलं न्यूनतमबिन्दवः न सन्ति, अपितु समतलक्षेत्रैः परितः न्यूनतमबिन्दवः सन्ति (Hochreiter and Schmidhuber, 1995)
  • सरलीकृतरेखीयप्रतिगमने (उदा. y ^ ( x ) = w ⊤ x + b hat{y}(boldsymbol{x})=boldsymbol{w}^topboldsymbol{x}+bय्^(x)=wx+, नियमितपदं क्षीणं भवति : १. η E p ( x ) [ ∥ x ∥ 2 ] एतामथब्ब{E}_{p(x)}[Vertboldsymbol{x}Vert^2]ηपृ(x)[x2], यस्य फंक्शन् इत्यस्य पैरामीटर् इत्यनेन सह किमपि सम्बन्धः नास्ति, अतः न भविष्यति J ^ w हत्{J}_wजे^wआदर्शमापदण्डानां ढालयोः योगदानं करोति ।

आउटपुट् लक्ष्ये कोलाहलं प्रविशन्तु

  • अधिकांशः दत्तांशसमूहः य्य्य् लेबल्-मध्ये केचन दोषाः सन्ति ।कदा य्य्य्अधिकतमं कर्तुं गलतम् अस्ति log ⁡ प ( y ∣ x ) log p(ymidboldsymbol{x})लोपृ(य्x)हानिकारकं स्यात्।
  • एतस्य निवारणस्य एकः उपायः अस्ति यत् लेबल्-मध्ये कोलाहलस्य स्पष्टतया प्रतिरूपणं करणीयम् ।
    • यथा - कस्यचित् लघुनित्यस्य कृते तत् कल्पयितुं शक्नुमः ε epsilon इतिϵ, प्रशिक्षण सेट् लेबल य्य्य्सम्यक्त्वस्य सम्भावना अस्ति 1 − ε 1-एप्सिलोन1ϵ, अन्यत् किमपि सम्भाव्यं लेबलं सम्यक् भवेत् ।
    • एषा धारणा स्पष्टतया कोलाहलपूर्णनमूनानि न गृहीत्वा व्ययकार्येण सह विश्लेषणात्मकरूपेण सहजतया संयोजितुं शक्यते ।
    • उदाहरणतया,लेबल स्मूथिंग(लेबल स्मूथिंग) आधारित क्क्kएकं उत्पादनम् softmax पाठ{सॉफ्टमैक्स}softmaxfunction, यत् स्पष्टं वर्गीकरणं निर्दिशति 0 0 0तथा 1 1 1प्रतिस्थापनं कृत्वा ε k − 1 प्रदर्शनशैलीफ्रैक{epsilon}{k-1}k1ϵतथा 1 − ε 1-एप्सिलोन1ϵ, प्रतिरूपं नियमितं कर्तुं ।
  • एतेषां अशुद्धलक्ष्याणां उत्पादनस्य उपरि मानकपार-एन्ट्रोपी-हानिः उपयोक्तुं शक्यते ।उपयुञ्जताम्‌ softmax पाठ{सॉफ्टमैक्स}softmaxकार्याणां स्पष्टलक्ष्याणां च अधिकतमसंभावनाशिक्षणं कदापि अभिसरणं न भवेत् - softmax पाठ{सॉफ्टमैक्स}softmaxकार्याणि कदापि यथार्थतया पूर्वानुमानं कर्तुं न शक्नुवन्ति 0 0 0संभाव्यता वा 1 1 1 संभाव्यता, अतः बृहत्तरं बृहत्तरं च भारं निरन्तरं शिक्षते, भविष्यवाणयः अधिकं चरमरूपेण भवन्ति । अन्येषां नियमितीकरणरणनीतयः यथा भारक्षयः इत्यादीनां उपयोगेन एतत् निवारयितुं शक्यते । लेबल स्मूथिंग् इत्यस्य लाभः अस्ति यत् समीचीनवर्गीकरणे बाधां विना मॉडल् निर्विवादसंभावनानां अनुसरणं न करोति । एषा रणनीतिः १९८० तमे दशके प्रयुक्ता अस्ति तथा च आधुनिक-तंत्रिकाजालेषु प्रमुखतया दृश्यते (Szegedy et al., 2015) ।

सारांशं कुरुत

  • गहनशिक्षणे शोरदृढतासुधारः एतत् सुनिश्चित्य कुञ्जी अस्ति यत् वास्तविक-जगति-वातावरणेषु आदर्शः स्थिररूपेण कार्यं करोति । नवीनतकनीकीसाधनानाम् एकस्याः श्रृङ्खलायाः माध्यमेन, यथा आँकडावर्धनम्, शोर-इञ्जेक्शन-प्रशिक्षणं, मॉडल-संरचना-अनुकूलनम् इत्यादीनां माध्यमेन, वयं प्रभावीरूपेण शोर-सहिष्णुतां, परिचय-सटीकतायां च मॉडलस्य सुधारं कर्तुं शक्नुमः एते प्रयासाः न केवलं गहनशिक्षणप्रौद्योगिक्याः अग्रे विकासं प्रवर्धयन्ति, अपितु वाक्परिचयः, प्रतिबिम्बपरिचयः, प्राकृतिकभाषाप्रक्रियाकरणम् इत्यादिषु क्षेत्रेषु व्यावहारिकप्रयोगानाम् अधिकविश्वसनीयं कुशलं च समाधानं आनयन्ति
  • भविष्ये अनुसन्धानस्य गहनतायाः प्रौद्योगिक्याः निरन्तरस्य उन्नतिः च अस्माकं विश्वासस्य कारणं वर्तते यत् गहनशिक्षणप्रतिमानानाम् कोलाहलदृढता अधिकं सुधरति, अधिकक्षेत्रेषु क्रान्तिकारीपरिवर्तनानि आनयिष्यति।

पूर्वसामग्रीणां पुनरागमनम्

गहनशिक्षण-दत्तांशसमूहवर्धनस्य नियमितीकरणप्रौद्योगिकी