वयं प्रतिगमनस्य प्रकरणस्य अध्ययनं कुर्मः अर्थात् विशेषतासमूहस्य प्रशिक्षणं कुर्मः x बोल्डसिम्बल{x}xफंक्शन् एकं स्केलर प्रति मैप् कृतम् य ^ ( x ) टोपी{य}(बोल्डसिम्बल{x})य्^(x), तथा च मॉडल् पूर्वानुमानमूल्यं मापनार्थं न्यूनतमवर्गव्ययकार्यस्य उपयोगं कुर्वन्तु य ^ टोपी{य} ।य्^सत्यमूल्येन सह य्य्य्त्रुटि: J = E p ( x , y ) [ ( y ^ ( x ) − y ) 2 ] —सूत्र 1 J=mathbb{E}_{p(x,y)}[(hat{y}(boldsymbol{x} )-y)^2]quadtextbf{पादटिप्पणीप्रमाण{---सूत्र 1}}जे=ईपृ(x,य्)[(य्^(x)−य्)2]—सूत्रम्1
प्रशिक्षणसमूहे अन्तर्भवति मि.मीपुएनोटेशन उदाहरणानि { ( x ( i ) , y ( i ) ) , ... , ( x ( m ) , y ( m ) ) } {(बोल्डसिम्बल{x}^{(i)},y^{(i)}),बिन्दवः ,(बोल्डसिम्बल{x}^{(म)},य^{(म)})}{(x(अहम्),य्(अहम्)),…,(x(पु),य्(पु))}
अधुना वयं कल्पयामः यत् प्रत्येकस्मिन् इनपुट् प्रतिनिधित्वे जालभारानाम् यादृच्छिकं क्षोभं योजितं भवति ε w ∼ N ( ε ; 0 , η I ) epsilon_wsimmathcal {N} (बोल्ड्सिम्बल {एप्सिलॉन}; 0,एटाबोल्ड्सिम्बल {I})ϵw∼न॰(ϵ;0,ηअहम्)कल्पयतु अस्माकं मानकम् अस्ति llलस्तर MLP पाठ{MLP}म.एल.पी .वयं क्षोभप्रतिरूपं यथा सूचयामः y ^ ε W ( x ) टोपी{y}_{epsilon_{बोल्डसिम्बल{W}}}(बोल्डसिम्बल{x})य्^ϵव(x)。
शोरप्रवेशस्य अभावेऽपि जालनिर्गमदोषस्य वर्गं न्यूनीकर्तुं अस्माकं रुचिः अस्ति । अतः उद्देश्यकार्यं भवति- १. { J ^ W = E p ( x , y , ε W ) [ ( y ^ ε W ( x ) − y ) 2 ] —सूत्र 2 = E p ( x , y , ε W ) [ y ^ ε W 2 ( x ) − 2 yy ^ ε W ( x ) + y 2 ] —सूत्र 3
{जे^व=ईपृ(x,य्,ϵव)[(य्^ϵव(x)−य्)2]—सूत्रम्2=ईपृ(x,य्,ϵव)[य्^ϵव2(x)−2य्य्^ϵव(x)+य्2]—सूत्रम्3
लघु कृते η एताη, भारितकोलाहलं न्यूनीकरोति (variance is η I etaboldsymbol{I} इति ।ηअहम्)इत्यस्य जे जेजेअतिरिक्तनियमनपदं न्यूनीकर्तुं समकक्षम् J : η E p ( x , y ) [ ∥ ∇ W y ^ ( x ) ∥ 2 ] J:etamathbb{E}_{p(x,y)}left[Vertnabla_{boldsymbol{W}}hat{y} (boldsymbol{x})Vert^2right] इति ।जे:ηईपृ(x,य्)[∥∇वय्^(x)∥2]。
नियमितीकरणस्य एतत् रूपं मापदण्डान् मापदण्डस्थानस्य क्षेत्रेषु प्रवेशं कर्तुं प्रोत्साहयति यत्र भारयोः लघुक्षोभस्य उत्पादनस्य उपरि तुल्यकालिकरूपेण अल्पः प्रभावः भवति अन्येषु शब्देषु, एतत् प्रतिरूपं एकस्मिन् प्रदेशे धक्कायति यत् भारस्य लघुपरिवर्तनस्य प्रति तुल्यकालिकरूपेण असंवेदनशीलं भवति, तथा च प्राप्ताः बिन्दवः केवलं न्यूनतमबिन्दवः न सन्ति, अपितु समतलक्षेत्रैः परितः न्यूनतमबिन्दवः सन्ति (Hochreiter and Schmidhuber, 1995)
सरलीकृतरेखीयप्रतिगमने (उदा. y ^ ( x ) = w ⊤ x + b hat{y}(boldsymbol{x})=boldsymbol{w}^topboldsymbol{x}+bय्^(x)=w⊤x+ख, नियमितपदं क्षीणं भवति : १. η E p ( x ) [ ∥ x ∥ 2 ] एतामथब्ब{E}_{p(x)}[Vertboldsymbol{x}Vert^2]ηईपृ(x)[∥x∥2], यस्य फंक्शन् इत्यस्य पैरामीटर् इत्यनेन सह किमपि सम्बन्धः नास्ति, अतः न भविष्यति J ^ w हत्{J}_wजे^wआदर्शमापदण्डानां ढालयोः योगदानं करोति ।