प्रौद्योगिकी साझेदारी

गहनशिक्षणे सक्रियीकरणकार्यस्य विकासः अनुप्रयोगश्च : समीक्षा

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

संक्षेपः

अयं लेखः गहनशिक्षणे सक्रियकरणकार्यस्य विकासस्य व्यापकरूपेण समीक्षां करोति, प्रारम्भिकसिग्मोइड् तथा तान्ह कार्येभ्यः आरभ्य व्यापकरूपेण प्रयुक्ता ReLU श्रृङ्खलापर्यन्तं, सद्यः प्रस्तावितानां नवीनसक्रियताकार्याणां यथा Swish, Mish तथा GeLU इत्यादीनां विशिष्टप्रतिरूपेषु विभिन्नसक्रियीकरणकार्यस्य गणितीयव्यञ्जनानां, लक्षणानाम्, लाभानाम्, सीमानां, अनुप्रयोगानाम् गहनविश्लेषणं क्रियते व्यवस्थित तुलनात्मकविश्लेषणस्य माध्यमेन, अयं लेखः सक्रियीकरणकार्यस्य डिजाइनसिद्धान्तानां, कार्यप्रदर्शनमूल्यांकनमानकानां, सम्भाव्यभविष्यविकासदिशानां च चर्चां करोति, गहनशिक्षणप्रतिमानानाम् अनुकूलनस्य डिजाइनस्य च सैद्धान्तिकमार्गदर्शनं प्रदाति

१ परिचयः

सक्रियीकरणकार्यं तंत्रिकाजालेषु एकः प्रमुखः घटकः अस्ति, यत् न्यूरॉन्सस्य निर्गमस्थाने अरैखिकलक्षणानाम् परिचयं करोति, येन तंत्रिकाजालस्य जटिल-अरैखिक-मानचित्रणं ज्ञातुं प्रतिनिधित्वं च भवति सक्रियकरणकार्यं विना, तंत्रिकाजालं कियत् अपि गभीरं न भवतु, मूलतः केवलं रेखीयपरिवर्तनानां प्रतिनिधित्वं कर्तुं शक्नोति, यत् जालस्य अभिव्यञ्जकक्षमताम् अतीव सीमितं करोति
गहनशिक्षणस्य तीव्रविकासेन सह सक्रियीकरणकार्यस्य परिकल्पना चयनं च आदर्शप्रदर्शनं प्रभावितं कुर्वन्तः महत्त्वपूर्णाः कारकाः अभवन् । विभिन्नसक्रियीकरणकार्यस्य भिन्नाः लक्षणाः सन्ति, यथा ढालद्रवता, गणनाजटिलता, अरैखिकतायाः डिग्री इत्यादयः एते लक्षणाः तंत्रिकाजालस्य प्रशिक्षणदक्षतां, अभिसरणवेगं, अन्तिमप्रदर्शनं च प्रत्यक्षतया प्रभावितयन्ति
अस्य लेखस्य उद्देश्यं सक्रियीकरणकार्यस्य विकासस्य व्यापकसमीक्षा, विभिन्नसक्रियकार्यस्य लक्षणानाम् गहनविश्लेषणं, आधुनिकगहनशिक्षणप्रतिमानयोः तेषां अनुप्रयोगस्य अन्वेषणं च अस्ति वयं निम्नलिखितपक्षेषु चर्चां करिष्यामः- १.

  1. क्लासिकसक्रियीकरणकार्यम् : प्रारम्भिकसामान्यतया प्रयुक्तानि सक्रियकरणकार्यं यथा सिग्मोइड् तथा तान्ह इत्यादीनि सन्ति ।
  2. ReLU तथा तस्य रूपान्तराणि : ReLU, Leaky ReLU, PReLU, ELU इत्यादयः सन्ति ।
  3. नवीनसक्रियीकरणकार्यम् : सद्यः प्रस्ताविताः कार्याणि यथा Swish, Mish, GeLU च ।
  4. विशेष-उद्देश्य-सक्रियीकरण-कार्यम् : यथा Softmax, Maxout इत्यादयः ।
  5. सक्रियणकार्यस्य तुलना चयनं च : विभिन्नेषु परिदृश्येषु सक्रियीकरणकार्यचयनरणनीतयः चर्चां कुर्वन्तु।
  6. भविष्यस्य दृष्टिकोणः : सक्रियीकरणकार्यसंशोधनस्य सम्भाव्यविकासदिशानां अन्वेषणं कुर्वन्तु।

अस्याः व्यवस्थितसमीक्षायाः विश्लेषणस्य च माध्यमेन वयं आशास्महे यत् शोधकर्तृभ्यः अभ्यासकर्तृभ्यः च गहनशिक्षणप्रतिरूपनिर्माणे सक्रियकरणकार्यस्य उत्तमरीत्या चयनं उपयोगं च कर्तुं तेषां सहायतार्थं व्यापकं सन्दर्भं प्रदास्यामः।

2. क्लासिक सक्रियण कार्य

२.१ सिग्मोइड् कार्यम्

सिग्मोइड् फंक्शन् प्रारम्भिकेषु व्यापकरूपेण प्रयुक्तेषु सक्रियकरणकार्येषु अन्यतमम् अस्ति, तस्य गणितीयव्यञ्जना च अस्ति :
σ ( x ) = 1 1 + ई − x सिग्मा(x) = भग्न{1}{1 + ई^{-x}}σ(x)=1+x1
image.png

विशेषताः लाभाः च : १.
  1. निर्गमपरिधिः सीमाबद्धः अस्ति: सिग्मोइड् फंक्शन् इत्यस्य आउटपुट् रेन्ज् (0, 1) मध्ये भवति, येन संभाव्यतासमस्यानां निवारणाय विशेषतया उपयुक्तं भवति ।
  2. स्निग्धं विभेदनीयं च: कार्यं सम्पूर्णे डोमेने सुचारुतया विभेदनीयं च भवति, यत् ढाल-अवरोह-एल्गोरिदमस्य अनुप्रयोगाय लाभप्रदं भवति ।
  3. व्याख्यानात्मकम्: निर्गमस्य व्याख्या संभाव्यतारूपेण कर्तुं शक्यते, विशेषतः द्विचक्रीयवर्गीकरणसमस्यानां निर्गमस्तरस्य कृते उपयुक्तम् ।
हानिः सीमाः च : १.
  1. लुप्तप्रवण ढालसमस्या: यदा निवेशमूल्यं बृहत् लघु वा भवति तदा ढालः शून्यस्य समीपे भवति, यत् गहनजालेषु लुप्तप्रवणसमस्यां जनयितुं शक्नोति ।
  2. निर्गम अशून्य केन्द्र: सिग्मोइड् इत्यस्य आउटपुट् सर्वं सकारात्मकं भवति, यत् अग्रिमस्तरस्य न्यूरॉनस्य निवेशं सर्वदा सकारात्मकं भवितुम् अर्हति, येन मॉडलस्य अभिसरणवेगः प्रभावितः भवति
  3. कम्प्यूटेशनल जटिलता: घातीयक्रियाः सम्मिलिताः सन्ति, गणनाजटिलता च तुल्यकालिकरूपेण अधिका भवति ।
प्रयोज्यदृश्यम् : १.
  1. प्रारम्भिक उथले तंत्रिकाजाल।
  2. द्विचक्रीयवर्गीकरणसमस्यानां कृते आउटपुट् लेयर ।
  3. परिदृश्यानि यत्र उत्पादनं (0, 1) परिधिपर्यन्तं सीमितं भवितुम् आवश्यकं भवति ।
अन्यैः कार्यैः सह तुलना : १.

पश्चात् प्रकटितानां ReLU इत्यादिभिः कार्यैः सह तुलने गहनजालेषु सिग्मोइड् इत्यस्य अनुप्रयोगः बहु सीमितः अभवत्, मुख्यतया तस्य लुप्तप्रवणस्य ढालसमस्यायाः कारणात् परन्तु केषुचित् विशिष्टेषु कार्येषु (यथा द्विचक्रीयवर्गीकरणं) सिग्मोइड् अद्यापि प्रभावी विकल्पः अस्ति ।

२.२ तन्ः कार्यम्

Tanh (अतिपरवलयिक स्पर्शरेखा) फंक्शन् सिग्मोइड् फंक्शन् इत्यस्य उन्नतसंस्करणरूपेण गणयितुं शक्यते, तस्य गणितीयव्यञ्जना च अस्ति :
तन्ह ⁡ ( x ) = ex − e − xex + e − x तन्ह(x) = frac{e^x - e^{-x}}{e^x + e^{-x}}तन्ः(x)=x+xxx
image.png

विशेषताः लाभाः च : १.
  1. शून्य केन्द्रनिर्गमः: Tanh फंक्शन् इत्यस्य आउटपुट् रेन्ज् (-1, 1) मध्ये भवति, यत् सिग्मोइड् इत्यस्य अशून्यकेन्द्रसमस्यायाः समाधानं करोति ।
  2. बलिष्ठतरः ढालः: यत्र निवेशः शून्यस्य समीपे भवति तत्र Tanh फंक्शन् इत्यस्य ढालः Sigmoid फंक्शन् इत्यस्मात् बृहत्तरः भवति, यत् शिक्षणस्य गतिं कर्तुं साहाय्यं करोति ।
  3. स्निग्धं विभेदनीयं च: सिग्मोइड् इत्यस्य सदृशं तन्हः अपि स्निग्धः, भेद्यः च अस्ति ।
हानिः सीमाः च : १.
  1. लुप्तप्रवण ढालसमस्या: यद्यपि सिग्मोइड् इत्यस्य अपेक्षया सुधारः कृतः तथापि तन्ह इत्यस्य अद्यापि निवेशमूल्यं बृहत् लघु वा भवति चेत् ढालस्य लुप्ततायाः समस्या अस्ति ।
  2. कम्प्यूटेशनल जटिलता: सिग्मोइड् इत्यस्य सदृशं तन्ह इत्यत्र अपि घातीयक्रियाः सन्ति, तस्य गणनाजटिलता अपि उच्चा भवति ।
प्रयोज्यदृश्यम् : १.
  1. शून्यकेन्द्रितनिर्गमस्य आवश्यकता भवति इति परिदृश्येषु सिग्मोइड् इत्यस्मात् उत्तमम् ।
  2. प्रायः पुनरावर्तनीय-तंत्रिका-जालम् (RNN) तथा दीर्घ-अल्पकालिक-स्मृति-संजालेषु (LSTM) उपयुज्यते ।
  3. केषुचित् परिदृश्येषु उपयुज्यते यत्र सामान्यीकृतं उत्पादनं महत्त्वपूर्णं भवति।
सुधारः तुलना च : १.

Tanh फंक्शन् सिग्मोइड् फंक्शन् इत्यस्य उन्नतसंस्करणरूपेण गणयितुं शक्यते मुख्यं सुधारं आउटपुट् इत्यस्य शून्य-केन्द्रीकरणे अस्ति । एतत् विशेषता अनेकेषु परिस्थितिषु विशेषतः गहनजालेषु Tanh इत्यस्य प्रदर्शनं Sigmoid इत्यस्मात् उत्तमं करोति । परन्तु पश्चात् प्रकटितस्य ReLU इत्यादिकार्यस्य तुलने तन्हस्य अद्यापि ढाल-अन्तर्धानस्य समस्या अस्ति, यत् अत्यन्तं गहनेषु जालपुटेषु मॉडलस्य कार्यक्षमतां प्रभावितं कर्तुं शक्नोति
गहनशिक्षणस्य आरम्भिकेषु दिनेषु सिग्मोइड्, तान्ह इति शास्त्रीयसक्रियकार्यद्वयं महत्त्वपूर्णां भूमिकां निर्वहति स्म, तेषां लक्षणं सीमाश्च तदनन्तरं सक्रियीकरणकार्यस्य विकासं अपि प्रवर्धयन्ति स्म यद्यपि तेषां स्थाने बहुषु परिदृश्येषु अद्यतनसक्रियीकरणकार्यं कृतम् अस्ति तथापि तेषां विशिष्टकार्येषु जालसंरचनेषु च तेषां अद्वितीयं अनुप्रयोगमूल्यं वर्तते

3. ReLU तस्य रूपान्तराणि च

३.१ ReLU (संशोधित रेखीय इकाई) २.

ReLU कार्यस्य प्रस्तावः सक्रियीकरणकार्यस्य विकासे महत्त्वपूर्णः माइलस्टोन् अस्ति । अस्य गणितीयव्यञ्जनम् सरलम् अस्ति : १.
ReLU ( x ) = अधिकतम ⁡ ( 0 , x ) पाठ{ReLU} (x) = अधिकतम (0, x) .ReLU(x)=अधिकतमम्(0,x)
image.png

विशेषताः लाभाः च : १.
  1. गणना सरलम् अस्ति: ReLU इत्यस्य गणनाजटिलता सिग्मोइड् तथा तान्ह इत्येतयोः अपेक्षया बहु न्यूना भवति, यत् संजालप्रशिक्षणस्य त्वरिततायै लाभप्रदम् अस्ति ।
  2. शमनप्रवणता अन्तर्धानं भवति: सकारात्मकनिवेशस्य कृते ReLU इत्यस्य ढालः सर्वदा 1 भवति, यत् गहनजालेषु लुप्तप्रवणसमस्यां प्रभावीरूपेण न्यूनीकरोति ।
  3. विरल सक्रियता: ReLU न्यूरॉन्सस्य भागस्य उत्पादनं 0 कर्तुं शक्नोति, येन जालस्य विरलव्यञ्जनं भवति, यत् कतिपयेषु कार्येषु लाभप्रदं भवति ।
  4. जैविक व्याख्या: ReLU इत्यस्य एकपक्षीयनिरोधात्मकगुणाः जैविकन्यूरोन्-व्यवहारस्य सदृशाः सन्ति ।
हानिः सीमाः च : १.
  1. "मृत ReLU" समस्या: यदा निवेशः ऋणात्मकः भवति तदा ढालः शून्यः भवति, यस्य परिणामेण न्यूरॉनस्य स्थायी निष्क्रियता भवितुम् अर्हति ।
  2. अशून्य केन्द्रनिर्गम: ReLU इत्यस्य आउटपुट् सर्वे अ-नकारात्मकाः मूल्याः सन्ति, ये अग्रिम-स्तरस्य शिक्षण-प्रक्रियाम् प्रभावितं कर्तुं शक्नुवन्ति ।
प्रयोज्यदृश्यम् : १.
  1. गहनेषु कन्वोल्यूशनल् न्यूरल नेटवर्क् (यथा ResNet, VGG इत्यादिषु) व्यापकरूपेण उपयुज्यते ।
  2. अधिकांश फीडफोरवर्ड न्यूरल नेटवर्क् कृते उपयुक्तम्।
अन्यैः कार्यैः सह तुलना : १.

सिग्मोइड् तथा तान्ह इत्येतयोः तुलने ReLU गहनजालेषु महत्त्वपूर्णं लाभं दर्शयति, मुख्यतया प्रशिक्षणवेगस्य दृष्ट्या तथा ढालस्य अन्तर्धानस्य न्यूनीकरणस्य दृष्ट्या परन्तु "मृत ReLU" समस्यायाः कारणात् शोधकर्तारः विविधानि उन्नतसंस्करणाः प्रस्तावितुं प्रेरिताः सन्ति ।

३.२ लीकी ReLU

ReLU इत्यस्य "मृत्यु" समस्यायाः समाधानार्थं Leaky ReLU इति प्रस्तावितं यत् -
लीकी ReLU ( x ) = { x , यदि x > 0 α x , यदि x ≤ 0 पाठ{लीकी ReLU} (x) ={x,यदिx>0αx,यदिx0 लीकी ReLU(x)={ x,αx,यदिx>0यदिx0
इत्यस्मिन्‌, α अल्फाα लघु धनात्मकं नित्यं भवति, प्रायः ०.०१ ।
image.png

विशेषताः लाभाः च : १.
  1. "मृत ReLU" समस्यायाः उपशमनम्: अद्यापि न्यूरॉन्सस्य पूर्णतया निष्क्रियतां परिहरितुं निवेशः नकारात्मकः भवति चेत् लघु ढालं धारयन्तु।
  2. ReLU इत्यस्य लाभं स्थापयन्तु: सकारात्मक अर्धअक्षे रेखीयतां निर्वाहयन्तु, गणना सरलं भवति, तथा च ढालस्य अन्तर्धानं न्यूनीकर्तुं साहाय्यं करोति।
हानिः सीमाः च : १.
  1. अतिपैरामीटर् परिचयः α अल्फाαमूल्यानां चयनार्थं ट्यूनिङ्गस्य आवश्यकता भवति, येन मॉडल् जटिलता वर्धते ।
  2. अशून्य केन्द्रनिर्गम: ReLU इत्यस्य सदृशं अद्यापि उत्पादनं शून्यकेन्द्रितं नास्ति ।
प्रयोज्यदृश्यम् : १.
  1. यत्र ReLU दुर्बलं कार्यं करोति तेषु परिदृश्येषु विकल्परूपेण।
  2. यत्र काश्चन नकारात्मकमूल्यसूचनाः धारयितुं आवश्यकाः सन्ति तत्र कार्येषु उपयुज्यते ।

३.३ PReLU (पैरामेट्रिक ReLU) २.

PReLU Leaky ReLU इत्यस्य एकः प्रकारः अस्ति, यत्र ऋणात्मकस्य अर्ध-अक्षस्य प्रवणता एकः शिक्षितुं योग्यः पैरामीटर् अस्ति:
PReLU ( x ) = { x , यदि x > 0 α x , यदि x ≤ 0 पाठ{PReLU}(x) ={x,यदिx>0αx,यदिx0 PReLU(x)={ x,αx,यदिx>0यदिx0
अत्र α अल्फाα पृष्ठप्रसारद्वारा ज्ञाताः मापदण्डाः सन्ति ।
image.png

विशेषताः लाभाः च : १.
  1. अनुकूली शिक्षण: दत्तांशस्य आधारेण स्वयमेव सर्वाधिकं उपयुक्तं नकारात्मकं अर्ध-अक्ष-प्रवणं ज्ञातुं शक्यते ।
  2. कार्यप्रदर्शनक्षमता: केषुचित् कार्येषु PReLU ReLU तथा Leaky ReLU इत्येतयोः अपेक्षया उत्तमं प्रदर्शनं प्राप्तुं शक्नोति ।
हानिः सीमाः च : १.
  1. आदर्शस्य जटिलतां वर्धयन्तु: अतिरिक्तशिक्षणीयमापदण्डानां परिचयः प्रतिरूपस्य जटिलतां वर्धयति।
  2. सम्भाव्य अतिफिटिंग: केषुचित् सन्दर्भेषु, विशेषतः लघुदत्तांशसमूहेषु अतिफिटिङ्ग् भवितुं शक्नोति ।
प्रयोज्यदृश्यम् : १.
  1. बृहत्-परिमाणस्य दत्तांशसमूहेषु गहनशिक्षणकार्यम्।
  2. अनुकूलसक्रियीकरणकार्यस्य आवश्यकतां येषां परिदृश्यानां आवश्यकता भवति।

३.४ ELU (घातीय रेखीय एकक) २.

ELU ReLU इत्यस्य लाभं नकारात्मकनिवेशानां संसाधनं च संयोजयितुं प्रयतते तस्य गणितीयव्यञ्जना अस्ति :
ELU ( x ) = { x , यदि x > 0 α ( ex − 1 ) , यदि x ≤ 0 पाठ{ELU}(x) ={x,यदिx>0α(x1),यदिx0 एलु(x)=