मानवरूपी रोबोट सुदृढीकरण सीखने नियन्त्रण classification

मानवरूपी रोबोट् इत्यस्य सुदृढीकरणशिक्षणनियन्त्रणवर्गीकरणं

2024-07-11

मानवरूपी रोबोट् कृते सुदृढीकरणशिक्षणनियन्त्रणम्

मानवरूपी रोबोट्-नियन्त्रणं रोबोटिक्स-क्षेत्रे महत्त्वपूर्णा शोध-दिशा अस्ति, यस्मिन् सुदृढीकरण-शिक्षण-प्रौद्योगिक्याः (RL) प्रौद्योगिक्याः व्यापकरूपेण उपयोगः अन्तिमेषु वर्षेषु कृतः अस्ति मानवरूपी रोबोट् नियन्त्रयितुं सुदृढीकरणशिक्षणप्रौद्योगिक्याः उपयोगः कथं करणीयः इति दर्शयन्तः अनेकाः विशिष्टाः प्रकरणाः निम्नलिखितरूपेण सन्ति:

1. गहनसुदृढीकरणशिक्षणं मानवरूपं रोबोट् चलनं नियन्त्रयति:

प्रकरणस्य अवलोकनम् : १.
स्थिरपदयात्रा प्राप्तुं मानवरूपी रोबोट् प्रशिक्षितुं गहनसुदृढीकरणशिक्षण (DRL) प्रौद्योगिक्याः उपयोगः भवति । अनुकरणीयवातावरणे निरन्तरं परीक्षणं समायोजनं च कृत्वा रोबोट् भिन्न-भिन्न-भूभागेषु कथं गमनम् इति ज्ञातुं शक्नोति ।
विशिष्टविधिः : १.
Deep Q-Network (DQN) अथवा Policy Gradient (Policy Gradient) एल्गोरिदम् इत्यस्य उपयोगं कुर्वन्तु, यथा PPO (Proximal Policy Optimization) अथवा DDPG (Deep Deterministic Policy Gradient) । पर्यावरणीयस्थितीनां, क्रियाणां, पुरस्कारस्य च निरन्तरं नमूनाकरणेन आदर्शमापदण्डाः अद्यतनाः भवन्ति ।
प्रकरणस्य आवेदनम् : १.
गूगल डीपमाइण्ड् इत्यनेन २०१६ तमे वर्षे डीआरएल-प्रौद्योगिक्याः उपयोगेन आभासी-मानवरूपस्य रोबोट्-इत्यस्य सफलतया प्रशिक्षणं प्राप्तम् यत् विविध-भूभागेषु चलितुं शक्नोति ।

2. अनुकरणशिक्षणस्य सुदृढीकरणशिक्षणस्य च आधारेण मानवरूपी रोबोटगतिनियन्त्रणम् : १.

प्रकरणस्य अवलोकनम् : १.
अनुकरणशिक्षणस्य सुदृढीकरणशिक्षणस्य च संयोजनेन मानवरूपी रोबोट् धावनं, कूदनं वा जिम्नास्टिकस्य गतिः इत्यादीनां जटिलमोटरकौशलं शिक्षितुं समर्थाः भवन्ति
विशिष्टविधिः : १.
मनुष्याणां अथवा अन्येषां रोबोट्-इत्यस्य क्रियादत्तांशस्य (यथा MoCap-दत्तांशस्य) अनुकरणं कृत्वा रोबोट् प्रथमं मूलभूतक्रिया-प्रतिमानं ज्ञायते, ततः वास्तविक-वातावरणस्य अनुकूलतायै सुदृढीकरण-शिक्षणस्य माध्यमेन तान् परिष्कृत्य अनुकूलयति
प्रकरणस्य आवेदनम् : १.
ओपनएआइ-संशोधनदलेन एतस्याः पद्धतेः उपयोगः आभासी-मानवरूपस्य रोबोट्-प्रशिक्षणार्थं कृतः यः जिम्नास्टिक-गति-कार्यं कर्तुं शक्नोति ।

3. मानवरूपेषु रोबोट्षु बहुकार्यशिक्षणस्य स्थानान्तरणशिक्षणस्य च अनुप्रयोगः : १.

प्रकरणस्य अवलोकनम् : १.
बहुकार्यशिक्षणस्य (बहुकार्यशिक्षणस्य) तथा स्थानान्तरणशिक्षणस्य (स्थानांतरणशिक्षणस्य) प्रौद्योगिक्याः माध्यमेन मानवरूपिणः रोबोट् एकं कार्यं (यथा पादचालनं) ज्ञात्वा अन्यसम्बद्धानि कार्याणि (यथा धावनं वा सीढ्याः उपरि अधः च गमनम्) अधिकशीघ्रं ज्ञातुं शक्नुवन्ति
विशिष्टविधिः : १.
साझाप्रतिरूपस्य आधारेण बहुविधसम्बद्धकार्यं प्रशिक्षयन्तु, कार्याणां मध्ये साझेदारीप्रवासयोः माध्यमेन समग्रशिक्षणदक्षतां कार्यप्रदर्शनं च सुधारयन्तु।
प्रकरणस्य आवेदनम् : १.
DeepMind इत्यस्य शोधं दर्शयति यत् बहुकार्यशिक्षणस्य उपयोगः कथं भवति तथा च शिक्षणस्य स्थानान्तरणं भवति येन रोबोट् नूतनकौशलं अधिकतया ज्ञातुं विभिन्नकार्ययोः मध्ये ज्ञानं साझां कर्तुं समर्थाः भवेयुः।

4. मानवरूपी रोबोट् नियन्त्रयितुं आदर्श-आधारित-सुदृढीकरण-शिक्षणम्

प्रकरणस्य अवलोकनम् : १.
आदर्श-आधारित-सुदृढीकरण-शिक्षणस्य उपयोगः पर्यावरणस्य गतिशीलं प्रतिरूपं ज्ञात्वा पूर्वानुमानं योजनां च कर्तुं भवति, येन मानवरूपिणः रोबोट् अधिकतया गतिं नियन्त्रयितुं शक्नुवन्ति
विशिष्टविधिः : १.
रोबोट् इत्यस्य पर्यावरणस्य च भौतिकं प्रतिरूपं स्थापयन्तु, तथा च भविष्यस्य अवस्थानां पुरस्कारस्य च पूर्वानुमानं कृत्वा नियन्त्रणरणनीतिं अनुकूलितं कुर्वन्तु, यथा MBPO (Model-Based Policy Optimization) एल्गोरिदमस्य उपयोगः
प्रकरणस्य आवेदनम् : १.
एमआईटी इत्यस्य रोबोटिक्स प्रयोगशाला अज्ञातवातावरणेषु मानवरूपी रोबोट् इत्यस्य कुशलगतिनियोजनं नियन्त्रणं च प्राप्तुं मॉडल-आधारितसुदृढीकरणशिक्षणस्य उपयोगं करोति ।

प्रौद्योगिकी साझेदारी