प्रौद्योगिकी साझेदारी

# [0705] Task06 DDPG एल्गोरिदम, PPO एल्गोरिदम, SAC एल्गोरिदम [केवल सिद्धान्त]।

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

  • easy-rl PDF संस्करण नोट संगठन P5, P10 - P12
  • joyrl तुलना पूरक P11-P13
  • OpenAI दस्तावेज संगठन ⭐ https://spinningup.openai.com/en/latest/index.html

अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु

अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु

नवीनतम संस्करण PDF डाउनलोड
पता: https://github.com/datawhalechina/easy-rl/releases इति
घरेलुसम्बोधनम् (घरेलुपाठकानां कृते अनुशंसितम्) २.
लिंकः https://pan.baidu.com/s/1isqQnpVRWbb3yh83Vs0kbw निष्कर्षण कोडः us6a

easy-rl online version link (प्रतिलिपिसङ्केतस्य कृते)
सन्दर्भलिङ्कः २: https://datawhalechina.github.io/joyrl-book/

इतर:
[Errata record link] इति ।
——————
5. गहन सुदृढीकरण सीखने के मूल बातें ⭐️
मुक्तस्रोतसामग्री: https://linklearner.com/learn/summary/11
——————————

अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु
चित्र स्रोतः

निकट नीति अनुकूलन (PPO) 1.1.

समाना रणनीतिः - शिक्षितव्यः कारकः पर्यावरणेन सह अन्तरक्रियां कुर्वन् कारकः च समानाः सन्ति ।
विषमरणनीतयः : शिक्षितुं कारकः पर्यावरणेन सह अन्तरक्रियां कुर्वन् कारकः च भिन्नाः सन्ति

नीति-ढालः : आँकडानां नमूनाकरणाय बहुकालस्य आवश्यकता भवति

समान रणनीति ⟹ महत्व नमूना ~~~overset{महत्व नमूना}{दीर्घ दक्षिणबाण}~~~   महत्व नमूनाकरणम्    भिन्नाः रणनीतयः

पीपीओ : अत्यधिकं भिन्नं वितरणद्वयं परिहरतु। समान रणनीति एल्गोरिदम
1. मूल अनुकूलन आइटम J ( θ , θ ′ ) J(थीटा,थीटा ^ अभाज्य)जे(θ,θ)
2. बाध्यतावस्तूनि : १. θ थेताθ तथा θ ′ थेता^प्राइमθ निर्गमक्रियायाः केएल विचलनं ( . θ थेताθ तथा θ ′ थेता^प्राइमθ यावत् अधिकं समानं तावत् श्रेयस्करम्)

पीपीओ इत्यस्य पूर्ववर्ती अस्ति: विश्वासक्षेत्रनीतिअनुकूलनम् (TRPO) ।
TRPO इत्यस्य संचालनं कठिनं भवति यतोहि एतत् KL विचलनप्रतिबन्धं अतिरिक्तप्रतिबन्धरूपेण व्यवहरति तथा च उद्देश्यकार्य्ये न स्थापितं भवति, अतः तस्य गणना कठिना भवति अतः वयं सामान्यतया TRPO इत्यस्य स्थाने PPO इत्यस्य उपयोगं कुर्मः । पीपीओ तथा टीआरपीओ इत्येतयोः कार्यप्रदर्शनं समानं भवति, परन्तु पीपीओ इत्यस्य कार्यान्वयनम् टीआरपीओ इत्यस्मात् बहु सुकरम् अस्ति ।

KL divergence: क्रियायाः दूरम्।क्रियां कर्तुं संभाव्यतावितरणं दूरी।

पीपीओ एल्गोरिदमस्य मुख्यौ रूपौ स्तः : समीपस्थनीतिअनुकूलनदण्डः (पीपीओ-दण्डः) तथा समीपस्थनीतिअनुकूलनच्छेदनम् (पीपीओ-क्लिप्)

अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु

समानं प्रदर्शनं, कार्यान्वयनम् सुकरम्
विश्वासक्षेत्र रणनीति अनुकूलनम् ( विश्वास क्षेत्र नीति अनुकूलन,TRPO)
निकटतम रणनीति अनुकूलन ( . समीपस्थ नीति अनुकूलन, २. पीपीओ
निकट नीति अनुकूलन दण्ड ( पीपीओ-दण्डः) २.
निकटतम रणनीति अनुकूलन सिलाई ( पीपीओ-क्लिप) .

——————————
P10 विरलपुरस्कारसमस्या
1. डिजाइन पुरस्कार। डोमेनज्ञानस्य आवश्यकता भवति
प्रत्येकं प्रासंगिकं कार्यं अन्तिमपुरस्कारं नियुक्तं कथं भवति ?

2. जिज्ञासा
आन्तरिक जिज्ञासा मॉड्यूल (ICM) 1.1.
प्रवेश: अत् , स्त अ_त,स_तएकः,
उत्पादनम् : १. स ^ त् + १ हत् स्_{त्+१} ।^+1
जालस्य पूर्वानुमानितं मूल्यम् स ^ त् + १ हत् स्_{त्+१} ।^+1 सत्यमूल्येन सह स्त + १ स_{त+१} २.+1 यथा यथा अधिकं विषमाः सन्ति तथा तथा र्ति र_त^इअहम्‌ यथा बृहत्तरम्

र्ति र_त^इअहम्‌ : भविष्यस्य स्थितिः यथा यथा कठिना भवति तथा तथा कार्यस्य फलं अधिकं भवति। साहसिकं अन्वेषणं च प्रोत्साहयन्तु।

  • सूचकः अतिएकः अस्ति, भवन्तः केवलं निष्प्रयोजनवस्तूनि एव शिक्षितुं शक्नुवन्ति ।

विशेषता निष्कर्षक

जालम् २ : १.
इनपुट: सदिश φ ( स्त ) {बं फि}(स_{त}) .ϕ() तथा φ ( स्त + 1 ) {bm phi}(s_{t+1}) .ϕ(+1)

क्रियायाः पूर्वानुमानं कुरुत a ^ टोपी aएकः^ यथार्थक्रियायाः यावत् समीपं भवति तावत् उत्तमम्।

अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु

3. पाठ्यक्रमाध्ययनम्

सुलभम् -> कठिनम्

विपर्ययपाठ्यक्रमशिक्षणम् : १.
अन्तिम-अत्यन्त-आदर्श-अवस्थातः आरभ्य [वयं तत् सुवर्ण-अवस्था इति वदामः], गच्छन्तुसुवर्णराज्यस्य समीपस्थं राज्यं ज्ञातव्यम् मञ्चित "आदर्श" इति रूपेण कथयतु यत् भवन्तः एजेण्टं प्राप्तुं इच्छन्ति। अवश्यं अस्मिन् क्रमे वयं काश्चन चरमावस्थाः अर्थात् अतिसुलभाः अतिकठिनाः वा अवस्थाः इच्छया अपसारयिष्यामः ।

4. श्रेणीबद्धसुदृढीकरणशिक्षणम् (HRL) .
एजेण्टस्य रणनीतिः उच्चस्तरीयरणनीतिषु निम्नस्तरीयरणनीतिषु च विभक्ता अस्ति उच्चस्तरीयरणनीतिः वर्तमानस्थितेः आधारेण निम्नस्तरीयरणनीतिः कथं निष्पादनीया इति निर्धारयति।

————————
पृ11 अनुकरणशिक्षणम्
पुरस्कारदृश्यस्य विषये निश्चितः नास्ति

अनुकरणशिक्षणम् (IL) ९.
प्रदर्शनात् शिक्षमाणः
अप्रेंटिसशिप शिक्षण
पश्यन् शिक्षणम्

तत्र स्पष्टपुरस्काराः सन्ति : बोर्डक्रीडाः, वीडियोक्रीडाः
स्पष्टं पुरस्कारं दातुं असमर्थः: chatbot

विशेषज्ञप्रदर्शनानि संग्रहयन्तु : मानववाहनचालनस्य अभिलेखाः, मानवीयवार्तालापाः

विपर्ययम् एतानि कर्माणि निपुणः कीदृशं फलकार्यं करोति ?
विलोम सुदृढीकरणशिक्षणम् अस्तिप्रथमं पुरस्कारकार्यं ज्ञातव्यम्, पुरस्कारकार्यं ज्ञात्वा, ततः इष्टतमं अभिनेतारं अन्वेष्टुं सुदृढीकरणशिक्षणस्य उपयोगं कुर्वन्तु।

तृतीय व्यक्ति अनुकरण शिक्षण प्रौद्योगिकी

————————
P12 गहन नियतात्मक नीति ढाल (DDPG) 1.1.

अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु

अनुभवपुनःक्रीडारणनीत्याः उपयोगं कुर्वन्तु

विच्छेदन प्रयोग [नियंत्रित चर विधि] विश्लेषणप्रत्येकं बाध्यतायुद्धस्य परिणामे प्रभावः भवति ।


joyrl: ९.

डीडीपीजी_निरन्तर

आवश्यकतायांनिश्चयःरणनीति तथानिरन्तर कर्मअन्तरिक्षस्य आधारेण एषः प्रकारः एल्गोरिदम् तुल्यकालिकरूपेण स्थिरः आधाररेखा एल्गोरिदम् भविष्यति ।

निरन्तरक्रियास्थानानां कृते DQN

गहन नियतात्मक नीति ढाल एल्गोरिदम (DDPG) 1.1.

अनुभवपुनःक्रीडातन्त्रं नमूनानां मध्ये सहसंबन्धं न्यूनीकर्तुं, नमूनानां प्रभावी उपयोगं सुधारयितुम्, प्रशिक्षणस्य स्थिरतां वर्धयितुं च शक्नोति ।

अभावः : १.
1. विच्छिन्नक्रियास्थाने उपयोक्तुं न शक्यते
2、अतिमापदण्डेषु अत्यन्तं निर्भरः
3. अत्यन्तं संवेदनशीलाः प्रारम्भिकाः परिस्थितयः। एल्गोरिदम् इत्यस्य अभिसरणं कार्यक्षमतां च प्रभावितं करोति
4. स्थानीय इष्टतमं पतनं सुलभम् अस्ति।

  • नियतात्मक-रणनीत्याः स्वीकरणस्य कारणात् एल्गोरिदम् स्थानीय-इष्टतम-मध्ये पतितुं शक्नोति, वैश्विक-इष्टतम-रणनीत्याः अन्वेषणं च कठिनं कर्तुं शक्नोति अन्वेषणक्षमतां वर्धयितुं केचन उपायाः करणीयाः, यथा कोलाहलरणनीतिं योजयितुं अन्येषां अन्वेषणपद्धतीनां उपयोगः वा ।

मृदु-अद्यतनस्य लाभः अस्ति यत् एतत् सुचारुतरं मन्दतरं च भवति, यत् अत्यन्तं द्रुतगतिना भार-अद्यतन-कारणात् उत्पद्यमानं आघातं परिहरितुं शक्नोति तथा च प्रशिक्षण-विचलनस्य जोखिमं न्यूनीकर्तुं शक्नोति

द्विगुणित विलम्बित नियतात्मक नीति ढाल एल्गोरिदम (जुड़वा विलम्बित DDPG, TD3)

द्वि-विलम्ब नियतात्मक नीति ढाल एल्गोरिदम

त्रयः सुधाराः : डबल क्यू नेटवर्क्, विलम्बितं अपडेट्, शोर नियमितीकरणं
डबल क्यू नेटवर्क : द्वौ Q जालौ, लघु Q मूल्ययुक्तं चिनुत । Q मूल्यस्य अतिआकलनसमस्यायाः निवारणं कर्तुं तथा एल्गोरिदमस्य स्थिरतां अभिसरणं च सुधारयितुम्।

विलम्बितम् अद्यतनम् : अभिनेता अद्यतन-आवृत्तिः समीक्षक-अद्यतन-आवृत्तितः न्यूना भवतु

  • द्विवारं चिन्तयतु

कोलाहलः अधिकः कनियमितीकरणएवं प्रकारेण यत्मूल्य फ़ंक्शन अपडेटअधिकःमसृणः

OpenAI जिम पुस्तकालय_पेंडुलम_टीडी3

TD3 विषये OpenAI दस्तावेजान्तरफलकलिङ्कः

TD3 कागज PDF लिङ्क

PPO_निरंतर/विच्छिन्न क्रियास्थानम् [OpenAI 201708] ।

सुदृढीकरणशिक्षणे सर्वाधिकं प्रयुक्तः पीपीओ एल्गोरिदम्
विच्छिन्न + निरन्तर
द्रुतं स्थिरं च, मापदण्डं समायोजयितुं सुलभम्
आधाररेखा एल्गोरिदम

अनिर्णयित पीपीओ

व्यवहारे सामान्यतया क्लिप्-प्रतिबन्धानां उपयोगः भवति यतोहि एतत् सरलतरं, न्यूनगणनव्ययः, उत्तमपरिणामं च भवति ।

नीतितः बहिः एल्गोरिदम् कर्तुं शक्नोतिऐतिहासिक अनुभवस्य लाभं ग्रहीतुं, सामान्यतया पूर्वानुभवस्य संग्रहणार्थं पुनः उपयोगाय च अनुभवपुनर्क्रीडायाः उपयोगं कुर्वन्ति,दत्तांशस्य उपयोगस्य दक्षता अधिका अस्ति

पीपीओ इति नीतिगतं एल्गोरिदम् अस्ति

  • यद्यपि महत्त्वनमूनाकरणभागः पुरातनस्य अभिनेतानमूनाकरणस्य नमूनानां उपयोगं करोति तथापि वयं...एतेषां नमूनानां प्रत्यक्षतया उपयोगः रणनीत्याः अद्यतनीकरणाय न भवति । , तस्य स्थाने प्रथमं भिन्नदत्तांशवितरणैः उत्पद्यमानदोषाणां संशोधनार्थं महत्त्वनमूनाकरणस्य उपयोगः भवति, यद्यपि नमूनावितरणद्वयस्य अन्तरं यथासम्भवं न्यूनीकृतं भवतिअन्येषु शब्देषु, यद्यपि महत्त्वनमूनाकरणानन्तरं नमूनानि पुरातनरणनीत्या नमूनाकरणेन प्राप्यन्ते तथापि ते शक्नुवन्ति इति अवगन्तुं शक्यतेअद्यतननीत्याः अनुमानतः प्राप्तम्, अर्थात् वयं यस्य अभिनेतायाः अनुकूलनं कर्तुम् इच्छामः, यस्य अभिनेतायाः नमूनाकरणं कुर्मः सः समानः एव ।

——————————————————

—— OpenAI दस्तावेजीकरण_पीपीओ

OpenAI दस्तावेजीकरणम्
कागज arXiv अन्तरफलकलिङ्कः: निकटतमनीतिअनुकूलन एल्गोरिदम्

पीपीओ: नीतिगत-एल्गोरिदम्, असतत-अथवा निरन्तर-क्रिया-स्थानानां कृते उपयुक्तम् ।संभव स्थानीय इष्टतम

पीपीओ इत्यस्य प्रेरणा टीआरपीओ इत्यस्य समाना एव अस्ति यत् विद्यमानदत्तांशस्य लाभः कथं भवति इतिस्वस्य रणनीत्यां बृहत्तमं सम्भवं सुधारपदं गृह्यताम्, अत्यधिकं परिवर्तनं विना तथा च आकस्मिकतया प्रदर्शनदुर्घटनाम् अकुर्वन्?
TRPO परिष्कृतेन द्वितीय-क्रम-पद्धत्या एतस्याः समस्यायाः समाधानं कर्तुं प्रयतते, यदा तु PPO प्रथम-क्रम-पद्धत्या नूतन-रणनीतिं पुरातन-रणनीत्याः समीपे एव स्थापयितुं अन्येषां केषाञ्चन युक्तीनां उपयोगं करोति
पीपीओ पद्धतिः कार्यान्वितुं बहु सरलं भवति तथा च अनुभवजन्यरूपेण न्यूनातिन्यूनं टीआरपीओ इव कार्यं करोति ।

पीपीओ इत्यस्य मुख्यौ द्वौ भिन्नौ स्तः - पीपीओ-दण्डः पीपीओ-क्लिप् च ।

  • PPO-Penalty अनुमानतः TRPO इव KL-प्रतिबन्ध-अद्यतन-समाधानं करोति, परन्तु उद्देश्य-कार्य्ये KL-विचलनं कठिन-प्रतिबन्धं करणस्य स्थाने दण्डं ददाति, तथा च प्रशिक्षणस्य समये स्वयमेव दण्ड-गुणकं समायोजयति येन सः समुचितरूपेण स्केल करोति
  • PPO-Clip इत्यस्य KL-विचलनं नास्ति तथा च उद्देश्यकार्ये कोऽपि बाधाः नास्ति । तस्य स्थाने नूतनरणनीत्याः पुरातनरणनीत्याः दूरं गन्तुं प्रोत्साहनं दूरीकर्तुं उद्देश्यकार्यस्य विशिष्टसिलिंग् इत्यस्य उपरि अवलम्बते ।
    PPO-Clip (OpenAl द्वारा प्रयुक्तः मुख्यरूपः) ।

अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु

PPO-Clip एल्गोरिदम छद्म कोड

अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु

एल्गोरिदम: पीपीओ-क्लिप
1: Input: प्रारम्भिकरणनीतिमापदण्डाः θ ० थेता_०θ0, प्रारम्भिकमूल्यकार्यमापदण्डाः φ ० फि_०ϕ0
2: for k = 0 , 1 , 2 , ... do {bf for} ~ k=0,1,2,बिन्दव~ {bf do}कृते k=0,1,2, करोतु
3:        ~~~~~~       पर्यावरणे नीतिं चालयित्वा π k = π ( θ k ) पि_क=पि(थेटा_क)πk=π(θk) प्रक्षेपवक्रसमूहं संग्रहयन्तु D k = { τ i } {cal D}_k={तौ_इ}k={τअहम्‌}
4:        ~~~~~~       पुरस्कारस्य गणनां कुरुत (rewards-to-go) २. र ^ त हत् R_t~~~~~आर^      र ^ त हत् R_tआर^ गणनानियमाः
5:        ~~~~~~       लाभानुमानं गणयन्तु, वर्तमानमूल्यकार्यस्य आधारेण वि φ क व_{फी_क}विϕk इत्यस्य अ ^ त हत् अ_तएकः^ (किमपि वर्चस्वानुमानपद्धतिं प्रयुञ्जीत)       ~~~~~       ▢ वर्तमान-लाभ-अनुमान-विधयः कानि सन्ति ?
6:        ~~~~~~       PPO-Clip उद्देश्यकार्यं अधिकतमं कृत्वा नीतिं अद्यतनं कुर्वन्तु:
            ~~~~~~~~~~~            
θ k + 1 = arg ⁡ अधिकतम ⁡ θ 1 ∣ D k ∣ T ∑ τ ∈ D k ∑ t = 0 T min ⁡ ( π θ ( at ∣ st ) π θ k ( at ∣ st ) A π θ k ( st , at ) , g ( ε , A π θ k ( st , at ) ) ) ~~~~~~~~~~~~theta_{k+1}=argmaxlimits_thetafrac{1}{|{cal D}_k|T }समसीमा_{तौइन्{कल डी}_क}समसीमा_{t=0}^TminBig(frac{pi_{theta} (a_t|s_t)}{पि_{थेटा_क}(a_t|s_t)}A^{pi_{थेटा_क}} (s_t,a_t),g(epsilon,A^{pi_{थेटा_क}}(s_t,a_t))बृहत्)           θk+1=अर्θअधिकतमम्kटी1τk=0टीमि(πθk(एकः)πθ(एकः)एकःπθk(,एकः),(ϵ,एकःπθk(,एकः)))       ~~~~~       ▢ रणनीति-अद्यतन-सूत्रं कथं निर्धारयितव्यम् ?
            ~~~~~~~~~~~            
            ~~~~~~~~~~~             π θ k पि_{थेता_क}πθk : अद्यतनीकरणात् पूर्वं रणनीतिः पैरामीटर् सदिशः। महत्व नमूनाकरणम्। पुरातनरणनीतिभ्यः नमूनाकरणम्।
            ~~~~~~~~~~~            
            ~~~~~~~~~~~            सामान्य आकस्मिक ढाल आरोहण + एडम
7:        ~~~~~~       मध्यमवर्गदोषःप्रतिगमन फिट मूल्य कार्य:
            ~~~~~~~~~~~            
φ k + 1 = arg ⁡ min ⁡ φ 1 ∣ D k ∣ T ∑ τ ∈ D k ∑ t = 0 T ( V φ ( st ) − R ^ t ) 2 ~~~~~~~~~~~phi_ {k+1}=arg minlimits_phifrac{1}{|{cal D}_k|T}sumlimits_{tauin{cal D}_k}sumlimits_{t=0}^TBig(V_phi(s_t)-टोपी R_tBig)^2           ϕk+1=अर्ϕमिkटी1τk=0टी(विϕ()आर^)2
            ~~~~~~~~~~~            
            ~~~~~~~~~~~            सामान्य ढाल अवरोह
8: end for bf अन्त्य ~ forअंत कृते
             ~~~~~~~~~~~~             

$dots$ ... ~~~बिन्दवः   

g ( ε , A ) = { ( 1 + ε ) A A ≥ 0 ( 1 − ε ) AA &lt; 0 g(epsilon,A)=वाम{(1+ϵ)एकः    एकः0(1ϵ)एकःएकः<0दक्षिणः। (ϵ,एकः)={(1+ϵ)एकः    (1ϵ)एकःएकः0एकः<0

अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु

पत्रेलाभस्य अनुमानम् : १.

A ^ t = − V ( st ) + rt + γ rt + 1 + ⋯ + γ T − t + 1 r T − 1 + γ T − t V ( s T ) ⏟ R ^ t ? ? ? hat A_t=-V(s_t)+अंडरब्रेस{r_t+गामा r_{t+1}+cdots+गामा^{T-t+1}r_{T-1}+गामा^{Tt}V(s_T)}_ {पाठरङ्ग{नील}{हत् र_त???}}एकः^=वि()+आर^??? +γ+1++γटी+1टी1+γटीवि(टी)

अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु

निर्मीयताम्‌ Δ t = rt + γ V ( st + 1 ) − V ( st ) डेल्टा_t =r_t+गामा V(s_{t+1})-V(s_t)Δ=+γV(+1)वि()
किन्तु rt = Δ t − γ V ( st + 1 ) + V ( st ) r_t=डेल्टा_ट - गामा V(s_{t+1})+V(s_t)=ΔγV(+1)+वि()

पर्याय अ ^ त हत् अ_तएकः^ अभिव्यक्ति

A ^ t = − V ( st ) + rt + γ rt + 1 + γ 2 rt + 2 + ⋯ + γ T − tr T − 2 + γ T − t + 1 r T − 1 + γ T − t V ( s T ) = − V ( st ) + rt + γ rt + 1 + ⋯ + γ T − t + 1 r T − 1 + γ T − t V ( s T ) = − V ( st ) + Δ t − γ वि ( स्त + 1 ) + वि ( स्त ) + γ ( Δ टी + 1 − γ वि ( स्त + 2 ) + वि ( स्त + 1 ) ) + γ 2 ( Δ त + 2 − γ वि ( स्त + 3 ) . + V ( st + 1 ) ) + ⋯ + γ T − t ( Δ T − t − γ V ( s T − t + 1 ) + V ( s T − t ) ) + γ T − t + 1 ( Δ T − 1 − γ V ( s T ) + V ( s T − 1 ) ) + γ T − t V ( s T ) = Δ t + γ Δ t + 1 + γ 2 Δ t + 2 + ⋯ + γ T − t Δ T − t + γ T − t + 1 Δ T − 1ˆएकः=वि()++γ+1+γ2+2++γटीटी2+γटी+1टी1+γटीवि(टी)=वि()++γ+1++γटी+1टी1+γटीवि(टी)=वि()+       Δγवि(+1)+वि()+       γ(Δ+1γवि(+2)+वि(+1))+       γ2(Δ+2γवि(+3)+वि(+1))+       +       γटी(Δटीγवि(टी+1)+वि(टी))+       γटी+1(Δटी1γवि(टी)+वि(टी1))+       γटीवि(टी)=Δ+γΔ+1+γ2Δ+2++γटीΔटी+γटी+1Δटी1 एकः^=वि()++γ+1+γ2+2++γटीटी2+γटी+1टी1+γटीवि(टी)=वि()++γ+1++γटी+1टी1+γटीवि(टी)=वि()+       ΔγV(+1)+वि()+       γ(Δ+1γV(+2)+वि(+1))+       γ2(Δ+2γV(+3)+वि(+1))+       +       γटी(ΔटीγV(टी+1)+वि(टी))+       γटी+1(Δटी1γV(टी)+वि(टी1))+       γटीवि(टी)=Δ+γΔ+1+γ2Δ+2++γटीΔटी+γटी+1Δटी1

अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु

नीतियां तीव्रपरिवर्तनस्य प्रोत्साहनं दूरीकृत्य क्लिपिंग् नियमितीकरणस्य कार्यं करोति ।अतिपैरामीटर् ε epsilon इतिϵ नूतनरणनीत्याः पुरातनरणनीत्याः च दूरं सङ्गतम् अस्ति

अद्यापि सम्भवति यत् एतादृशस्य च्छेदनस्य परिणामः अन्ते नूतना रणनीतिः भविष्यति या पुरातनरणनीत्याः दूरम् अस्ति अत्र कार्यान्वयनस्य मध्ये वयं विशेषतया सरलपद्धतिं उपयुञ्ज्महे ।प्राक् स्थगयतु . यदि पुरातननीत्याः नूतननीतेः औसतं KL-विचलनं सीमां अतिक्रमति तर्हि वयं ढालपदं निष्पादयितुं त्यजामः ।

पीपीओ उद्देश्य कार्य सरल व्युत्पत्ति कड़ी
पीपीओ-क्लिप् इत्यस्य उद्देश्यकार्यं अस्ति : १.
  ~  
L θ k CLIP ( θ ) = E s , a ∼ θ k [ min ⁡ ( π θ ( a ∣ s ) π θ k ( a ∣ s ) A θ k ( s , a ) , क्लिप ( π θ ( a ∣ ) s ) π θ k ( a ∣ s ) , 1 − ε , 1 + ε ) A θ k ( s , a ) ) ] L^{rm CLIP}_{थेटा_क}(थीटा)=अंडरसेट्{स, असिम्थेटा_क}{ rm E}बिग्ग[minBigg(frac{pi_theta(a|s)}{पि_{थेटा_क}(क|s)}A^{थेटा_क}(s, a), {rm clip}बृहत्(frac{pi_theta(a|..)। s)}{पि_{थेटा_क}(क|स)},1-एप्सिलोन, 1+एप्सिलोनबिग)अ^{थेटा_क}(स, क)बिग्ग)बिग्ग]।θkCLIP इति(θ)=,एकःθk[मि(πθk(एकः)πθ(एकः)एकःθk(,एकः),clip(πθk(एकः)πθ(एकः),1ϵ,1+ϵ)एकःθk(,एकः))]
  ~  
$underset{s, asimtheta_k}{rm E}$ E s , a ∼ θ k ~~~अण्डरसेट{s, असिमथेता_क्}{र्म ई}   ,एकःθk
  ~  
नहि। क्क्k पुनरावृत्तीनां कृते रणनीतिमापदण्डाः θ क थेता_क्θk ε epsilon इतिϵ लघु अतिपरामीटर् अस्ति ।
स्थापयति ε ∈ ( 0 , 1 ) एप्सिलोनिन (0,1) .ϵ(0,1), परिभाषा
F ( आर , ए , ε ) ≐ min ⁡ ( आर ए , क्लिप ( आर , 1 − ε , 1 + ε ) ए ) च (आर, ए, एप्सिलॉन) doteqminBigg (rA, {rm क्लिप} (आर, 1- एप्सिलॉन,१+एप्सिलॉन)ABigg) २.(,एकः,ϵ)मि(एकः,clip(,1ϵ,1+ϵ)एकः)
कदा A ≥ 0 Ageq0एकः0
F ( r , A , ε ) = min 2 ( r A , क्लिप ( r , 1 − ε , 1 + ε ) A ) = A min ⁡ ( r , क्लिप ( r , 1 − ε , 1 + ε ) ) = A min ⁡ ( r , { 1 + ε r ≥ 1 + ε rr ∈ ( 1 − ε , 1 + ε ) 1 − ε r ≤ 1 − ε } ) = A { min ⁡ ( r , 1 + ε ) r ≥ 1 + ε min ⁡ ( r , r ) r ∈ ( 1 − ε , 1 + ε ) min ⁡ ( r , 1 − ε ) r ≤ 1 − ε } = A { 1 + ε r ≥ 1 + ε rr ∈ ( 1 − ε , 1 + ε ) rr ≤ 1 − ε } दक्षिणपार्श्वे परिधिनुसारम् = A min ⁡ ( r , 1 + ε ) = min ⁡ ( r A , ( 1 + ε ) A ) .begin {aligned} F (आर, ए, एप्सिलॉन) & = minBigg (आर ए, {आर एम क्लिप} (आर, 1-एप्सिलॉन, 1 + एप्सिलॉन) एबिग) \ & = अमीन बिग (आर, {आर एम क्लिप} (आर, 1 -एप्सिलॉन, 1 + एप्सिलॉन) बिग) \ &=अमिनबिग्ग (आर, बाएं {शुरु {संरेखित} & 1 + एप्सिलॉन ~ ~ & rgeq1 + एप्सिलॉन \ & आर & rin (1- एप्सिलॉन, 1 + एप्सिलॉन) \ & 1- एप्सिलॉन & rleq1- एप्सिलॉन \ अन्त{संरेखित} २.right}बृहत्)\ &=बाम{मिदक्षिण}\ &=वाम{right}~~~~~textcolor{blue}{दक्षिणतः श्रेणी के अनुसार}\ &=अमीन(r, 1+epsilon)\ &=minBigg(rA, (1+epsilon)ABigg) end{aligned} (,एकः,ϵ)=मि(एकः,clip(,1ϵ,1+ϵ)एकः)=एकःमि(,clip(,1ϵ,1+ϵ))=एकःमि(, 1+ϵ  1ϵ1+ϵ(1ϵ,1+ϵ)1ϵ )=एकः मि(,1+ϵ)  मि(,)मि(,1ϵ)1+ϵ(1ϵ,1+ϵ)1ϵ =एकः 1+ϵ  1+ϵ(1ϵ,1+ϵ)1ϵ      दक्षिणतः श्रेण्यानुसारम्=एकःमि(,1+ϵ)=मि(एकः,(1+ϵ)एकः)
  ~  
कदा क &lt; ० क&lt;०एकः<0
F ( r , A , ε ) = min ⁡ ( r A , क्लिप ( r , 1 − ε , 1 + ε ) A ) = A max 2 ( r , क्लिप ( r , 1 − ε , 1 + ε ) ) = A max ⁡ ( r , { 1 + ε r ≥ 1 + ε rr ∈ ( 1 − ε , 1 + ε ) 1 − ε r ≤ 1 − ε } ) = A { अधिकतम ⁡ ( r , 1 + ε ) r ≥ 1 + ε अधिकतम ⁡ ( आर , आर ) आर ∈ ( 1 − ε , 1 + ε ) अधिकतम ⁡ ( आर , 1 − ε ) आर ≤ 1 − ε } = A { आर आर ≥ 1 + ε r ∈ ( 1 − ε , 1 + ε ) 1 − ε r ≤ 1 − ε } दक्षिणपार्श्वे परिधिनुसारम् = A max ⁡ ( r , 1 − ε ) = min ⁡ ( r A , ( 1 − ε ) A ) .right}बृहत्)\ &=बाम{दक्षिण}\ &=वाम{right}~~~~~textcolor{blue}{दक्षिणतः श्रेणी के अनुसार}\ &=Amax(r, 1-epsilon)\ &=textcolor{blue}{min}Bigg(rA,(1-epsilon) एबिग्ग्) अन्त{संरेखित} २. (,एकः,ϵ)=मि(एकः,clip(,1ϵ,1+ϵ)एकः)=एकःपुएकःx(,clip(,1ϵ,1+ϵ))=एकःअधिकतमम्(, 1+ϵ  1ϵ1+ϵ(1ϵ,1+ϵ)1ϵ )=एकः अधिकतमम्(,1+ϵ)  अधिकतमम्(,)अधिकतमम्(,1ϵ)1+ϵ(1ϵ,1+ϵ)1ϵ =एकः   1ϵ1+ϵ(1ϵ,1+ϵ)1ϵ      दक्षिणतः श्रेण्यानुसारम्=एकःअधिकतमम्(,1ϵ)=पुअहम्‌(एकः,(1ϵ)एकः)
  ~  
सारांशतः : परिभाषितव्यः g ( ε , A ) g(एप्सिलॉन,A) 1 .(ϵ,एकः)
g ( ε , A ) = { ( 1 + ε ) A A ≥ 0 ( 1 − ε ) AA &lt; 0 g(epsilon,A)=वाम{दक्षिणः। (ϵ,एकः)={(1+ϵ)एकः    (1ϵ)एकःएकः0एकः<0
अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु

एषा परिभाषा नूतनरणनीत्याः पुरातनरणनीत्याः अतिदूरं गन्तुं किमर्थं निवारयति ?
प्रभावी महत्त्वनमूनाकरणपद्धतीनां कृते नूतनानां रणनीतयः आवश्यकाः सन्ति π θ ( a ∣ s ) पि_थेता(क|स) .πθ(एकः) तथा पुरातन रणनीतयः π θ k ( a ∣ s ) पि_{थेता_क}(क|स) .πθk(एकः) द्वयोः वितरणयोः भेदः अतिबृहत् न भवितुम् अर्हति

1. यदा लाभः सकारात्मकः भवति

L ( s , a , θ k , θ ) = min ⁡ ( π θ ( a ∣ s ) π θ k ( a ∣ s ) , 1 + ε ) A π θ k ( s , a ) L(s,a, थेटा_क, थेटा)=मिनबिग्ग(फ्रक्{पी_थेटा(क|स)}{पि_{थेटा_क}(क|स)}, 1+एप्सिलोनबिग्ग)ए^{पि_{थेटा_क}}(स, क)(,एकः,θk,θ)=मि(πθk(एकः)πθ(एकः),1+ϵ)एकःπθk(,एकः)
लाभकार्यम् : अधिकपुरस्कारयुक्तं निश्चितं राज्य-क्रियायुगलं ज्ञातव्यम् -&gt; राज्य-क्रियायुग्मस्य भारं वर्धयन्तु।

यदा अवस्थाकर्मयुग्मम् ( स , क ) (स, क) .(,एकः) सकारात्मकं तर्हि यदि कर्मएकः निष्पादनस्य अधिका सम्भावना भवति अर्थात् यदि π θ ( a ∣ s ) पि_थेता(क|स) .πθ(एकः) वर्धयतु लक्ष्यं च वर्धते।
min अस्मिन् द्रव्ये उद्देश्यकार्यं केवलं निश्चितमूल्यं यावत् वर्धयितुं सीमितं करोति
एकदा π θ ( a ∣ s ) &gt; ( 1 + ε ) π θ k ( a ∣ s ) पि_थेटा(क|स)&gt;(1+एप्सिलोन)पि_{थेटा_क}(क|स)πθ(एकः)>(1+ϵ)πθk(एकः), min triggers, अस्य द्रव्यस्य मूल्यं यावत् सीमितं करोति ( 1 + ε ) π θ k ( a ∣ s ) (1+एप्सिलोन)पि_{थेटा_क}(क|स)(1+ϵ)πθk(एकः)
पुरातननीत्याः दूरं गत्वा नूतननीतेः लाभः न भवति।
पुरातनरणनीत्याः दूरं गत्वा नूतनरणनीत्याः लाभः न भविष्यति।

2. यदा लाभः नकारात्मकः भवति

L ( s , a , θ k , θ ) = max ⁡ ( π θ ( a ∣ s ) π θ k ( a ∣ s ) , 1 − ε ) A π θ k ( s , a ) L(s,a, थेटा_क, थेटा)=मैक्सबिग्ग(फ्रैक{पि_थेटा(क|स)}{पि_{थेटा_क}(क|स)}, 1-एप्सिलोनबिग्ग)ए^{पि_{थेटा_क}}(स, क)(,एकः,θk,θ)=अधिकतमम्(πθk(एकः)πθ(एकः),1ϵ)एकःπθk(,एकः)

यदा अवस्थाकर्मयुग्मम् ( स , क ) (स, क) .(,एकः) लाभः नकारात्मकः, तर्हि यदि कर्मएकः अपि न्यूनसंभावना इत्यर्थः π θ ( a ∣ s ) π_थेटा(क|s) .πθ(एकः) न्यूनीभवति, उद्देश्यकार्यं वर्धते। परन्तु अस्मिन् पदे अधिकतमः उद्देश्यकार्यं कियत् वर्धयितुं शक्यते इति सीमां ददाति ।
एकदा π θ ( a ∣ s ) &lt; ( 1 − ε ) π θ k ( a ∣ s ) पि_थेटा(क|स)&lt;(1-एप्सिलोन)पि_{थेटा_क}(क|स)πθ(एकः)<(1ϵ)πθk(एकः), max triggers, अस्य द्रव्यस्य मूल्यं यावत् सीमितं करोति ( 1 − ε ) π θ k ( a ∣ s ) (1-एप्सिलोन)पि_{थेटा_क}(क|स)(1ϵ)πθk(एकः)

पुनः : पुरातननीत्याः दूरं गत्वा नूतननीतेः लाभः न भवति।
पुरातनरणनीत्याः दूरं गत्वा नूतनरणनीत्याः लाभः न भविष्यति।

टीडी३_ २.केवलं क्रमशः: जुड़वाँ विलम्बित गहरी नियतात्मक नीति ढाल [ICML 2018 (Canada) McGill University]

अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु
चित्र स्रोतः

OpenAI दस्तावेजीकरण_TD3
पेपर लिङ्क

यद्यपि DDPG कदाचित् उत्तमं प्रदर्शनं प्राप्तुं शक्नोति तथापि हाइपरपैरामीटर् इत्यादिप्रकारस्य ट्यूनिङ्गस्य विषये प्रायः अस्थिरः भवति ।
एकः सामान्यः DDPG विफलताविधिः अस्ति यत् ज्ञातं Q-कार्यं Q-मूल्यं महत्त्वपूर्णतया अति-आकलनं कर्तुं आरभते, यत् ततः नीतिं भङ्गं जनयति यतोहि एतत् Q-कार्यं त्रुटिं शोषयति
Twin Delayed DDPG (TD3) इति एकः एल्गोरिदम् अस्ति यः त्रीणि प्रमुखाणि तकनीकानि परिचययित्वा एतस्याः समस्यायाः समाधानं करोति:
1、ट्रंकटेड डबल क्यू-शिक्षण

  • TD3 एकस्य स्थाने द्वौ Q फंक्शन् शिक्षते (अतः "twin") तथा च Bellman त्रुटिहानि फंक्शन् मध्ये लक्ष्यं निर्मातुं द्वयोः Q मूल्ययोः लघुतरस्य उपयोगं करोति

2、नीति अद्यतनविलम्ब

  • TD3 नीतिं (लक्ष्यजालं च) Q कार्यस्य अपेक्षया न्यूनतया अद्यतनं करोति । पत्रे प्रत्येकं Q फंक्शन् द्विवारं अद्यतनं भवति तदा नीतिं अद्यतनीकर्तुं अनुशंसति ।

3. लक्ष्यरणनीतिसुचारुकरणम्।

  • TD3 लक्ष्यक्रियायां शोरं योजयति, येन नीतेः कृते क्रियापरिवर्तनेषु Q सुचारुतया Q कार्ये त्रुटिनां शोषणं अधिकं कठिनं भवति

TD3 एकः नीतितः बहिः एल्गोरिदम् अस्ति तस्य उपयोगः केवलं सह कर्तुं शक्यते;निरन्तरम्क्रियास्थानस्य परिवेशः ।

TD3 एल्गोरिदम छद्म कोड

अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु

एल्गोरिदम: TD3
यादृच्छिकमापदण्डानां उपयोगं कुर्वन्तु θ 1 , θ 2 , φ थेटा_1, थेटा_2, फिθ1,θ2,ϕ समीक्षकजालस्य आरम्भं कुर्वन्तु Q θ 1 , Q θ 2 Q_{थीटा_1},Q_{थीटा_2}प्रθ1,प्रθ2, तथा अभिनेताजालम् π φ पि_फिπϕ
लक्ष्यजालस्य आरम्भं कुर्वन्तु θ 1 ′ ← θ 1 , θ 2 ′ ← θ 2 , φ ′ ← φ थीटा_1^प्राइमेलेफ्ताररोथेटा_1, थेटा_2^प्रिमलेफ्ताररोथेटा_2, फि^प्रिमलेफ्ताररो फिθ1θ1,θ2θ2,ϕϕ
प्लेबैक बफर सेट् आरभत B cal B
for t = 1 to T {bf for}~t=1 ~{bf to} ~Tकृते =1 इत्यस्मै टी
       ~~~~~~       अन्वेषणशब्देन सह क्रियायाः चयनं कुर्वन्तु a ∼ π φ ( s ) + ε , ε ∼ N ( 0 , σ ) asimpi_phi (s) + एप्सिलॉन, ~ ~ एप्सिलोनसिम {cal N} (0, सिग्मा)एकःπϕ()+ϵ,  ϵन॰(0,σ), अवलोकनपुरस्कारः र्र् तथा नवीन स्थिति s ′ s^प्राइम
       ~~~~~~       संक्रमण तुपलः ( स , क , र , स ′ ) (स, अ, र, स^प्राइम)(,एकः,,) निक्षेपं प्रति B cal B मध्यं
       ~~~~~~       इत्यस्मात्‌ B cal B लघुसमूहानां नमूनाकरणम् एन.एनन॰ संक्रमणानि ( स , क , र , स ′ ) (स, क, र, स^ अभाज्य)(,एकः,,)
a ~ ← π φ ′ ( s ′ ) + ε , ε ∼ क्लिप ( N ( 0 , σ ~ ) , − c , c ) ~~~~~~widetilde aleftarrow pi_{phi^prime}(s^prime)+ एप्सिलॉन, ~ ~ एप्सिलोनसिम {आर एम क्लिप} ({कैल एन} (0, वाइडेटिल्ड सिग्मा),-ग, सी)      एकः πϕ()+ϵ,  ϵclip(न॰(0,σ ),,)
y ← r + γ min ⁡ i = 1 , 2 Q θ i ′ ( s ′ , a ~ ) ~~~~~~yleftarrow r+गामा minlimits_{i=1,2}Q_{थेटा_i^प्राइम}(s^ अभाज्य,विस्तृति क) २.      य्+γअहम्‌=1,2मिप्रθअहम्‌(,एकः )
       ~~~~~~       अद्यतनसमीक्षकाः θ i ← arg ⁡ min ⁡ θ i N − 1 ∑ ( y − Q θ i ( s , a ) ) 2 theta_ileftarrowargminlimits_{theta_i}N^{-1}sum(y-Q_{theta_i}(s, a)) ^2θअहम्‌अर्θअहम्‌मिन॰1(य्प्रθअहम्‌(,एकः))2
       ~~~~~~        यदि t % d {bf यदि}~t~ % ~dयदि  % 
            ~~~~~~~~~~~            नियतात्मकनीतिप्रवणतायाः माध्यमेन अद्यतनं कुर्वन्तु φ फिϕ
∇ φ J ( φ ) = N − 1 ∑ ∇ a Q θ 1 ( s , a ) ∣ a = π φ ( s ) ∇ φ π φ ( s ) ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ ~~~नबला _फी ज(फी)=न^{-1}सुम्नाब्ला_क_{थेटा_1}(स, क)|_{क=पि_फी(स)}नबला_फिपि_फी(स)                 ϕजे(ϕ)=न॰1एकःप्रθ1(,एकः)एकः=πϕ()ϕπϕ()
            ~~~~~~~~~~~            लक्ष्यजालम् अद्यतनं कुर्वन्तु : १.
θ i ′ ← τ θ i + ( 1 − τ ) θ i ′ ~~~~~~~~~~~~~~~~~~~~थेटा_इ^प्रिमलेफ्तारौथेटा_इ+(1-तौ)थेटा_इ^प्राइम~~~~~~                 θअहम्‌τθअहम्‌+(1τ)θअहम्‌      τ तौτ: लक्ष्य अद्यतन दर
φ ′ ← τ φ + ( 1 − τ ) φ ′ ~~~~~~~~~~~~~~~~~~~~फि^प्रिमलेफ्ताररोतौफी+(1-तौ)फी^प्राइम                 ϕτϕ+(1τ)ϕ
अन्त यदि ~~~~~~{bf अन्त ~यदि}      अंत यदि
अन्तः {bf अन्तः ~ कृते} कृते ।अंत कृते

मृदु अभिनेता-आलोचकः: SAC_Continuous/Discrete Action Space [Google Brain latest version 201906]

अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु

चित्र स्रोतः

नीतेः एन्ट्रोपी अधिकतमं कुर्वन्तु, तस्मात् नीतिः अधिका दृढा भवति ।

नियतात्मक रणनीति समानावस्था दत्ता सदा समानं कर्म चिनुत इत्यर्थः
यादृच्छिकता रणनीति दत्तावस्थायां चयनं कर्तुं शक्यन्ते बहूनि सम्भाव्यक्रियाः इति भावः ।

नियतात्मक रणनीतियादृच्छिकता रणनीति
परिभाषासमानावस्था, समानं कर्म कुरुसमाना स्थितिः, २.भिन्नानि कर्माणि कुर्वन्तु
लाभस्थिरं पुनरावर्तनीयं चस्थानीय इष्टतमसमाधानयोः पतनं परिहरन्तु तथा वैश्विकसन्धानक्षमतासु सुधारं कुर्वन्तु
अभावःअन्वेषणीयतायाः अभावः, प्रतिद्वन्द्वीभिः सुलभः च गृहीतःएतेन रणनीतिः मन्दं मन्दं अभिसरणं कर्तुं शक्नोति, येन कार्यक्षमता, कार्यप्रदर्शनं च प्रभावितं भवति ।

वास्तविकप्रयोगे यदि परिस्थितयः अनुमन्यन्ते तर्हि वयं करिष्यामःप्रयोगं कर्तुं प्रयतस्वयादृच्छिकता रणनीति, यथा A2C, PPO इत्यादयः, यतः इदं अधिकं लचीलं, अधिकं दृढं, अधिकं स्थिरं च भवति ।

अधिकतम-एन्ट्रोपी-सुदृढीकरण-शिक्षणस्य मतं यत् वर्तमानकाले अस्माकं समीपे परिपक्व-यादृच्छिकता-रणनीतयः सन्ति, अर्थात् एसी-सदृशाः एल्गोरिदम्-इत्येतत् अपि, अद्यापि अस्माभिः इष्टतम-यादृच्छिकता न प्राप्ताअतः क इति प्रवर्तयतिसूचना एन्ट्रोपीअवधारणा, inनीतेः एन्ट्रोपी अधिकतमं कुर्वन् सञ्चितपुरस्कारं अधिकतमं कुर्वन्तु, रणनीतिं अधिकं दृढं कृत्वा इष्टतमं यादृच्छिकता रणनीतिं प्राप्तुं च।

——————————————————

—— OpenAI दस्तावेजीकरण_SAC

OpenAI Documentation_SAC अन्तरफलकलिङ्कः
  ~  
मृदु अभिनेता-आलोचकः : एकेन आकस्मिकनटेन सह नीतितः बहिः अधिकतमं एन्ट्रोपी गहनसुदृढीकरणशिक्षणम्, हार्नोजा एट अल, 201808 आईसीएमएल 2018
मृदु अभिनेता-समीक्षक एल्गोरिदम एवं अनुप्रयोग, हार्नोजा एट अल, 201901
गहनसुदृढीकरणशिक्षणद्वारा चलितुं शिक्षणम्, हार्नोजा एट अल, 201906 आरएसएस2019

मृदु अभिनेता समीक्षकः (SAC) नीतितः बहिः रीत्या यादृच्छिकरणनीतयः अनुकूलयति ।

DDPG + आकस्मिक रणनीति अनुकूलन

न तु TD3 (तत् एव समये एव मुक्तम्) इत्यस्य प्रत्यक्षं उत्तराधिकारी ।

अस्मिन् क्लिप्ड् डबल-क्यू युक्तिः समाविष्टा अस्ति, तथा च SAC इत्यस्य रणनीतेः निहितस्य यादृच्छिकतायाः कारणात्, अन्ततः तस्य लाभः अपि भवतिलक्ष्य नीति सुचारूीकरण

SAC इत्यस्य एकं मूलविशेषता अस्ति एन्ट्रोपी नियमितीकरण एन्ट्रोपी नियमितीकरण
अपेक्षितपुरस्कारस्य एन्ट्रोपी च अधिकतमं व्यापारं कर्तुं नीतिः प्रशिक्षिता अस्ति,एन्ट्रोपी इति नीतेः यादृच्छिकतायाः मापः
एतस्य अन्वेषणस्य शोषणस्य च व्यापारस्य निकटतया सम्बन्धः अस्ति : एन्ट्रोपीयाः वृद्धिः भवतिअधिकं अन्वेषणीयम्,एतत् ठीकम् अस्तितदनन्तरं शिक्षणं त्वरयन्तु .अयं अस्तुनीतिः अकालं दुष्टस्थानीय इष्टतमं प्रति अभिसरणं न भवतु

निरन्तरक्रियास्थाने, विच्छिन्नक्रियास्थाने च अस्य उपयोगः कर्तुं शक्यते ।

अस्ति एन्ट्रोपी-नियमित सुदृढीकरण शिक्षण, कारकं प्राप्नोति चअस्मिन् समयपदे नीतेः एन्ट्रोपीआनुपातिक पुरस्कार।
अस्मिन् समये RL समस्या एतादृशी वर्णिता अस्ति :

π ∗ = arg ⁡ अधिकतम ⁡ π E τ ∼ π [ ∑ t = 0 ∞ γ t ( R ( st , at , st + 1 ) + α H ( π ( ⋅ ∣ st ) ) ) ) ] pi^*=argmaxlimits_pi अंडरसेट {tausimpi}{rm E}बृहत्[sumlimits_{t=0}^inftygamma^tBig(R(s_t,a_t,s_{t+1})textcolor{blue}{+अल्फा H(pi(·|s_t))} बृहत्)बृहत्] २.π=अर्πअधिकतमम्τπ[=0γ(आर(,एकः,+1)+α(π()))]

इत्यस्मिन्‌ α &gt; 0 अल्फा &gt; 0α>0 इति व्यापार-गुणकम् ।
प्रत्येकं समयपदे एन्ट्रोपीपुरस्कारं सहितं राज्यमूल्यकार्यं वि π वि^पिविπ कृते:

V π ( s ) = E τ ∼ π [ ∑ t = 0 ∞ γ t ( R ( st , at , st + 1 ) + α H ( π ( ⋅ ∣ st ) ) ) ∣ s 0 = s ] V^pi (s)=अंडरसेट{तौसिम्पी}{र्म ई}बृहत्[समसीमा_{टी=0}^इन्फ्टिगम्मा^टबड(आर(स_ट,ए_ट,स_{ट+1})+अल्फा एच(पी(·|स_ट))बड )बृहत्|s_0=sबृहत्]विπ()=τπ[=0γ(आर(,एकः,+1)+α(π())) 0=]

एकं क्रियामूल्यं कार्यं यस्मिन् प्रथमसमयपदं विहाय प्रत्येकस्य समयपदस्य एन्ट्रोपीपुरस्कारः समाविष्टः भवति Q π Q^piप्रπ:

Q π ( s , a ) = E τ ∼ π [ ∑ t = 0 ∞ γ t ( R ( st , at , st + 1 ) + α ∑ t = 1 ∞ H ( π ( ⋅ ∣ st ) ) ) ∣ s 0 = s , a 0 = a ] Q^pi(s,a)=अंडरसेट{तौसिम्पि}{rm E}बृहत्[समसीमा_{t=0}^inftygamma^tBig(R(s_t,a_t,s_{t+1 })+अल्फा शिखर_{t=1}^infty H(pi(·|s_t))बड़े)बड़े|s_0=s,a_0=aBig]प्रπ(,एकः)=τπ[=0γ(आर(,एकः,+1)+α=1(π())) 0=,एकः0=एकः]

  • केचन पत्राणि Q π Q^piप्रπ प्रथमवारं चरणस्य एन्ट्रोपी पुरस्कारं समाविष्टम् अस्ति

वि π वि^पिविπ तथा Q π Q^piप्रπ तयोः सम्बन्धः अस्ति : १.

V π ( s ) = E a ∼ π [ Q π ( s , a ) ] + α H ( π ( ⋅ ∣ s ) ) V^pi(s)=अंडरसेट{asimpi}{rm E}[Q^pi( स, क)]+अल्फा ह(पि(·|स)) २.विπ()=एकःπ[प्रπ(,एकः)]+α(π())

विषये Q π Q^piप्रπ बेल्मैन् सूत्रम् अस्ति : १.

Q π ( s , a ) = E s ′ ∼ P a ′ ∼ π [ R ( s , a , s ′ ) + γ ( Q π ( s ′ , a ′ ) + α H ( π ( ⋅ ∣ s ′ ) ] । ) ) ] = E s ′ ∼ P [ R ( s , a , s ′ ) + γ V π ( s ′ ) ] । प्रπ(,एकः)=एकःπपु[आर(,एकः,)+γ(प्रπ(,एकः)+α(π()))]=पु[आर(,एकः,)+γविπ()]

SAC एकत्रैव नीतिं शिक्षते π θ π_थेताπθ द्वे च QQप्र नियोग Q φ 1 , Q φ 2 Q_{phi_1}, Q_{phi_2} .प्रϕ1,प्रϕ2
सम्प्रति मानक SAC इत्यस्य द्वौ रूपौ स्तः : एकः नियतस्य उपयोगं करोतिएन्ट्रोपी नियमितीकरण गुणांक α अल्फाα, प्रशिक्षणकाले परिवर्तनेन अन्यः α अल्फाα एन्ट्रोपी-प्रतिबन्धान् प्रवर्तयितुं ।
OpenAI इत्यस्य दस्तावेजीकरणं नियत-एन्ट्रोपी-नियमितीकरण-गुणकं युक्तं संस्करणं उपयुज्यते, परन्तु व्यवहारे प्रायः तत् प्राधान्यं भवतिएन्ट्रोपी बाध्यताvariant.

यथा अधः दर्शितं, इ α अल्फाα नियतसंस्करणे अन्तिमचित्रं विहाय यस्य स्पष्टलाभाः सन्ति, अन्येषां केवलं किञ्चित् लाभाः सन्ति, मूलतः यथा... α अल्फाα शिक्षणसंस्करणं तथैव तिष्ठति यदा अपि अस्ति α अल्फाα मध्यद्वयं चित्रं यत्र शिक्षणसंस्करणस्य लाभाः सन्ति तत्र अधिकं स्पष्टौ स्तः।

अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु
चित्र स्रोतः

SAC वि.संTD3:
  ~  
स एव बिन्दुः : १.
1. एकस्मिन् साझा उद्देश्यं प्रति प्रतिगमनेन MSBE (Mean Squared Bellman Error) इत्यस्य न्यूनीकरणेन Q कार्यद्वयं ज्ञातं भवति।
2. साझालक्ष्यस्य गणनाय लक्ष्य Q-जालस्य उपयोगं कुर्वन्तु, लक्ष्य Q-जालं प्राप्तुं प्रशिक्षणप्रक्रियायाः समये Q-जालमापदण्डेषु polyak औसतीकरणं कुर्वन्तु।
3. साझा लक्ष्यं truncated double Q तकनीकस्य उपयोगं करोति ।
  ~  
अंतरण:
1. SAC इत्यस्मिन् एन्ट्रोपी नियमितीकरणपदं भवति
2. SAC लक्ष्ये प्रयुक्ता अग्रिमा राज्यक्रिया तः आगच्छतिवर्तमान रणनीति, लक्ष्यरणनीत्याः अपेक्षया।
3. सुस्पष्टीकरणस्य स्पष्टं लक्ष्यरणनीतिः नास्ति। TD3 अग्रिमराज्यं प्रति कार्याणां माध्यमेन नियतात्मकनीतिं प्रशिक्षयतियादृच्छिकं कोलाहलं योजयन्तु स्निग्धतां प्राप्तुं । SAC यादृच्छिकनीतिं प्रशिक्षयति, यादृच्छिकतायाः कोलाहलः च समानप्रभावं प्राप्तुं पर्याप्तः भवति ।

SAC एल्गोरिदम छद्म कोड

अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु

एल्गोरिदम : मृदु अभिनेता-समीक्षक एसएसी
प्रवेश: θ 1 , θ 2 , φ थेटा_1,थीटा_2,फी~~~~~θ1,θ2,ϕ      आरंभीकरण मापदण्ड
पैरामीटर् आरंभीकरणम् : १.
       ~~~~~~       लक्ष्यजालभारस्य आरम्भं कुर्वन्तु : १. θ ˉ 1 ← θ 1 , θ ˉ 2 ← θ 2 बार थेटा_1लेफ्टररोथेटा_1, बार थेटा_2लेफ्टररोथेटा_2θˉ1θ1,θˉ2θ2
       ~~~~~~       प्लेबैक् पूलः रिक्तः भवितुं आरभते: D ← ∅ {cal D}लेफटारोरिक्तसमूह
{bf for} कृते ।कृते प्रत्येकं पुनरावृत्तिः करो {bf करो}करोतु
       ~~~~~~        {bf for} कृते ।कृते प्रत्येकं पर्यावरणपदं करो {bf करो}करोतु
            ~~~~~~~~~~~            नीतेः नमूनानि क्रियाः : १. at ∼ π φ ( at ∣ st ) a_tsimpi_phi(a_t|s_t)~~~~~एकःπϕ(एकः)      ▢अत्र π φ ( at ∣ st ) pi_phi(a_t|s_t) २.πϕ(एकः) कथं परिभाषितव्यम् ?
            ~~~~~~~~~~~            पर्यावरणात् नमूनासंक्रमणानि : १. स्त + 1 ∼ प ( स्त + 1 ∣ स्त , अत ) स_{त+1}सिं प(स_{त+1}|स_त,क_त)+1पृ(+1,एकः)
            ~~~~~~~~~~~            संक्रमणं प्लेबैक् पूल् मध्ये रक्षन्तु: D ← D ∪ { ( st , at , r ( st , at ) , st + 1 ) } {cal D}leftarrow{cal D}~cup~{(s_t,a_t,r(s_t,a_t),s_{t +१})} २.  {(,एकः,(,एकः),+1)}
       ~~~~~~        अन्तः {bf अन्तः ~ कृते} कृते ।अंत कृते
       ~~~~~~        {bf for} कृते ।कृते प्रत्येकं ढालपदं करो {bf करो}करोतु
            ~~~~~~~~~~~            नवीकरणम् QQप्र फ़ंक्शन पैरामीटर्स: for इ ∈ { १ , २ } इन्{१,२}अहम्‌{1,2} θ i ← θ i − λ Q ∇ ^ θ i JQ ( θ i ) थेटा_इलेफ्तरोथेटा_इ-लम्बदा_Qhat नबला_{थेटा_i}J_Q(थेटा_i)~~~~~θअहम्‌θअहम्‌λप्र^θअहम्‌जेप्र(θअहम्‌)      ▢अत्र JQ ( θ i ) J_Q(थीटा_i) .जेप्र(θअहम्‌) कथं परिभाषितव्यम् ?
            ~~~~~~~~~~~            रणनीतिभारं अद्यतनं कुर्वन्तु : १. φ ← φ − λ π ∇ ^ φ J π ( φ ) फिलेफ्तरोफी-लम्ब्दा_पिहत नबला_फी J_पि (फी)~~~~~ϕϕλπ^ϕजेπ(ϕ)      ▢अत्र ज π ( φ ) ज_पि (फी) .जेπ(ϕ) कथं परिभाषितव्यम् ?
            ~~~~~~~~~~~            तापमानं समायोजयन्तु : १. α ← α − λ ∇ ^ α J ( α ) अल्फालेफ्तारोवल्फा-लम्ब्दहत्नाब्ला_अल्फा जे (अल्फा)~~~~~ααλ^αजे(α)      ▢अत्र ज ( α ) ज(अल्फा) .जे(α) कथं परिभाषितव्यम् ?अत्र तापमानं कथं अवगन्तुं शक्यते ?
            ~~~~~~~~~~~             लक्ष्यजालभारं अद्यतनं कुर्वन्तु: कृते इ ∈ { १ , २ } इन्{१,२}अहम्‌{1,2} θ ˉ i ← τ θ i − ( 1 − τ ) θ ˉ इ बार थेटा_इलेफ्तरो तौ थेटा_इ-(1-तौ)बार थेटा_इ~~~~~θˉअहम्‌τθअहम्‌(1τ)θˉअहम्‌      ▢ एतत् कथं अवगन्तुम् τ तौτ ? ——&gt;लक्ष्य स्मूथिंग गुणांक
       ~~~~~~        अन्तः {bf अन्तः ~ कृते} कृते ।अंत कृते
अन्तः {bf अन्तः ~ कृते} कृते ।अंत कृते
उत्पादनम् : १. θ 1 , θ 1 , φ थेटा_1,थेटा_1,फी~~~~~θ1,θ1,ϕ     अनुकूलित मापदण्ड

∇ ^ हत् नबला^: आकस्मिक ढाल

$emptyset$ ∅ ~~~~रिक्तसेट्    

अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु

अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु

गहनसुदृढीकरणशिक्षणद्वारा चलितुं शिक्षणम् संस्करणम् अस्ति : १.
  ~  
अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु
अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु
अत्र चित्रविवरणं सम्मिलितं कुर्वन्तु

α α α तापमानमापदण्डः अस्ति, यः एन्ट्रोपीपदस्य पुरस्कारस्य च सापेक्षिकं महत्त्वं निर्धारयति, तस्मात् इष्टतमरणनीतेः यादृच्छिकतां नियन्त्रयति
α अल्फाα बृहत् : अन्वेषणं कुर्वन्तु
α अल्फाα लघुः शोषणम्

J ( α ) = E at ∼ π t [ − α log ⁡ π t ( at ∣ st ) − α H ˉ ] J(alpha)=अंडरसेट{a_tsimpi_t}{mathbb E}[-अल्फालॉग pi_t(a_t|s_t)- अल्फाबर{cal H}] इति ।जे(α)=एकःπ[αलोπ(एकः)αˉ]