# [0705] Algoritma DDPG Task06, algoritma PPO, algoritma SAC [hanya teori]

2024-07-12

organisasi catatan versi PDF easy-rl P5, P10 - P12
suplemen perbandingan joyrl P11-P13
Organisasi dokumen OpenAI ⭐ https://spinningup.openai.com/en/latest/index.html

Masukkan deskripsi gambar di sini

Unduh PDF versi terbaru
Alamat: https://github.com/datawhalechina/easy-rl/releases
Alamat domestik (direkomendasikan untuk pembaca domestik)：
Tautan: https://pan.baidu.com/s/1isqQnpVRWbb3yh83Vs0kbw Kode ekstraksi: us6a

tautan versi online easy-rl (untuk menyalin kode)
Tautan referensi 2: https://datawhalechina.github.io/joyrl-book/

lainnya:
[Tautan catatan kesalahan]
——————
5. Dasar-dasar pembelajaran penguatan mendalam ⭐️
Konten sumber terbuka: https://linklearner.com/learn/summary/11
——————————

Masukkan deskripsi gambar di sini
Sumber Gambar

Optimalisasi kebijakan proksimal (PPO)

Strategi identik: Agen yang akan dipelajari dan agen yang berinteraksi dengan lingkungan adalah sama.
Strategi heterogen: agen yang belajar dan agen yang berinteraksi dengan lingkungan berbeda

Gradien kebijakan: membutuhkan banyak waktu untuk mengambil sampel data

strategi yang sama $⟹ pengambilan sampel penting$ strategi yang berbeda

PPO: Hindari dua distribusi yang perbedaannya terlalu jauh. algoritma strategi yang sama
1. Item optimasi asli $J(theta,theta^prima)$
2. Item kendala: $θ$ Dan $theta^prima$ Divergensi KL dari tindakan keluaran ( $θ$ Dan $theta^prima$ Semakin mirip semakin baik)

PPO memiliki pendahulunya: optimalisasi kebijakan wilayah kepercayaan (TRPO)
TRPO sulit ditangani karena memperlakukan batasan divergensi KL sebagai batasan tambahan dan tidak ditempatkan pada fungsi tujuan sehingga sulit untuk dihitung. Oleh karena itu, kami biasanya menggunakan PPO, bukan TRPO. Kinerja PPO dan TRPO serupa, namun PPO lebih mudah diterapkan dibandingkan TRPO.

Divergensi KL: jarak aksi.Distribusi probabilitas untuk melakukan suatu tindakan jarak.

Ada dua varian utama algoritma PPO: penalti optimasi kebijakan proksimal (PPO-penalty) dan kliping optimasi kebijakan proksimal (PPO-clip).

Masukkan deskripsi gambar di sini

——————————
P10 Masalah imbalan yang jarang
1. Rancang hadiah. Membutuhkan pengetahuan domain
Bagaimana dengan menetapkan imbalan akhir untuk setiap tindakan yang relevan?

2. Rasa ingin tahu
Modul rasa ingin tahu intrinsik (ICM)
memasuki: $a_t,s_t$
Keluaran: $s_{t+1}$
Nilai prediksi jaringan $s_{t+1}$ dengan nilai sebenarnya $S_{T + 1}$ Semakin berbeda mereka, semakin besar $r_t^i$ Semakin besar

$r_t^i$ : Semakin sulit memprediksi keadaan di masa depan, semakin besar imbalan atas tindakan tersebut. Mendorong petualangan dan eksplorasi.

Indikatornya terlalu tunggal, dan Anda mungkin hanya mempelajari hal-hal yang tidak berguna.

ekstraktor fitur

Jaringan 2:
Masukan: vektor $}(s_{t})$ Dan $s_{t + 1} )$

Memprediksi tindakan $\overset{A}{^}$ Semakin dekat dengan tindakan nyata, semakin baik.

Masukkan deskripsi gambar di sini

3. Kursus belajar

Mudah -> Sulit

Pembelajaran kurikulum terbalik:
Mulai dari keadaan terakhir yang paling ideal [kami menyebutnya keadaan emas], lanjutkan keTemukan keadaan yang paling dekat dengan keadaan emas Sebagai keadaan "ideal" bertahap yang ingin Anda capai oleh agen. Tentu saja, kami sengaja menghilangkan beberapa keadaan ekstrim dalam proses ini, yaitu keadaan yang terlalu mudah atau terlalu sulit.

4. Pembelajaran penguatan hierarki (HRL)
Strategi agen dibagi menjadi strategi tingkat tinggi dan strategi tingkat rendah. Strategi tingkat tinggi menentukan bagaimana mengeksekusi strategi tingkat rendah berdasarkan keadaan saat ini.

————————
P11 Pembelajaran imitasi
Tidak yakin dengan adegan hadiahnya

Pembelajaran imitasi (IL)
belajar dari demonstrasi
Pembelajaran magang
belajar sambil menonton

Ada imbalan yang jelas: permainan papan, video game
Tidak dapat memberikan imbalan yang jelas: chatbot

Kumpulkan demonstrasi ahli: catatan mengemudi manusia, percakapan manusia

Sebaliknya, fungsi penghargaan seperti apa yang dilakukan pakar dalam tindakan ini?
Pembelajaran penguatan terbalik adalahPertama temukan fungsi hadiah, setelah menemukan fungsi reward, kemudian gunakan pembelajaran penguatan untuk menemukan aktor yang optimal.

Teknologi pembelajaran imitasi orang ketiga

————————
P12 Gradien kebijakan deterministik mendalam (DDPG)

Masukkan deskripsi gambar di sini

Gunakan strategi pemutaran ulang pengalaman

Analisis Eksperimen Ablasi [Metode Variabel Terkendali].setiap kendalaberdampak pada hasil pertempuran.

kegembiraan：

DDPG_kontinu

sedang membutuhkankepastianstrategi dantindakan terus menerusDi bawah premis ruang, algoritma jenis ini akan menjadi algoritma dasar yang relatif stabil.

DQN untuk ruang tindakan berkelanjutan

Algoritme gradien kebijakan deterministik mendalam (DDPG)

Mekanisme pemutaran ulang pengalaman dapat mengurangi korelasi antar sampel, meningkatkan pemanfaatan sampel secara efektif, dan meningkatkan stabilitas pelatihan.

kekurangan:
1. Tidak dapat digunakan dalam ruang tindakan diskrit
2、Sangat bergantung pada hyperparameter
3. Kondisi awal yang sangat sensitif. Mempengaruhi konvergensi dan kinerja algoritma
4. Mudah untuk masuk ke dalam optimum lokal.

Karena penerapan strategi deterministik, algoritme mungkin berada dalam optimal lokal dan menyulitkan pencarian strategi optimal global. Untuk meningkatkan kemampuan eksplorasi, beberapa tindakan perlu dilakukan, seperti menambahkan strategi kebisingan atau menggunakan metode eksplorasi lainnya.

Keuntungan dari pembaruan lunak adalah lebih lancar dan lambat, sehingga dapat menghindari guncangan yang disebabkan oleh pembaruan bobot yang terlalu cepat dan mengurangi risiko perbedaan pelatihan.

Algoritme gradien kebijakan deterministik tertunda ganda (TWPG tertunda, TD3)

Algoritma gradien kebijakan deterministik penundaan ganda

Tiga peningkatan: Jaringan Double Q, pembaruan tertunda, regularisasi kebisingan
Jaringan Q Ganda : Dua jaringan Q, pilih salah satu yang nilai Q-nya lebih kecil. Untuk mengatasi masalah overestimasi nilai Q dan meningkatkan stabilitas dan konvergensi algoritma.

Pembaruan tertunda: Biarkan frekuensi pembaruan aktor lebih rendah dari frekuensi pembaruan kritik

Berpikir dua kali

Kebisingan lebih seperti aRegularisasisedemikian rupa sehinggapembaruan fungsi nilailagimulus

Perpustakaan Gym OpenAI_Pendulum_TD3

Tautan antarmuka dokumen OpenAI tentang TD3

Tautan PDF kertas TD3

PPO_Ruang Tindakan Berkelanjutan/Diskrit [OpenAI 201708]

Algoritma PPO yang paling umum digunakan dalam pembelajaran penguatan
Diskrit + kontinu
Cepat dan stabil, mudah untuk menyesuaikan parameter
algoritma dasar

PPO yang belum diputuskan

Dalam praktiknya, batasan klip umumnya digunakan karena lebih sederhana, biaya komputasi lebih rendah, dan hasil lebih baik.

Algoritme di luar kebijakan bisauntuk memanfaatkan pengalaman sejarah, umumnya menggunakan pemutaran ulang pengalaman untuk menyimpan dan menggunakan kembali pengalaman sebelumnya,Efisiensi pemanfaatan data tinggi。

PPO adalah algoritma berdasarkan kebijakan

Meskipun bagian pengambilan sampel kepentingan menggunakan sampel dari pengambilan sampel aktor lama, kamiSampel-sampel ini tidak secara langsung digunakan untuk memperbarui strategi. , namun gunakan pengambilan sampel penting untuk terlebih dahulu memperbaiki kesalahan yang disebabkan oleh distribusi data yang berbeda, meskipun perbedaan antara kedua distribusi sampel dikurangi sebanyak mungkin.Dengan kata lain, dapat dipahami bahwa meskipun sampel setelah pengambilan sampel penting diperoleh melalui pengambilan sampel dengan strategi lama, namun hal tersebut dapat dilakukanKira-kira didapat dari kebijakan yang diperbarui, yaitu aktor yang ingin kita optimalkan dan aktor yang kita sampel adalah sama.

——————————————————

—— Dokumentasi OpenAI_PPO

Dokumentasi OpenAI
Tautan antarmuka Paper arXiv: Algoritma Pengoptimalan Kebijakan Proksimal

PPO: algoritme sesuai kebijakan, cocok untuk ruang tindakan terpisah atau berkelanjutan.Kemungkinan optimal lokal

Motivasi PPO sama dengan TRPO: bagaimana memanfaatkan data yang adaAmbil langkah perbaikan sebesar mungkin dalam strategi Anda, tanpa mengubahnya terlalu banyak dan secara tidak sengaja menyebabkan penurunan kinerja?
TRPO mencoba memecahkan masalah ini dengan pendekatan tingkat kedua yang canggih, sedangkan PPO adalah pendekatan tingkat pertama yang menggunakan beberapa trik lain untuk menjaga strategi baru tetap dekat dengan strategi lama.
Metode PPO jauh lebih sederhana untuk diterapkan dan, secara empiris, kinerjanya setidaknya sama baiknya dengan TRPO.

Ada dua variasi utama PPO: PPO-Penalti dan PPO-Klip.

Penalti PPO kira-kira menyelesaikan pembaruan batasan KL seperti TRPO, namun memberikan penalti terhadap divergensi KL dalam fungsi tujuan alih-alih menjadikannya batasan yang sulit, dan secara otomatis menyesuaikan koefisien penalti selama pelatihan sehingga dapat diskalakan dengan tepat.
PPO-Clip tidak memiliki KL-divergence dan tidak ada kendala dalam fungsi tujuan. Sebaliknya, hal ini bergantung pada penyesuaian fungsi tujuan yang spesifik untuk menghilangkan insentif bagi strategi baru untuk beralih dari strategi lama.
PPO-Clip (varian utama yang digunakan oleh OpenAl).

Masukkan deskripsi gambar di sini

Kode semu algoritma PPO-Clip

Masukkan deskripsi gambar di sini

Algoritma: PPO-Klip
1: Masukan: parameter strategi awal $theta_0$ , parameter fungsi nilai awal $phi_0$
2： $untuk aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu = 0, 1, 2, \dots Mengerjakan$ ：
3：Dengan menjalankan kebijakan di lingkungan $pi_k=pi(theta_k)$ Kumpulkan kumpulan lintasan $D}_k={tau_i}$
4：Hitung imbalan (rewards-to-go) $R_t~~~~~$ ▢ $R_t$ aturan perhitungan
5：Hitung perkiraan keuntungan, berdasarkan fungsi nilai saat ini $V_{phi_k}$ dari $A_t$ (Gunakan metode estimasi dominasi apa pun) ▢ Apa saja kelebihan metode estimasi yang ada saat ini?
6：Perbarui kebijakan dengan memaksimalkan fungsi tujuan PPO-Clip:

$~~~~~~~~~~~~theta_{k+1}=argmaxlimits_thetafrac{1}{|{cal D}_k|T}batas jumlah_{tauin{cal D}_k}batas jumlah_{t=0}^TminBig(frac{pi_{theta} (a_t|s_t)}{pi_{theta_k}(a_t|s_t)}A^{pi_{theta_k}}(s_t,a_t),g(epsilon,A^{pi_{theta_k}}(s_t,a_t))Besar)$ ▢ Bagaimana cara menentukan formula pembaruan strategi?

$pi_{theta_k}$ : Vektor parameter strategi sebelum pembaruan. Pengambilan sampel penting. Mengambil sampel dari strategi lama.

Pendakian Gradien Stochastic Umum + Adam
7：kesalahan kuadrat rata-ratafungsi nilai pas regresi:

$~~~~~~~~~~~~phi_{k+1}=arg minlimits_phifrac{1}{|{cal D}_k|T}sumlimits_{tauin{cal D}_k}sumlimits_{t=0}^TBig(V_phi(s_t)-hat R_tBig)^2$

Penurunan gradien umum
8： $akhir untuk$

$dots$ $\dots$

$begin{aligned}&(1+epsilon)A ~~~~&Ageq0\ &(1-epsilon)A&A<0end{aligned}$

Masukkan deskripsi gambar di sini

di kertasPerkiraan keuntungan:

$A_t=-V(s_t)+underbrace{r_t+gamma r_{t+1}+cdots+gamma^{T-t+1}r_{T-1}+gamma^{Tt}V(s_T)}_{warnateks{biru}{topi R_t???}}$

Masukkan deskripsi gambar di sini

membuat $r_t + gamma V(s_{t+1})-V(s_t)$
Tetapi $R_{T} = Δ_{T} - γV (S_{T + 1}) + Bahasa Indonesia: Bahasa Indonesia: Bahasa Indonesia: Bahasa Indonesia: Bahasa Indonesia: Bahasa Indonesia: Bahasa Indonesia: Bahasa Indonesia: Bahasa Indonesia: Bahasa Indonesia: Bahasa Indonesia: Bahasa Indonesia: Bahasa Indonesia: Bahasa Indonesia: Bahasa Indonesia: Bahasa Indonesia: Bahasa Indonesia: Bahasa Indonesia: Bahasa Indonesia: Bahasa Indonesia: Bahasa Indonesia: Bahasa Indonesia: Bahasa Indonesia: Bahasa Indonesia: Bahasa Indonesia: Bahasa Indonesia: Bahasa Indonesia: Bahasa Indonesia: Bahasa Indonesia: Bahasa Indonesia: Bahasa Indonesia: Bahasa Indonesia: Bahasa Indonesia: Bahasa Indonesia: Bahasa Indonesia: Bahasa Indonesia: Bahasa Indonesia: Bahasa Indonesia: V (S_{T})$

Pengganti $A_t$ ekspresi

$begin{aligned}hat A_t&=-V(s_t)+r_t+gamma r_{t+1}+gamma^2 r_{t+2}+cdots+gamma^{T-t}r_{T-2}+gamma^{T-t+1}r_{T-1}+gamma^{T-t}V(s_T)\ &=-V(s_t)+r_t+gamma r_{t+1}+cdots+gamma^{T-t+1}r_{T-1}+gamma^{T-t}V(s_T)\ &=-V(s_t)+\ & ~~~~~~~Delta_t - gamma V(s_{t+1})+V(s_t)+\ & ~~~~~~~gamma (Delta_{t+1} - gamma V(s_{t+2})+V(s_{t+1}))+\ & ~~~~~~~gamma^2(Delta_{t+2} - gamma V(s_{t+3})+V(s_{t+1}))+\ & ~~~~~~~cdots+\ & ~~~~~~~gamma^{T-t}(Delta_{T-t} - gamma V(s_{T-t+1})+V(s_{T-t}))+\ & ~~~~~~~gamma^{T-t+1}(Delta_{T-1} - gamma V(s_T)+V(s_{T-1}))+\ & ~~~~~~~gamma^{T-t}V(s_T)\ &=Delta_t+gammaDelta_{t+1}+gamma^2Delta_{t+2}+cdots+gamma^{T-t}Delta_{T-t}+gamma^{T-t+1}Delta_{T-1}end{aligned}$

Masukkan deskripsi gambar di sini

Kliping bertindak sebagai pengatur dengan menghilangkan insentif untuk perubahan drastis dalam kebijakan.hyperparameter $ϵ$ Sesuai dengan jarak antara strategi baru dan strategi lama。

Masih ada kemungkinan bahwa pemotongan seperti ini pada akhirnya akan menghasilkan strategi baru yang jauh dari strategi lama. Dalam penerapannya di sini, kami menggunakan metode yang sangat sederhana:Berhenti lebih awal . Jika rata-rata perbedaan KL kebijakan baru dan kebijakan lama melebihi ambang batas, kami berhenti menjalankan langkah gradien.

Tautan derivasi sederhana fungsi tujuan PPO
Fungsi tujuan PPO-Clip adalah:

$L^{rm KLIP}_{theta_k}(theta)=himpunan bawah{s, asimtheta_k}{rm E}Bigg[minBigg(frak{pi_theta(a|s)}{pi_{theta_k}(a|s)}A^{theta_k}(s, a), {rm klip}Besar(frak{pi_theta(a|s)}{pi_{theta_k}(a|s)},1-epsilon, 1+epsilonBesar)A^{theta_k}(s, a)Besar)Besar]$

$underset{s, asimtheta_k}{rm E}$ $asimtheta_k}{rm E}$

TIDAK. $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ Parameter strategi untuk iterasi $theta_k$ ， $ϵ$ adalah hyperparameter kecil.
mempersiapkan $ϵ \in (0, 1)$ , definisi
$F (R, A, ϵ) ≐ menit (R A, klip (R, 1 - ϵ, 1 + ϵ) A)$
Kapan $A \geq 0$
$begin{aligned}F(r,A,epsilon)&=minBigg(rA,{rm clip}(r,1-epsilon,1+epsilon)ABigg)\ &=AminBigg(r,{rm clip}(r,1-epsilon,1+epsilon)Bigg)\ &=AminBigg(r,left{begin{aligned}&1+epsilon~~&rgeq1+epsilon\ &r &rin(1-epsilon,1+epsilon)\ &1-epsilon &rleq1-epsilon\ end{aligned}$

Kapan $A < 0$
$begin{aligned}F(r,A,epsilon)&=minBigg(rA,{rm clip}(r,1-epsilon,1+epsilon)ABigg)\ &=Atextcolor{blue}{max}Bigg(r,{rm clip}(r,1-epsilon,1+epsilon)Bigg)\ &=AmaxBigg(r,left{begin{aligned}&1+epsilon~~&rgeq1+epsilon\ &r &rin(1-epsilon,1+epsilon)\ &1-epsilon &rleq1-epsilon\ end{aligned}$

Singkatnya: dapat ditentukan $G (ϵ, A)$
$begin{aligned}&(1+epsilon)A ~~~~&Ageq0\ &(1-epsilon)A&A<0end{aligned}$

Mengapa definisi ini mencegah strategi baru menyimpang terlalu jauh dari strategi lama?
Metode pengambilan sampel kepentingan yang efektif memerlukan strategi baru $pi_theta(a|s)$ dan strategi lama $pi_{theta_k}(a|s)$ Perbedaan antara kedua distribusi tersebut tidak boleh terlalu besar

1. Ketika keuntungannya positif

$L(s,a,theta_k, theta) = min ⁡ ( π θ (a ∣ s) π θ k (a ∣ s), 1 + ϵ ) A π θ k (s,a) L(s,a,theta_k, theta)=minBigg(frac{pi_theta(a|s)}{pi_{theta_k}(a|s)}, 1+epsilonBigg)A^{pi_{theta_k}}(s, a)$
Fungsi keuntungan: Temukan pasangan tindakan negara tertentu dengan lebih banyak hadiah -> tingkatkan bobot pasangan tindakan negara.

Ketika pasangan tindakan negara $(S, A)$ positif, maka jika tindakan $A$ lebih mungkin untuk dieksekusi, yaitu jika $pi_theta(a|s)$ Tingkatkan dan tujuannya akan meningkat.
min pada item ini membatasi fungsi tujuan hanya meningkat hingga nilai tertentu
sekali $pi_theta(a|s)>(1+epsilon)pi_{theta_k}(a|s)$ , min pemicu, membatasi nilai item ini menjadi $(1+epsilon)pi_{theta_k}(a|s)$ 。
kebijakan baru tidak mendapat keuntungan dengan menjauh dari kebijakan lama.
Strategi baru tidak akan mendapatkan keuntungan jika kita beralih dari strategi lama.

2. Ketika keuntungannya negatif

$L(s,a,theta_k, theta)=maksBigg(frak{pi_theta(a|s)}{pi_{theta_k}(a|s)}, 1-epsilonBigg)A^{pi_{theta_k}}(s, a)$

Ketika pasangan tindakan negara $(S, A)$ Keuntungannya negatif, lalu jika tindakannya $A$ bahkan lebih kecil kemungkinannya, yaitu jika $π_{θ} (A ∣ S)$ menurun maka fungsi tujuan akan meningkat. Namun nilai maksimal pada suku ini membatasi seberapa besar fungsi tujuan dapat ditingkatkan.
sekali $π_{θ} (A ∣ S) < (1 - ϵ) π_{θ_{aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu}} (A ∣ S)$ , pemicu maksimal, membatasi nilai item ini menjadi $(1-epsilon)pi_{theta_k}(a|s)$ 。

Sekali lagi: kebijakan baru tidak akan memberikan manfaat jika kita menjauhi kebijakan lama.
Strategi baru tidak akan mendapatkan keuntungan jika kita beralih dari strategi lama.

TD3_hanya berturut-turut: Gradien Kebijakan deterministik mendalam yang tertunda kembar [ICML 2018 (Kanada) McGill University]

Masukkan deskripsi gambar di sini
Sumber Gambar

Dokumentasi OpenAI_TD3
Tautan kertas

Meskipun DDPG terkadang dapat mencapai performa luar biasa, seringkali DDPG tidak stabil dalam hal hyperparameter dan jenis penyetelan lainnya.
Mode kegagalan DDPG yang umum adalah fungsi Q yang dipelajari mulai melebih-lebihkan nilai Q secara signifikan, yang kemudian menyebabkan kebijakan rusak karena mengeksploitasi kesalahan dalam fungsi Q.
Twin Delayed DDPG (TD3) adalah algoritma yang memecahkan masalah ini dengan memperkenalkan tiga teknik utama:
1、Pembelajaran Q Ganda Terpotong。

TD3 mempelajari dua fungsi Q, bukan satu (karenanya disebut "kembar") dan menggunakan nilai Q yang lebih kecil dari dua untuk membentuk target dalam fungsi kehilangan kesalahan Bellman.

2、Keterlambatan pembaruan kebijakan。

TD3 memperbarui kebijakan (dan jaringan target) lebih jarang dibandingkan fungsi Q. Makalah ini merekomendasikan pembaruan kebijakan setiap kali fungsi Q diperbarui dua kali.

3. Pemulusan strategi sasaran.

TD3 menambah gangguan pada tindakan yang ditargetkan, sehingga mempersulit kebijakan untuk mengeksploitasi kesalahan dalam fungsi Q dengan menghaluskan Q di seluruh perubahan tindakan.

TD3 adalah algoritma di luar kebijakan; hanya dapat digunakan dengankontinuLingkungan ruang aksi.

Kode semu algoritma TD3

Masukkan deskripsi gambar di sini

Algoritma: TD3
Gunakan parameter acak $theta_1, theta_2, phi$ Inisialisasi jaringan kritik $Q_{theta_1},Q_{theta_2}$ , dan jaringan aktor $pi_phi$
Inisialisasi jaringan target $theta_1^primeleftarrowtheta_1, theta_2^primeleftarrowtheta_2, phi^primeleftarrow phi$
Inisialisasi kumpulan buffer pemutaran $B$
$untuk T = 1 ke T$ ：
Pilih tindakan dengan kebisingan eksplorasi $asimpi_phi(s)+epsilon,~~epsilonsim {kal N}(0,sigma)$ , hadiah observasi $R$ dan status baru $s^prima$
Tupel transisi $s^prima)$ setor ke $B$ tengah
dari $B$ Pengambilan sampel dalam jumlah kecil $N$ transisi $s^prima)$
$pi_{phi^prime}(s^prime)+epsilon,~~epsilonsim{rm klip}({cal N}(0,widetilde sigma),-c,c)$
$minlimits_{i=1,2}Q_{theta_i^prima}(s^prima,widetilde a)$
Kritik pembaruan $theta_ileftarrowargminlimits_{theta_i}N^{-1}jumlah(y-Q_{theta_i}(s, a))^2$
$jika T % D$ ：
Pembaruan melalui gradien kebijakan deterministik $ϕ$
$_phi J(phi)=N^{-1}jumlahnabla_aQ_{theta_1}(s, a)|_{a=pi_phi(s)}nabla_phipi_phi(s)$
Perbarui jaringan target:
$~~~~~~~~~~~~~~~~~~~theta_i^primeleftarrowtautheta_i+(1-tau)theta_i^prima~~~~~$ $τ$ : Tingkat pembaruan target
$~~~~~~~~~~~~~~~~~~phi^primeleftarrowtauphi+(1-tau)phi^prima$
$akhir jika$
$akhir untuk$

Kritikus Aktor Lembut: SAC_Continuous/Discrete Action Space [Google Brain versi terbaru 201906]

Masukkan deskripsi gambar di sini

Sumber Gambar

Memaksimalkan entropi kebijakan, sehingga menjadikan kebijakan lebih kuat.

strategi deterministik Artinya, dalam keadaan yang sama, selalu pilih tindakan yang sama
strategi keacakan Artinya ada banyak kemungkinan tindakan yang dapat dipilih dalam keadaan tertentu.

	strategi deterministik	strategi keacakan
definisi	Keadaan yang sama, lakukan tindakan yang sama	status yang sama,Dapat melakukan tindakan yang berbeda
keuntungan	Stabil dan dapat diulang	Hindari terjebak dalam solusi optimal lokal dan tingkatkan kemampuan pencarian global
kekurangan	Kurangnya kemampuan untuk dijelajahi dan mudah ditangkap oleh lawan	Hal ini dapat menyebabkan strategi menyatu dengan lambat, sehingga mempengaruhi efisiensi dan kinerja.

Dalam penerapan sebenarnya, jika kondisi memungkinkan, kami akan melakukannyaCobalah untuk menggunakanstrategi keacakan, seperti A2C, PPO, dll, karena lebih fleksibel, lebih kuat, dan lebih stabil.

Pembelajaran penguatan entropi maksimum meyakini bahwa meskipun saat ini kita telah memiliki strategi keacakan yang matang, yaitu algoritma seperti AC, kita masih belum mencapai keacakan yang optimal.Oleh karena itu, ia memperkenalkan aentropi informasikonsep, diMaksimalkan imbalan kumulatif sambil memaksimalkan entropi kebijakan, membuat strategi lebih kuat dan mencapai strategi keacakan yang optimal.

——————————————————

—— Dokumentasi OpenAI_SAC

Dokumentasi OpenAI_Tautan Antarmuka SAC

Soft Actor-Critic: Pembelajaran Penguatan Mendalam Entropi Maksimum di Luar Kebijakan dengan Aktor Stokastik, Haarnoja dkk, 201808 ICML 2018
Algoritma dan Aplikasi Soft Actor-Critic, Haarnoja dkk, 201901
Belajar Berjalan melalui Pembelajaran Penguatan Mendalam, Haarnoja dkk, 201906 RSS2019

Soft Actor Critic (SAC) mengoptimalkan strategi acak dengan cara di luar kebijakan.

DDPG + optimasi strategi stokastik

Bukan penerus langsung TD3 (dirilis pada waktu yang hampir bersamaan).

Ini menggabungkan trik double-Q yang terpotong, dan karena keacakan yang melekat pada strategi SAC, strategi ini juga pada akhirnya mendapat manfaat darikelancaran kebijakan sasaran。

Fitur inti SAC adalah regularisasi entropi regularisasi entropi。
Kebijakan ini dilatih untuk memaksimalkan trade-off antara imbalan yang diharapkan dan entropi,Entropi adalah ukuran keacakan suatu kebijakan。
Hal ini berkaitan erat dengan trade-off antara eksplorasi dan eksploitasi: peningkatan entropi menyebabkan peningkatanLebih banyak untuk dijelajahi,ini bagusMempercepat pembelajaran selanjutnya .tidak apa-apaMencegah kebijakan agar tidak mengalami konvergensi sebelum waktunya ke optimal lokal yang buruk。

Ini dapat digunakan baik di ruang aksi berkelanjutan maupun ruang aksi diskrit.

ada Pembelajaran Penguatan yang Diatur Entropi, agen memperoleh danEntropi kebijakan pada langkah saat iniImbalan yang proporsional.
Saat ini masalah RL digambarkan sebagai:

$pi^*=argmaxlimits_pi underset{tausimpi}{rm E}Besar[sumlimits_{t=0}^inftygamma^tBesar(R(s_t,a_t,s_{t+1})warnateks{biru}{+alfa H(pi(·|s_t))}Besar)Besar]$

di dalam $α > 0$ adalah koefisien trade-off.
Nyatakan fungsi nilai termasuk imbalan entropi pada setiap langkah waktu $V^pi$ untuk:

$V^pi(s)=himpunan bawah{tausimpi}{rm E}Besar[sumlimits_{t=0}^inftygamma^tBesar(R(s_t,a_t,s_{t+1})+alfa H(pi(·|s_t))Besar)Besar|s_0=sBesar]$

Fungsi nilai tindakan yang menyertakan imbalan entropi untuk setiap langkah waktu kecuali yang pertama $Q^pi$ :

$Q^pi(s,a)=himpunan bawah{tausimpi}{rm E}Besar[jumlahbatas_{t=0}^takterhinggagamma^tBesar(R(s_t,a_t,s_{t+1})+alfa jumlahbatas_{t=1}^takterhingga H(pi(·|s_t))Besar)Besar|s_0=s,a_0=aBesar]$

beberapa makalah $Q^pi$ Berisi hadiah entropi untuk langkah pertama kalinya

$V^pi$ Dan $Q^pi$ Hubungan antara adalah:

$V^pi(s)=himpunan bawah{asimpi}{rm E}[Q^pi(s, a)]+alfa H(pi(·|s))$

tentang $Q^pi$ Rumus Bellmannya adalah:

$begin{aligned}Q^pi(s, a)&=underset{s^prime sim P atop a^primesim pi}{rm E}[R(s,a,s^prime)+gammabig(Q^pi(s^prime,a^prime)+alpha H(pi(·|s^prime))big)]\ &=underset{s^prime sim P}{rm E}[R(s,a,s^prime)+gamma V^pi(s^prime)]end{aligned}$

SAC mempelajari suatu kebijakan secara bersamaan $π_theta$ dan dua $Q$ fungsi $Q_{phi_1}, Q_{phi_2}$ 。
Saat ini ada dua varian SAC standar: satu menggunakan yang tetapKoefisien regularisasi entropi $α$ , yang lain dengan mengubah selama pelatihan $α$ untuk menerapkan batasan entropi.
Dokumentasi OpenAI menggunakan versi dengan koefisien regularisasi entropi tetap, namun dalam praktiknya sering kali lebih disukaibatasan entropivarian.

Seperti yang ditunjukkan di bawah ini, di $α$ Pada versi fix, kecuali gambar terakhir yang memiliki kelebihan yang jelas, yang lain hanya memiliki sedikit kelebihan, pada dasarnya sama $α$ Versi pembelajarannya tetap sama; $α$ Dua gambar tengah dimana versi pembelajaran memiliki kelebihan lebih jelas.

Masukkan deskripsi gambar di sini
Sumber Gambar

SAC MelawanTD3:

Poin yang sama:
1. Kedua fungsi Q dipelajari dengan meminimalkan MSBE (Mean Squared Bellman Error) melalui regresi ke satu tujuan bersama.
2. Gunakan jaringan Q target untuk menghitung target bersama, dan lakukan rata-rata polyak pada parameter jaringan Q selama proses pelatihan untuk mendapatkan jaringan Q target.
3. Target bersama menggunakan teknik Q ganda terpotong.

perbedaan:
1. SAC berisi istilah regularisasi entropi
2. Tindakan keadaan selanjutnya yang digunakan dalam tujuan SAC berasal dariStrategi saat ini, bukan strategi sasaran.
3. Belum ada target strategi kelancaran yang jelas. TD3 melatih kebijakan deterministik dengan berpindah ke keadaan berikutnyaTambahkan kebisingan acak untuk mencapai kehalusan. SAC melatih kebijakan acak, dan gangguan dari keacakan sudah cukup untuk mencapai efek serupa.

Pseudocode algoritma SAC

Masukkan deskripsi gambar di sini

Algoritma: SAC Aktor-Kritikus Lembut
memasuki: $theta_1, theta_2, phi~~~~~$ Parameter inisialisasi
Inisialisasi parameter:
Inisialisasi bobot jaringan target: $theta_1panah kiri theta_1, batang theta_2panah kiri theta_2$
Kumpulan pemutaran diinisialisasi menjadi kosong: $D \leftarrow \emptyset$
$untuk$ setiap iterasi $Mengerjakan$ ：
$untuk$ Setiap langkah lingkungan $Mengerjakan$ ：
Contoh tindakan dari suatu kebijakan: $a_tsimpi_phi(a_t|s_t)~~~~~$ ▢Di sini $pi_phi(a_t|s_t)$ Bagaimana cara mendefinisikannya?
Contoh transisi dari lingkungan: $s_{t+1}sim p(s_{t+1}|s_t,a_t)$
Simpan transisi ke kumpulan pemutaran: $D}~cangkir~{(s_t,a_t,r(s_t,a_t),s_{t+1})}$
$akhir untuk$
$untuk$ Setiap langkah gradien $Mengerjakan$ ：
memperbarui $Q$ Parameter fungsi: untuk $Saya \in {1, 2}$ ， $theta_ileftarrowtheta_i-lambda_Qhat nabla_{theta_i}J_Q(theta_i)~~~~~$ ▢Di sini $J_Q(theta_i)$ Bagaimana cara mendefinisikannya?
Perbarui bobot strategi: $phileftarrowphi-lambda_pihat nabla_phi J_pi (phi)~~~~~$ ▢Di sini $J_pi (phi)$ Bagaimana cara mendefinisikannya?
Sesuaikan suhu: $alfa-lambdahatnabla_alpha J(alfa)~~~~~$ ▢Di sini $J (α)$ Bagaimana cara mendefinisikannya?Bagaimana memahami suhu di sini?
Perbarui bobot jaringan target: untuk $Saya \in {1, 2}$ ， $theta_ileftarrow tau theta_i-(1-tau)batang theta_i~~~~~$ ▢ Bagaimana memahami hal ini $τ$ ? ——>Koefisien pemulusan target
$akhir untuk$
$akhir untuk$
Keluaran: $theta_1,theta_1,phi~~~~~$ Parameter yang dioptimalkan

$\hat{\nabla}$ : gradien stokastik

$emptyset$ $\emptyset$

Masukkan deskripsi gambar di sini

Belajar Berjalan melalui Pembelajaran Penguatan Mendalam Versi dalam:

$α$ adalah parameter suhu, yang menentukan kepentingan relatif dari istilah entropi dan imbalan, sehingga mengendalikan keacakan strategi optimal.
$α$ Besar: Jelajahi
$α$ Kecil: eksploitasi

$bawah{a_tsimpi_t}{mathbb E}[-alfalog pi_t(a_t|s_t)-alfabar{cal H}]$

Berbagi teknologi