# [0705] Task06 DDPG-Algorithmus, PPO-Algorithmus, SAC-Algorithmus [nur Theorie]

2024-07-12

easy-rl PDF-Versionshinweis-Organisation P5, P10 - P12
Joyrl-Vergleichsergänzung P11-P13
OpenAI-Dokumentenorganisation ⭐ https://spinningup.openai.com/en/latest/index.html

Fügen Sie hier eine Bildbeschreibung ein

Neueste Version als PDF herunterladen
Adresse: https://github.com/datawhalechina/easy-rl/releases
Inländische Adresse (empfohlen für inländische Leser)：
Link: https://pan.baidu.com/s/1isqQnpVRWbb3yh83Vs0kbw Extraktionscode: us6a

Link zur Online-Version von easy-rl (zum Kopieren des Codes)
Referenzlink 2: https://datawhalechina.github.io/joyrl-book/

andere:
[Link zum Errata-Datensatz]
——————
5. Grundlagen des Deep Reinforcement Learning ⭐️
Open-Source-Inhalt: https://linklearner.com/learn/summary/11
——————————

Fügen Sie hier eine Bildbeschreibung ein
Bildquelle

Proximale Richtlinienoptimierung (PPO)

Identische Strategie: Der zu erlernende Agent und der mit der Umgebung interagierende Agent sind gleich.
Heterogene Strategien: Der zu lernende Agent und der mit der Umgebung interagierende Agent sind unterschiedlich

Richtliniengradient: Das Sammeln von Daten nimmt viel Zeit in Anspruch

gleiche Strategie $⟹ Wichtigkeit der Stichprobe$ verschiedene Strategien

PPO: Vermeiden Sie zwei Distributionen, die sich zu stark unterscheiden. Gleicher Strategiealgorithmus
1. Ursprüngliche Optimierungselemente $J(theta,theta^prime)$
2. Einschränkungselemente: $θ$ Und $theta^prime$ Die KL-Divergenz der Ausgabeaktion ( $θ$ Und $theta^prime$ Je ähnlicher desto besser)

PPO hat einen Vorgänger: Trust Region Policy Optimization (TRPO)
TRPO ist schwierig zu handhaben, da es die KL-Divergenzbeschränkung als zusätzliche Einschränkung behandelt und nicht in die Zielfunktion eingefügt wird, sodass es schwierig zu berechnen ist. Daher verwenden wir im Allgemeinen PPO anstelle von TRPO. Die Leistung von PPO und TRPO ist ähnlich, PPO ist jedoch viel einfacher zu implementieren als TRPO.

KL-Divergenz: Aktionsdistanz.Wahrscheinlichkeitsverteilung der Ausführung einer Aktion Distanz.

Es gibt zwei Hauptvarianten des PPO-Algorithmus: Proximal Policy Optimization Penalty (PPO-Penalty) und Proximal Policy Optimization Clipping (PPO-Clip).

Fügen Sie hier eine Bildbeschreibung ein

——————————
P10 Problem mit spärlicher Belohnung
1. Design-Belohnungen. Erfordert Domänenkenntnisse
Wie wäre es, wenn Sie jeder relevanten Aktion die endgültige Belohnung zuweisen?

2. Neugier
Intrinsisches Neugiermodul (ICM)
eingeben: $a_t,s_t$
Ausgabe: $s_{t+1}$
Der vorhergesagte Wert des Netzwerks $s_{t+1}$ mit wahrem Wert $s_{t+1}$ Je unterschiedlicher sie sind, desto $r_t^i$ Je größer

$r_t^i$ : Je schwieriger der zukünftige Zustand vorherzusagen ist, desto größer ist die Belohnung für die Aktion. Fördern Sie Abenteuer und Entdeckungen.

Der Indikator ist zu einfach und Sie lernen möglicherweise nur nutzlose Dinge.

Feature-Extraktor

Netzwerk 2:
Eingabe: Vektor $phi}(s_{t})$ Und $phi}(s_{t+1})$

Aktionen vorhersagen $\overset{A}{^}$ Je näher an der realen Aktion, desto besser.

Fügen Sie hier eine Bildbeschreibung ein

3. Kursstudium

Einfach -> Schwierig

Reverse-Curriculum-Lernen:
Gehen Sie ausgehend vom idealsten Endzustand [wir nennen ihn den Goldzustand] zuFinden Sie den Staat, der dem Golden State am nächsten kommt Als inszenierter „Idealzustand“, den der Agent erreichen soll. Natürlich werden wir dabei bewusst einige Extremzustände, also Zustände, die zu einfach oder zu schwierig sind, entfernen.

4. Hierarchisches Verstärkungslernen (HRL)
Die Strategie des Agenten ist in High-Level-Strategien und Low-Level-Strategien unterteilt. Die High-Level-Strategie bestimmt, wie die Low-Level-Strategie basierend auf dem aktuellen Status ausgeführt wird.

————————
P11 Nachahmungslernen
Bei der Belohnungsszene bin ich mir nicht sicher

Nachahmungslernen (IL)
Lernen durch Demonstration
Lehrlingsausbildung
Lernen durch Zuschauen

Es gibt klare Belohnungen: Brettspiele, Videospiele
Es können keine klaren Belohnungen vergeben werden: Chatbot

Sammeln Sie Expertendemonstrationen: menschliche Fahraufzeichnungen, menschliche Gespräche

Welche Art von Belohnungsfunktion hat der Experte umgekehrt bei diesen Maßnahmen?
Inverses Verstärkungslernen istFinden Sie zuerst die BelohnungsfunktionNachdem Sie die Belohnungsfunktion gefunden haben, verwenden Sie dann Verstärkungslernen, um den optimalen Akteur zu finden.

Lerntechnologie zur Nachahmung einer dritten Person

————————
P12 Tiefer deterministischer Richtliniengradient (DDPG)

Fügen Sie hier eine Bildbeschreibung ein

Verwenden Sie eine Erfahrungswiederholungsstrategie

Analyse des Ablationsexperiments [kontrollierte Variablenmethode].jede EinschränkungEinfluss auf den Ausgang der Schlacht.

joyrl:

DDPG_continuous

in NotSicherheitStrategie undkontinuierliche AktionUnter der Voraussetzung des Weltraums wird dieser Algorithmustyp ein relativ stabiler Basisalgorithmus sein.

DQN für kontinuierliche Aktionsräume

Deep Deterministic Policy Gradient Algorithmus (DDPG)

Der Erfahrungswiedergabemechanismus kann die Korrelation zwischen Proben verringern, die effektive Nutzung von Proben verbessern und die Stabilität des Trainings erhöhen.

Mangel:
1. Kann nicht im diskreten Aktionsbereich verwendet werden
2、Stark abhängig von Hyperparametern
3. Hochsensible Anfangsbedingungen. Beeinflusst die Konvergenz und Leistung des Algorithmus
4. Es ist leicht, in das lokale Optimum zu fallen.

Aufgrund der Annahme einer deterministischen Strategie kann der Algorithmus in ein lokales Optimum fallen und es schwierig machen, die globale optimale Strategie zu finden. Um die Erkundbarkeit zu erhöhen, müssen einige Maßnahmen ergriffen werden, beispielsweise das Hinzufügen von Lärmstrategien oder der Einsatz anderer Erkundungsmethoden.

Der Vorteil der sanften Aktualisierung besteht darin, dass sie sanfter und langsamer ist, wodurch Erschütterungen durch zu schnelle Gewichtsaktualisierungen vermieden und das Risiko einer Trainingsabweichung verringert werden können.

Doppelt verzögerter deterministischer Richtliniengradientenalgorithmus (zwillingsverzögertes DDPG, TD3)

Deterministischer Richtliniengradientenalgorithmus mit doppelter Verzögerung

Drei Verbesserungen: Double-Q-Netzwerk, verzögerte Aktualisierung, Rauschregulierung
Double-Q-Netzwerk : Zwei Q-Netzwerke, wählen Sie das mit dem kleineren Q-Wert. Um das Überschätzungsproblem des Q-Werts zu lösen und die Stabilität und Konvergenz des Algorithmus zu verbessern.

Verzögerte Aktualisierung: Lassen Sie die Aktualisierungshäufigkeit des Akteurs niedriger sein als die Aktualisierungshäufigkeit des Kritikers

Denke nochmal nach

Lärm ist eher wie einRegulierungSodassAktualisierung der Wertfunktionmehrglatt

OpenAI Gym Library_Pendulum_TD3

Link zur OpenAI-Dokumentschnittstelle zu TD3

TD3-Papier-PDF-Link

PPO_Kontinuierlicher/Diskreter Aktionsraum [OpenAI 201708]

Der am häufigsten verwendete PPO-Algorithmus beim Reinforcement Learning
Diskret + kontinuierlich
Schnell und stabil, einfach anzupassende Parameter
Basisalgorithmus

Unentschlossenes PPO

In der Praxis werden im Allgemeinen Clip-Einschränkungen verwendet, da diese einfacher sind, einen geringeren Rechenaufwand erfordern und bessere Ergebnisse liefern.

Der Off-Policy-Algorithmus kannhistorische Erfahrungen nutzenVerwenden Sie im Allgemeinen die Erfahrungswiedergabe, um frühere Erfahrungen zu speichern und wiederzuverwenden.Die Effizienz der Datennutzung ist hoch。

PPO ist ein richtlinienkonformer Algorithmus

Obwohl der wichtige Sampling-Teil Samples aus dem alten Actor-Sampling verwendet, haben wirDiese Beispiele werden nicht direkt zur Aktualisierung der Strategie verwendet. , aber verwenden Sie Wichtigkeitsstichproben, um zunächst die durch unterschiedliche Datenverteilungen verursachten Fehler zu korrigieren, auch wenn der Unterschied zwischen den beiden Stichprobenverteilungen so weit wie möglich reduziert wird.Mit anderen Worten, es kann verstanden werden, dass die Stichproben nach der Wichtigkeitsstichprobe zwar durch Stichproben mit der alten Strategie erhalten werden, dies jedoch möglich istUngefähr aus der aktualisierten Richtlinie entnommenDas heißt, der Schauspieler, den wir optimieren möchten, und der Schauspieler, den wir abtasten, sind identisch.

——————————————————

—— OpenAI-Dokumentation_PPO

OpenAI-Dokumentation
Paper-Link zur arXiv-Schnittstelle: Proximal Policy Optimization Algorithms

PPO: Richtlinienkonformer Algorithmus, geeignet für diskrete oder kontinuierliche Aktionsräume.Mögliches lokales Optimum

Die Motivation für PPO ist die gleiche wie für TRPO: wie man vorhandene Daten nutztMachen Sie den größtmöglichen Verbesserungsschritt in Ihrer Strategie, ohne es zu sehr zu ändern und versehentlich einen Leistungsabsturz zu verursachen?
TRPO versucht, dieses Problem mit einem ausgefeilten Ansatz zweiter Ordnung zu lösen, während PPO ein Ansatz erster Ordnung ist, der einige andere Tricks verwendet, um die neue Strategie nahe an der alten zu halten.
Die PPO-Methode ist viel einfacher zu implementieren und liefert empirisch mindestens die gleiche Leistung wie TRPO.

Es gibt zwei Hauptvarianten von PPO: PPO-Penalty und PPO-Clip.

PPO-Strafe löst in etwa KL-Einschränkungsaktualisierungen wie TRPO, bestraft jedoch die KL-Divergenz in der Zielfunktion, anstatt sie zu einer harten Einschränkung zu machen, und passt den Strafkoeffizienten während des Trainings automatisch an, sodass er entsprechend skaliert.
PPO-Clip hat keine KL-Divergenz und keine Einschränkungen in der Zielfunktion. Stattdessen beruht es auf einer spezifischen Anpassung der Zielfunktion, um den Anreiz für die neue Strategie zu beseitigen, sich von der alten Strategie zu entfernen.
PPO-Clip (Hauptvariante von OpenAl).

Fügen Sie hier eine Bildbeschreibung ein

Pseudocode des PPO-Clip-Algorithmus

Fügen Sie hier eine Bildbeschreibung ein

Algorithmus: PPO-Clip
1: Eingabe: anfängliche Strategieparameter $theta_0$ , Anfangswert-Funktionsparameter $phi_0$
2： $für k = 0, 1, 2, \dots Tun$ ：
3：Durch Ausführen der Richtlinie in der Umgebung $pi_k=pi(theta_k)$ Sammeln Sie den Flugbahnsatz $D}_k={tau_i}$
4：Prämien berechnen (Rewards-to-go) $R_t~~~~~$ ▢ $R_t$ Berechnungsregeln
5：Berechnen Sie die Vorteilsschätzung basierend auf der aktuellen Wertfunktion $V_{phi_k}$ von $A_t$ (Verwenden Sie eine beliebige Methode zur Dominanzschätzung) ▢ Was sind die aktuellen Methoden zur Vorteilsschätzung?
6：Aktualisieren Sie die Richtlinie, indem Sie die PPO-Clip-Zielfunktion maximieren:

$~~~~~~~~~~~theta_{k+1}=argmaxlimits_thetafrac{1}{|{cal D}_k|T}sumlimits_{tauin{cal D}_k}sumlimits_{t=0}^TminBig(frac{pi_{theta} (a_t|s_t)}{pi_{theta_k}(a_t|s_t)}A^{pi_{theta_k}}(s_t,a_t),g(epsilon,A^{pi_{theta_k}}(s_t,a_t))Groß)$ ▢ Wie ermittelt man die Strategieaktualisierungsformel?

$pi_{theta_k}$ : Strategieparametervektor vor der Aktualisierung. Bedeutung der Probenahme. Sampling aus alten Strategien.

Allgemeiner stochastischer Gradientenaufstieg + Adam
7：mittlerer quadratischer FehlerRegressionsanpassungswertfunktion:

$~~~~~~~~~~~phi_{k+1}=arg minlimits_phifrac{1}{|{cal D}_k|T}sumlimits_{tauin{cal D}_k}sumlimits_{t=0}^TBig(V_phi(s_t)-hat R_tBig)^2$

Allgemeiner Gefälleabstieg
8： $Ende für$

$dots$ $\dots$

$begin{aligned}&(1+epsilon)A ~~~~&Ageq0\ &(1-epsilon)A&A<0end{aligned}$

Fügen Sie hier eine Bildbeschreibung ein

in der ZeitungVorteilsschätzung:

$A_t=-V(s_t)+underbrace{r_t+gamma r_{t+1}+cdots+gamma^{T-t+1}r_{T-1}+gamma^{Tt}V(s_T)}_{textcolor{blue}{Hut R_t???}}$

Fügen Sie hier eine Bildbeschreibung ein

machen $Delta_t =r_t+gamma V(s_{t+1})-V(s_t)$
Aber $r_t=Delta_t - gamma V(s_{t+1})+V(s_t)$

Ersatz $A_t$ Ausdruck

$begin{aligned}hat A_t&=-V(s_t)+r_t+gamma r_{t+1}+gamma^2 r_{t+2}+cdots+gamma^{T-t}r_{T-2}+gamma^{T-t+1}r_{T-1}+gamma^{T-t}V(s_T)\ &=-V(s_t)+r_t+gamma r_{t+1}+cdots+gamma^{T-t+1}r_{T-1}+gamma^{T-t}V(s_T)\ &=-V(s_t)+\ & ~~~~~~~Delta_t - gamma V(s_{t+1})+V(s_t)+\ & ~~~~~~~gamma (Delta_{t+1} - gamma V(s_{t+2})+V(s_{t+1}))+\ & ~~~~~~~gamma^2(Delta_{t+2} - gamma V(s_{t+3})+V(s_{t+1}))+\ & ~~~~~~~cdots+\ & ~~~~~~~gamma^{T-t}(Delta_{T-t} - gamma V(s_{T-t+1})+V(s_{T-t}))+\ & ~~~~~~~gamma^{T-t+1}(Delta_{T-1} - gamma V(s_T)+V(s_{T-1}))+\ & ~~~~~~~gamma^{T-t}V(s_T)\ &=Delta_t+gammaDelta_{t+1}+gamma^2Delta_{t+2}+cdots+gamma^{T-t}Delta_{T-t}+gamma^{T-t+1}Delta_{T-1}end{aligned}$

Fügen Sie hier eine Bildbeschreibung ein

Clipping wirkt als Regularisierer, indem es den Anreiz für drastische Änderungen in der Politik beseitigt.Hyperparameter $ϵ$ Entspricht dem Abstand zwischen der neuen Strategie und der alten Strategie。

Es ist immer noch möglich, dass diese Art des Abschneidens irgendwann zu einer neuen Strategie führt, die weit von der alten Strategie entfernt ist. Bei der Umsetzung verwenden wir hier eine besonders einfache Methode:Hören Sie früh auf . Wenn die durchschnittliche KL-Divergenz der neuen Richtlinie von der alten Richtlinie einen Schwellenwert überschreitet, beenden wir die Ausführung des Gradientenschritts.

Einfacher Ableitungslink der PPO-Zielfunktion
Die Zielfunktion von PPO-Clip ist:

$L^{rm CLIP}_{theta_k}(theta)=underset{s, asimtheta_k}{rm E}Bigg[minBigg(frac{pi_theta(a|s)}{pi_{theta_k}(a|s)}A^{theta_k}(s, a), {rm Clip}Groß(frac{pi_theta(a|s)}{pi_{theta_k}(a|s)},1-epsilon, 1+epsilonGroß)A^{theta_k}(s, a)Groß)Groß]$

$underset{s, asimtheta_k}{rm E}$ $asimtheta_k}{rm E}$

NEIN. $k$ Strategieparameter für Iterationen $theta_k$ ， $ϵ$ ist ein kleiner Hyperparameter.
aufstellen $ϵ \in (0, 1)$ , Definition
$F (R, A, ϵ) ≐ Mindest (R A, Beschneiden (R, 1 - ϵ, 1 + ϵ) A)$
Wann $A \geq 0$
$begin{aligned}F(r,A,epsilon)&=minBigg(rA,{rm clip}(r,1-epsilon,1+epsilon)ABigg)\ &=AminBigg(r,{rm clip}(r,1-epsilon,1+epsilon)Bigg)\ &=AminBigg(r,left{begin{aligned}&1+epsilon~~&rgeq1+epsilon\ &r &rin(1-epsilon,1+epsilon)\ &1-epsilon &rleq1-epsilon\ end{aligned}$

Wann $A < 0$
$begin{aligned}F(r,A,epsilon)&=minBigg(rA,{rm clip}(r,1-epsilon,1+epsilon)ABigg)\ &=Atextcolor{blue}{max}Bigg(r,{rm clip}(r,1-epsilon,1+epsilon)Bigg)\ &=AmaxBigg(r,left{begin{aligned}&1+epsilon~~&rgeq1+epsilon\ &r &rin(1-epsilon,1+epsilon)\ &1-epsilon &rleq1-epsilon\ end{aligned}$

Zusammenfassend: definierbar $G (ϵ, A)$
$begin{aligned}&(1+epsilon)A ~~~~&Ageq0\ &(1-epsilon)A&A<0end{aligned}$

Warum verhindert diese Definition, dass die neue Strategie zu weit von der alten Strategie abweicht?
Effektive Wichtigkeitsstichprobenverfahren erfordern neue Strategien $pi_theta(a|s)$ und alte Strategien $pi_{theta_k}(a|s)$ Der Unterschied zwischen den beiden Verteilungen darf nicht zu groß sein

1. Wenn der Vorteil positiv ist

$theta_k, theta)=minBigg(frac{pi_theta(a|s)}{pi_{theta_k}(a|s)}, 1+epsilonBigg)A^{pi_{theta_k}}(s, a)$
Vorteilsfunktion: Finden Sie ein bestimmtes Zustands-Aktionspaar mit mehr Belohnungen -> erhöhen Sie das Gewicht des Zustands-Aktionspaars.

Bei einem Zustand-Aktions-Paar $(S, A)$ ist positiv, dann wenn die Aktion $A$ wahrscheinlicher ist, dass es ausgeführt wird, d. h. wenn $pi_theta(a|s)$ Steigern Sie und das Ziel wird größer.
min in diesem Element begrenzt die Zielfunktion so, dass sie nur auf einen bestimmten Wert ansteigt
einmal $pi_theta(a|s)>(1+epsilon)pi_{theta_k}(a|s)$ , min löst aus und begrenzt den Wert dieses Elements auf $(1+epsilon)pi_{theta_k}(a|s)$ 。
die neue Politik profitiert nicht davon, wenn sie weit von der alten Politik abweicht.
Die neue Strategie wird nicht von einer Abkehr von der alten Strategie profitieren.

2. Wenn der Vorteil negativ ist

$theta_k, theta)=maxBigg(frac{pi_theta(a|s)}{pi_{theta_k}(a|s)}, 1-epsilonBigg)A^{pi_{theta_k}}(s, a)$

Bei einem Zustand-Aktions-Paar $(S, A)$ Der Vorteil ist dann negativ, wenn die Aktion erfolgt $A$ ist noch weniger wahrscheinlich, das heißt, wenn $π_theta(a|s)$ abnimmt, nimmt die Zielfunktion zu. Das Maximum in diesem Term begrenzt jedoch, um wie viel die Zielfunktion erhöht werden kann.
einmal $pi_theta(a|s)<(1-epsilon)pi_{theta_k}(a|s)$ , maximale Auslöser, wodurch der Wert dieses Elements auf begrenzt wird $(1-epsilon)pi_{theta_k}(a|s)$ 。

Nochmals: Die neue Politik profitiert nicht davon, dass sie sich weit von der alten Politik entfernt.
Die neue Strategie wird nicht von einer Abkehr von der alten Strategie profitieren.

TD3_nur aufeinanderfolgend: Twin Delayed Deep Deterministic Policy Gradient [ICML 2018 (Kanada) McGill University]

Fügen Sie hier eine Bildbeschreibung ein
Bildquelle

OpenAI-Dokumentation_TD3
Link zum Papier

Während DDPG manchmal eine hervorragende Leistung erzielen kann, ist es häufig instabil, wenn es um Hyperparameter und andere Arten der Optimierung geht.
Ein häufiger DDPG-Fehlermodus besteht darin, dass die erlernte Q-Funktion beginnt, den Q-Wert deutlich zu überschätzen, was dann dazu führt, dass die Richtlinie bricht, weil sie den Fehler in der Q-Funktion ausnutzt.
Twin Delayed DDPG (TD3) ist ein Algorithmus, der dieses Problem durch die Einführung von drei Schlüsseltechniken löst:
1、Abgeschnittenes doppeltes Q-Learning。

TD3 lernt zwei Q-Funktionen statt einer (daher der „Zwilling“) und verwendet den kleineren der beiden Q-Werte, um das Ziel in der Bellman-Fehlerverlustfunktion zu bilden.

2、Verzögerung bei der Richtlinienaktualisierung。

TD3 aktualisiert die Richtlinie (und das Zielnetzwerk) seltener als die Q-Funktion. Das Papier empfiehlt, die Richtlinie jedes Mal zu aktualisieren, wenn die Q-Funktion zweimal aktualisiert wird.

3. Glättung der Zielstrategie.

TD3 fügt der Zielaktion Rauschen hinzu, wodurch es für die Richtlinie schwieriger wird, Fehler in der Q-Funktion auszunutzen, indem Q über Aktionsänderungen hinweg geglättet wird.

TD3 ist ein Off-Policy-Algorithmus; er kann nur mit verwendet werdenkontinuierlichDie Umgebung des Aktionsraums.

Pseudocode des TD3-Algorithmus

Fügen Sie hier eine Bildbeschreibung ein

Algorithmus: TD3
Verwenden Sie zufällige Parameter $theta_1, theta_2, phi$ Kritikernetzwerk initialisieren $Q_{theta_1},Q_{theta_2}$ und Akteursnetzwerk $pi_phi$
Zielnetzwerk initialisieren $theta_1^primeleftarrowtheta_1, theta_2^primeleftarrowtheta_2, phi^primeleftarrow phi$
Wiedergabepuffersatz initialisieren $B$
$für T = 1 Zu T$ ：
Wählen Sie Aktion mit Erkundungsgeräusch $asimpi_phi(s)+epsilon,~~epsilonsim {cal N}(0,sigma)$ , Beobachtungsbelohnung $R$ und neuer Status $s^prim$
Das Übergangstupel $s^Primzahl)$ Anzahlung an $B$ Mitte
aus $B$ Bemusterung kleiner Chargen $N$ Übergänge $s^Primzahl)$
$pi_{phi^prime}(s^prime)+epsilon,~~epsilonsim{rm clip}({cal N}(0,widetilde sigma),-c,c)$
$minlimits_{i=1,2}Q_{theta_i^prime}(s^prime,widetilde a)$
Update-Kritiker $theta_ileftarrowargminlimits_{theta_i}N^{-1}Summe(y-Q_{theta_i}(s, a))^2$
$Wenn T % D$ ：
Aktualisierung über deterministischen Richtliniengradienten $ϕ$
$~~~~~~~~~~~~~~~~~nabla_phi J(phi)=N^{-1}sumnabla_aQ_{theta_1}(s, a)|_{a=pi_phi(s)}nabla_phipi_phi(s)$
Zielnetzwerk aktualisieren:
$~~~~~~~~~~~~~~~~~~theta_i^primeleftarrowtautheta_i+(1-tau)theta_i^prime~~~~~$ $τ$ : Zielaktualisierungsrate
$~~~~~~~~~~~~~~~~~phi^primeleftarrowtauphi+(1-tau)phi^prime$
$Ende Wenn$
$Ende für$

Soft Actor-Critic: SAC_Continuous/Discrete Action Space [Google Brain neueste Version 201906]

Fügen Sie hier eine Bildbeschreibung ein

Bildquelle

Maximieren Sie die Entropie der Richtlinie und machen Sie sie dadurch robuster.

deterministische Strategie Das bedeutet, dass bei gleichem Zustand immer die gleiche Aktion gewählt wird
Zufallsstrategie Das bedeutet, dass es in einem bestimmten Zustand viele mögliche Aktionen gibt, die ausgewählt werden können.

	deterministische Strategie	Zufallsstrategie
Definition	Gleicher Zustand, gleiche Aktion ausführen	gleicher Status,Kann verschiedene Aktionen ausführen
Vorteil	Stabil und wiederholbar	Vermeiden Sie es, in lokal optimale Lösungen zu verfallen, und verbessern Sie die globalen Suchfunktionen
Mangel	Mangelnde Erkundbarkeit und leichte Ergreifbarkeit durch Gegner	Dies kann dazu führen, dass die Strategie langsam konvergiert, was sich auf Effizienz und Leistung auswirkt.

In der tatsächlichen Anwendung werden wir dies tun, sofern die Bedingungen dies zulassenVersuchen zu benutzenZufallsstrategie, wie A2C, PPO usw., weil es flexibler, robuster und stabiler ist.

Das Lernen zur Verstärkung der maximalen Entropie geht davon aus, dass wir, obwohl wir derzeit über ausgereifte Zufälligkeitsstrategien verfügen, nämlich Algorithmen wie AC, immer noch keine optimale Zufälligkeit erreicht haben.Daher führt es einInformationsentropieKonzept, inMaximieren Sie die kumulative Belohnung und maximieren Sie gleichzeitig die Entropie der Richtlinie, wodurch die Strategie robuster wird und die optimale Zufallsstrategie erreicht wird.

——————————————————

—— OpenAI-Dokumentation_SAC

OpenAI Documentation_SAC-Schnittstellenlink

Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning mit einem stochastischen Akteur, Haarnoja et al, 201808 ICML 2018
Soft Actor-Critic Algorithmen und Anwendungen, Haarnoja et al, 201901
Laufen lernen durch Deep Reinforcement Learning, Haarnoja et al, 201906 RSS2019

Soft Actor Critic (SAC) optimiert zufällige Strategien außerhalb der Richtlinien.

DDPG + stochastische Strategieoptimierung

Kein direkter Nachfolger von TD3 (ungefähr zur gleichen Zeit veröffentlicht).

Es beinhaltet den abgeschnittenen Double-Q-Trick und profitiert aufgrund der inhärenten Zufälligkeit der SAC-Strategie letztendlich auch davonZielpolitische Glättung。

Ein Kernmerkmal von SAC ist Entropie-Regularisierung Entropie-Regularisierung。
Die Richtlinie ist darauf trainiert, den Kompromiss zwischen erwarteter Belohnung und Entropie zu maximieren.Entropie ist ein Maß für die Zufälligkeit einer Richtlinie。
Dies hängt eng mit dem Kompromiss zwischen Exploration und Ausbeutung zusammen: Eine Erhöhung der Entropie führt zuMehr zu entdecken,das ist in OrdnungBeschleunigen Sie anschließendes Lernen .Es ist in OrdnungVerhindern Sie, dass sich die Richtlinie vorzeitig einem schlechten lokalen Optimum annähert。

Es kann sowohl im kontinuierlichen Aktionsraum als auch im diskreten Aktionsraum verwendet werden.

existieren Entropiereguliertes Verstärkungslernen, erhält der Agent undDie Entropie der Richtlinie zu diesem ZeitpunktProportionale Belohnungen.
Derzeit wird das RL-Problem wie folgt beschrieben:

$pi^*=argmaxlimits_pi underset{tausimpi}{rm E}Big[sumlimits_{t=0}^inftygamma^tBig(R(s_t,a_t,s_{t+1})textcolor{blue}{+alpha H(pi(·|s_t))}Big)Big]$

In $α > 0$ ist der Kompromisskoeffizient.
Zustandswertfunktion einschließlich Entropiebelohnung bei jedem Zeitschritt $V^pi$ für:

$V^pi(s)=underset{tausimpi}{rm E}Big[sumlimits_{t=0}^inftygamma^tBig(R(s_t,a_t,s_{t+1})+alpha H(pi(·|s_t))Big)Big|s_0=sBig]$

Eine Aktionswertfunktion, die die Entropiebelohnung für jeden Zeitschritt außer dem ersten enthält $Q^pi$ :

$Q^pi(s,a)=underset{tausimpi}{rm E}Big[sumlimits_{t=0}^inftygamma^tBig(R(s_t,a_t,s_{t+1})+alpha sumlimits_{t=1}^infty H(pi(·|s_t))Big)Big|s_0=s,a_0=aBig]$

einige Papiere $Q^pi$ Enthält die Entropiebelohnung für den ersten Zeitschritt

$V^pi$ Und $Q^pi$ Die Beziehung zwischen ist:

$V^pi(s)=underset{asimpi}{rm E}[Q^pi(s, a)]+alpha H(pi(·|s))$

um $Q^pi$ Die Bellman-Formel lautet:

$begin{aligned}Q^pi(s, a)&=underset{s^prime sim P atop a^primesim pi}{rm E}[R(s,a,s^prime)+gammabig(Q^pi(s^prime,a^prime)+alpha H(pi(·|s^prime))big)]\ &=underset{s^prime sim P}{rm E}[R(s,a,s^prime)+gamma V^pi(s^prime)]end{aligned}$

SAC lernt gleichzeitig eine Richtlinie $π_theta$ und zwei $Q$ Funktion $Q_{phi_1}, Q_{phi_2}$ 。
Derzeit gibt es zwei Varianten des Standard-SAC: Die eine nutzt einen festenEntropie-Regularisierungskoeffizient $α$ , ein weiterer durch Wechsel während des Trainings $α$ um Entropiebeschränkungen durchzusetzen.
In der Dokumentation von OpenAI wird eine Version mit einem festen Entropie-Regularisierungskoeffizienten verwendet, in der Praxis wird diese jedoch häufig bevorzugtEntropiebeschränkungVariante.

Wie unten gezeigt, in $α$ In der festen Version haben die anderen, mit Ausnahme des letzten Bildes, das offensichtliche Vorteile hat, nur geringfügige Vorteile, im Grunde die gleichen wie $α$ Die Lernversion bleibt dieselbe; $α$ Deutlicher sind die beiden mittleren Bilder, bei denen die Lernversion Vorteile hat.

Fügen Sie hier eine Bildbeschreibung ein
Bildquelle

SAC VSTD3:

Gleicher Punkt:
1. Beide Q-Funktionen werden durch Minimierung des MSBE (Mean Squared Bellman Error) durch Regression auf ein einziges gemeinsames Ziel erlernt.
2. Verwenden Sie das Ziel-Q-Netzwerk, um das gemeinsame Ziel zu berechnen, und führen Sie während des Trainingsprozesses eine Polyak-Mittelung der Q-Netzwerk-Parameter durch, um das Ziel-Q-Netzwerk zu erhalten.
3. Das gemeinsame Ziel verwendet die Technik des abgeschnittenen Doppel-Q.

Unterschied:
1. SAC enthält einen Entropie-Regularisierungsterm
2. Die nächste staatliche Aktion, die im SAC-Ziel verwendet wird, stammt vonAktuelle Strategie, und nicht die Zielstrategie.
3. Es gibt keine klare Zielstrategie für die Glättung. TD3 trainiert eine deterministische Richtlinie, indem es zum nächsten Zustand übergehtFügen Sie zufälliges Rauschen hinzu Glätte zu erreichen. SAC trainiert eine Zufallsrichtlinie, und das durch den Zufall verursachte Rauschen reicht aus, um ähnliche Effekte zu erzielen.

Pseudocode des SAC-Algorithmus

Fügen Sie hier eine Bildbeschreibung ein

Algorithmus: Soft Actor-Critic SAC
eingeben: $theta_1,theta_2,phi~~~~~$ Initialisierungsparameter
Parameterinitialisierung:
Zielnetzwerkgewichte initialisieren: $theta_1leftarrowtheta_1, Balken theta_2leftarrowtheta_2$
Der Wiedergabepool wird als leer initialisiert: $D \leftarrow \emptyset$
$für$ jede Iteration $Tun$ ：
$für$ Jeder Umgebungsschritt $Tun$ ：
Beispielaktionen aus einer Richtlinie: $a_tsimpi_phi(a_t|s_t)~~~~~$ ▢Hier $pi_phi(a_t|s_t)$ Wie definieren?
Beispielübergänge aus der Umgebung: $s_{t+1}sim p(s_{t+1}|s_t,a_t)$
Speichern Sie den Übergang in den Wiedergabepool: $D}~cup~{(s_t,a_t,r(s_t,a_t),s_{t+1})}$
$Ende für$
$für$ Jeder Farbverlaufsschritt $Tun$ ：
erneuern $Q$ Funktionsparameter: für $ichchchchchchchchchchchchchchchchchchchchchch \in {1, 2}$ ， $theta_ileftarrowtheta_i-lambda_Qhat nabla_{theta_i}J_Q(theta_i)~~~~~$ ▢Hier $J_Q(theta_i)$ Wie definieren?
Strategiegewichte aktualisieren: $phileftarrowphi-lambda_pihat nabla_phi J_pi (phi)~~~~~$ ▢Hier $J_pi (phi)$ Wie definieren?
Temperatur anpassen: $alphaleftarrowalpha-lambdahatnabla_alpha J(alpha)~~~~~$ ▢Hier $J (α)$ Wie definieren?Wie ist hier die Temperatur zu verstehen?
Zielnetzwerkgewichte aktualisieren: für $ichchchchchchchchchchchchchchchchchchchchchch \in {1, 2}$ ， $theta_ileftarrow tau theta_i-(1-tau)bar theta_i~~~~~$ ▢ Wie man das versteht $τ$ ? ——>Zielglättungskoeffizient
$Ende für$
$Ende für$
Ausgabe: $theta_1,theta_1,phi~~~~~$ Optimierte Parameter

$\hat{\nabla}$ : stochastischer Gradient

$emptyset$ $\emptyset$

Fügen Sie hier eine Bildbeschreibung ein

Laufen lernen durch Deep Reinforcement Learning Version in:

$α$ ist der Temperaturparameter, der die relative Bedeutung des Entropieterms und der Belohnung bestimmt und so die Zufälligkeit der optimalen Strategie steuert.
$α$ Groß: Entdecken
$α$ Klein: ausnutzen

$J(alpha)=underset{a_tsimpi_t}{mathbb E}[-alphalog pi_t(a_t|s_t)-alphabar{cal H}]$

Technologieaustausch