τα στοιχεία επικοινωνίας μου
Ταχυδρομείο[email protected]
2024-07-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
- οργάνωση σημείωσης έκδοσης PDF easy-rl P5, P10 - P12
- joyrl σύγκριση συμπλήρωμα P11-P13
- Οργάνωση εγγράφων OpenAI ⭐ https://spinningup.openai.com/en/latest/index.html
Λήψη pdf τελευταίας έκδοσης
Διεύθυνση: https://github.com/datawhalechina/easy-rl/releases
Εγχώρια διεύθυνση (συνιστάται για εγχώριους αναγνώστες):
Σύνδεσμος: https://pan.baidu.com/s/1isqQnpVRWbb3yh83Vs0kbw Κωδικός εξαγωγής: us6a
Σύνδεσμος ηλεκτρονικής έκδοσης easy-rl (για κωδικό αντιγραφής)
Σύνδεσμος αναφοράς 2: https://datawhalechina.github.io/joyrl-book/
άλλα:
[Εσφαλμένος σύνδεσμος εγγραφής]
——————
5. Βασικά στοιχεία της βαθιάς ενισχυτικής μάθησης ⭐️
Περιεχόμενο ανοιχτού κώδικα: https://linklearner.com/learn/summary/11
——————————
Πανομοιότυπη στρατηγική: Ο πράκτορας που πρέπει να μάθει και ο πράκτορας που αλληλεπιδρά με το περιβάλλον είναι ο ίδιος.
Ετερογενείς στρατηγικές: ο παράγοντας που μαθαίνει και ο πράκτορας που αλληλεπιδρά με το περιβάλλον είναι διαφορετικοί
Διαβάθμιση πολιτικής: Απαιτεί πολύ χρόνο για τη δειγματοληψία δεδομένων
ίδια στρατηγική ⟹ Δειγματοληψία σημασίας ~~~overset{Importance sampling}{Longrightarrow}~~~ ⟹δειγματοληψία σπουδαιότητας διαφορετικές στρατηγικές
PPO: Αποφύγετε δύο διανομές που διαφέρουν πολύ. τον ίδιο αλγόριθμο στρατηγικής
1. Αρχικά στοιχεία βελτιστοποίησης J ( θ , θ ′ ) J(θήτα,θήτα^πρωταρχικός)J(θ,θ′)
2. Στοιχεία περιορισμού: θ θήταθ και θ ′ theta^primeθ′ Η απόκλιση KL της ενέργειας εξόδου ( θ θήταθ και θ ′ theta^primeθ′ Όσο πιο παρόμοια τόσο το καλύτερο)
Το PPO έχει έναν προκάτοχο: βελτιστοποίηση πολιτικής περιοχής εμπιστοσύνης (TRPO)
Το TRPO είναι δύσκολο να χειριστεί γιατί αντιμετωπίζει τον περιορισμό απόκλισης KL ως πρόσθετο περιορισμό και δεν τοποθετείται στην αντικειμενική συνάρτηση, επομένως είναι δύσκολο να υπολογιστεί. Επομένως, γενικά χρησιμοποιούμε PPO αντί για TRPO. Οι επιδόσεις του PPO και του TRPO είναι παρόμοιες, αλλά το PPO είναι πολύ πιο εύκολο να εφαρμοστεί από το TRPO.
KL divergence: απόσταση δράσης.Κατανομή πιθανότητας εκτέλεσης μιας ενέργειας απόσταση.
Υπάρχουν δύο κύριες παραλλαγές του αλγορίθμου PPO: εγγύς ποινή βελτιστοποίησης πολιτικής (PPO-penalty) και εγγύς αποκοπή βελτιστοποίησης πολιτικής (PPO-clip).
——————————
P10 Πρόβλημα αραιής ανταμοιβής
1. Επιβραβεύσεις σχεδίασης. Απαιτεί γνώση τομέα
Τι θα λέγατε για την ανάθεση της τελικής ανταμοιβής σε κάθε σχετική ενέργεια;
2. Περιέργεια
Ενότητα εσωτερικής περιέργειας (ICM)
εισαγω: στο , st a_t,s_tέναt,μικρόt
Παραγωγή: s ^ t + 1 καπέλο s_{t+1}μικρό^t+1
Η προβλεπόμενη αξία του δικτύου s ^ t + 1 καπέλο s_{t+1}μικρό^t+1 με αληθινή αξία st + 1 s_{t+1}μικρόt+1 Όσο πιο ανόμοια είναι, τόσο rti r_t^irtΕγώ Το μεγαλύτερο
rti r_t^irtΕγώ : Όσο πιο δύσκολη είναι η πρόβλεψη της μελλοντικής κατάστασης, τόσο μεγαλύτερη είναι η ανταμοιβή για τη δράση. Ενθαρρύνετε την περιπέτεια και την εξερεύνηση.
εξαγωγέας χαρακτηριστικών
Δίκτυο 2:
Είσοδος: διάνυσμα ϕ ( st ) {bm phi}(s_{t})ϕ(μικρόt) και ϕ ( st + 1 ) {bm phi}(s_{t+1})ϕ(μικρόt+1)
Πρόβλεψη δράσης ένα ^ καπέλο αένα^ Όσο πιο κοντά στην πραγματική δράση τόσο το καλύτερο.
3. Μελέτη μαθήματος
Εύκολο -> Δύσκολο
Αντίστροφη μάθηση προγράμματος σπουδών:
Ξεκινώντας από την τελική πιο ιδανική κατάσταση [την ονομάζουμε χρυσή κατάσταση], πηγαίνετε στοΒρείτε την πολιτεία που βρίσκεται πιο κοντά στη χρυσή πολιτεία Ως σκηνοθετημένη «ιδανική» κατάσταση που θέλετε να φτάσει ο πράκτορας. Φυσικά, σκόπιμα θα αφαιρέσουμε κάποιες ακραίες καταστάσεις σε αυτή τη διαδικασία, δηλαδή καταστάσεις που είναι πολύ εύκολες ή πολύ δύσκολες.
4. Ιεραρχική ενισχυτική μάθηση (HRL)
Η στρατηγική του πράκτορα χωρίζεται σε στρατηγικές υψηλού επιπέδου και στρατηγικές χαμηλού επιπέδου Η στρατηγική υψηλού επιπέδου καθορίζει τον τρόπο εκτέλεσης της στρατηγικής χαμηλού επιπέδου με βάση την τρέχουσα κατάσταση.
————————
P11 Εκμάθηση μίμησης
Δεν είμαι σίγουρος για τη σκηνή ανταμοιβής
Εκμάθηση μίμησης (IL)
μαθαίνοντας από την επίδειξη
Εκμάθηση μαθητείας
μαθαίνοντας παρακολουθώντας
Υπάρχουν σαφείς ανταμοιβές: επιτραπέζια παιχνίδια, βιντεοπαιχνίδια
Δεν είναι δυνατή η παροχή σαφών ανταμοιβών: chatbot
Συλλέξτε επιδείξεις εμπειρογνωμόνων: αρχεία ανθρώπινης οδήγησης, ανθρώπινες συνομιλίες
Αντίστροφα, τι είδους λειτουργία ανταμοιβής κάνει ο ειδικός σε αυτές τις ενέργειες;
Η αντίστροφη ενισχυτική μάθηση είναιΒρείτε πρώτα τη συνάρτηση ανταμοιβής, αφού βρείτε τη συνάρτηση ανταμοιβής, χρησιμοποιήστε την ενισχυτική μάθηση για να βρείτε τον βέλτιστο παράγοντα.
Τεχνολογία εκμάθησης μίμησης τρίτου προσώπου
————————
P12 Βαθιά ντετερμινιστική κλίση πολιτικής (DDPG)
Χρησιμοποιήστε στρατηγική επανάληψης εμπειρίας
Ανάλυση πειράματος κατάλυσης [Μέθοδος ελεγχόμενης μεταβλητής]κάθε περιορισμόαντίκτυπο στην έκβαση της μάχης.
joyrl:
σε ανάγκηβεβαιότηταστρατηγική καισυνεχής δράσηΥπό την προϋπόθεση του χώρου, αυτός ο τύπος αλγορίθμου θα είναι ένας σχετικά σταθερός αλγόριθμος βασικής γραμμής.
DQN για χώρους συνεχούς δράσης
Βαθιά ντετερμινιστικός αλγόριθμος διαβάθμισης πολιτικής (DDPG)
Ο μηχανισμός επανάληψης εμπειρίας μπορεί να μειώσει τη συσχέτιση μεταξύ των δειγμάτων, να βελτιώσει την αποτελεσματική χρήση των δειγμάτων και να αυξήσει τη σταθερότητα της εκπαίδευσης.
έλλειψη:
1. Δεν μπορεί να χρησιμοποιηθεί σε διακριτό χώρο δράσης
2、Εξαρτάται σε μεγάλο βαθμό από υπερπαραμέτρους
3. Ιδιαίτερα ευαίσθητες αρχικές συνθήκες. Επηρεάζει τη σύγκλιση και την απόδοση του αλγορίθμου
4. Είναι εύκολο να πέσεις στο τοπικό βέλτιστο.
Το πλεονέκτημα της μαλακής ενημέρωσης είναι ότι είναι πιο ομαλή και πιο αργή, γεγονός που μπορεί να αποφύγει τους κραδασμούς που προκαλούνται από πολύ γρήγορες ενημερώσεις βάρους και να μειώσει τον κίνδυνο απόκλισης στην προπόνηση.
Αλγόριθμος ντετερμινιστικής κλίσης πολιτικής διπλής καθυστέρησης
Τρεις βελτιώσεις: Διπλό δίκτυο Q, καθυστερημένη ενημέρωση, τακτοποίηση θορύβου
Διπλό Δίκτυο Q : Δύο δίκτυα Q, επιλέξτε αυτό με μικρότερη τιμή Q. Να αντιμετωπίσει το πρόβλημα υπερεκτίμησης της τιμής Q και να βελτιώσει τη σταθερότητα και τη σύγκλιση του αλγορίθμου.
Καθυστερημένη ενημέρωση: Αφήστε τη συχνότητα ενημέρωσης του ηθοποιού να είναι χαμηλότερη από τη συχνότητα κρίσιμης ενημέρωσης
Ο θόρυβος μοιάζει περισσότερο με αΤακτοποίησημε τέτοιο τρόπο πουενημέρωση συνάρτησης τιμήςπερισσότερολείος
OpenAI Gym Library_Pendulum_TD3
Σύνδεσμος διεπαφής εγγράφου OpenAI σχετικά με το TD3
Ο πιο συχνά χρησιμοποιούμενος αλγόριθμος PPO στην ενισχυτική μάθηση
Διακριτή + συνεχής
Γρήγορο και σταθερό, εύκολο στην προσαρμογή των παραμέτρων
αλγόριθμος βάσης
Αναποφάσιστο ΔΤΦ
Στην πράξη, οι περιορισμοί κλιπ χρησιμοποιούνται γενικά επειδή είναι απλούστεροι, έχουν χαμηλότερο υπολογιστικό κόστος και έχουν καλύτερα αποτελέσματα.
Ο αλγόριθμος εκτός πολιτικής μπορείνα επωφεληθούν από την ιστορική εμπειρία, γενικά χρησιμοποιήστε την επανάληψη της εμπειρίας για αποθήκευση και επαναχρησιμοποίηση προηγούμενης εμπειρίας,Η αποτελεσματικότητα χρήσης δεδομένων είναι υψηλή。
Το PPO είναι ένας αλγόριθμος εντός πολιτικής
——————————————————
Τεκμηρίωση OpenAI
Έντυπος σύνδεσμος διασύνδεσης arXiv: Αλγόριθμοι βελτιστοποίησης εγγύς πολιτικής
PPO: αλγόριθμος on-policy, κατάλληλος για διακριτούς ή συνεχείς χώρους δράσης.Πιθανό τοπικό βέλτιστο
Το κίνητρο για το PPO είναι το ίδιο με το TRPO: πώς να αξιοποιήσετε τα υπάρχοντα δεδομέναΚάντε το μεγαλύτερο δυνατό βήμα βελτίωσης στη στρατηγική σας, χωρίς να το αλλάξετε πολύ και να προκαλέσετε κατά λάθος συντριβή απόδοσης;
Το TRPO επιχειρεί να λύσει αυτό το πρόβλημα με μια εξελιγμένη προσέγγιση δεύτερης τάξης, ενώ το PPO είναι μια προσέγγιση πρώτης τάξης που χρησιμοποιεί κάποια άλλα κόλπα για να διατηρήσει τη νέα στρατηγική κοντά στην παλιά.
Η μέθοδος PPO είναι πολύ πιο απλή στην εφαρμογή και, εμπειρικά, αποδίδει τουλάχιστον το ίδιο καλά με το TRPO.
Υπάρχουν δύο κύριες παραλλαγές του PPO: PPO-Penalty και PPO-Clip.
Αλγόριθμος: PPO-Clip
1: Εισαγωγή: παράμετροι αρχικής στρατηγικής θ 0 θήτα_0θ0, παράμετροι συνάρτησης αρχικής τιμής ϕ 0 phi_0ϕ0
2: για k = 0 , 1 , 2 , … do {bf for} ~ k=0,1,2,dots~ {bf do}Για κ=0,1,2,… κάνω:
3: ~~~~~~ Τρέχοντας την πολιτική στο περιβάλλον π k = π ( θ k ) pi_k=pi(theta_k)πκ=π(θκ) Συλλέξτε σετ τροχιών D k = { τ i } {cal D}_k={tau_i}ρεκ={τΕγώ}
4: ~~~~~~ Υπολογισμός ανταμοιβών (ανταμοιβές σε εξέλιξη) R ^ t καπέλο R_t~~~~~R^t ▢ R ^ t καπέλο R_tR^t κανόνες υπολογισμού
5: ~~~~~~ Υπολογίστε την εκτίμηση του πλεονεκτήματος, με βάση τη συνάρτηση τρέχουσας τιμής V ϕ k V_{phi_k}Vϕκ του A ^ t καπέλο A_tΕΝΑ^t (Χρησιμοποιήστε οποιαδήποτε μέθοδο εκτίμησης κυριαρχίας) ~~~~~ ▢ Ποιες είναι οι τρέχουσες μέθοδοι εκτίμησης πλεονεκτημάτων;
6: ~~~~~~ Ενημερώστε την πολιτική μεγιστοποιώντας τη συνάρτηση στόχου PPO-Clip:
~~~~~~~~~~~
θ k + 1 = arg max θ 1 ∣ D k ∣ T ∑ τ ∈ D k ∑ t = 0 T min ( π θ ( στο ∣ st ) π θ k ( στο ∣ st ) A π θ k ( st , at ) , g ( ϵ , A π θ k ( st , at ) ) ~~~~~~~~~~~theta_{k+1}=argmaxlimits_thetafrac{1}{|{cal D}_k|T }sumlimits_{tauin{cal D}_k}sumlimits_{t=0}^TminBig(frac{pi_{theta} (a_t|s_t)}{pi_{theta_k}(a_t|s_t)}A^{pi_{theta_k}} (s_t,a_t),g(epsilon,A^{pi_{theta_k}}(s_t,a_t))Big) θκ+1=αρσολθΜέγιστη∣ρεκ∣Τ1τ∈ρεκ∑t=0∑Τελάχ(πθκ(έναt∣μικρόt)πθ(έναt∣μικρόt)ΕΝΑπθκ(μικρόt,έναt),σολ(ϵ,ΕΝΑπθκ(μικρόt,έναt))) ~~~~~ ▢ Πώς να προσδιορίσετε τον τύπο ενημέρωσης στρατηγικής;
~~~~~~~~~~~
~~~~~~~~~~~ π θ k pi_{theta_k}πθκ : Διάνυσμα παραμέτρων στρατηγικής πριν από την ενημέρωση. Σημαντική δειγματοληψία. Δειγματοληψία από παλιές στρατηγικές.
~~~~~~~~~~~
~~~~~~~~~~~ Γενική Στοχαστική Κλίση Ανάβαση + Αδάμ
7: ~~~~~~ μέσο τετραγωνικό σφάλμασυνάρτηση προσαρμοσμένης τιμής παλινδρόμησης:
~~~~~~~~~~~
ϕ k + 1 = arg min ϕ 1 ∣ D k ∣ T ∑ τ ∈ D k ∑ t = 0 T ( V ϕ ( st ) − R ^ t ) 2 ~~~~~~~~~~~phi_ {k+1}=arg minlimits_phifrac{1}{|{cal D}_k|T}sumlimits_{tauin{cal D}_k}sumlimits_{t=0}^TBig(V_phi(s_t)-hat R_tBig)^2 ϕκ+1=αρσολϕελάχ∣ρεκ∣Τ1τ∈ρεκ∑t=0∑Τ(Vϕ(μικρόt)−R^t)2
~~~~~~~~~~~
~~~~~~~~~~~ Γενική κλίση κατάβασης
8: τέλος για bf τέλος ~ γιατέλος Για
~~~~~~~~~~~~
$dots$
… ~~~ τελείες …
g ( ϵ , A ) = { ( 1 + ϵ ) A A ≥ 0 ( 1 − ϵ ) AA < 0 g(epsilon,A)=αριστερά{(1+ϵ)ΕΝΑ ΕΝΑ≥0(1−ϵ)ΕΝΑΕΝΑ<0σωστά. σολ(ϵ,ΕΝΑ)={(1+ϵ)ΕΝΑ (1−ϵ)ΕΝΑΕΝΑ≥0ΕΝΑ<0
στο χαρτίΕκτίμηση πλεονεκτήματος:
A ^ t = − V ( st ) + rt + γ rt + 1 + ⋯ + γ T − t + 1 r T − 1 + γ T − t V ( s T ) ⏟ R ^ t ? ? ? καπέλο A_t=-V(s_t)+υποδοχή{r_t+γάμα r_{t+1}+cdots+γάμα^{T-t+1}r_{T-1}+γάμα^{Tt}V(s_T)}_ {textcolor{blue}{hat R_t???}}ΕΝΑ^t=−V(μικρόt)+R^t??? rt+γrt+1+⋯+γΤ−t+1rΤ−1+γΤ−tV(μικρόΤ)
φτιαχνω, κανω Δ t = rt + γ V ( st + 1 ) − V ( st ) Δέλτα_t =r_t+γάμα V(s_{t+1})-V(s_t)Δt=rt+γV(μικρόt+1)−V(μικρόt)
αλλά rt = Δ t − γ V ( st + 1 ) + V ( st ) r_t=Delta_t - γάμμα V(s_{t+1})+V(s_t)rt=Δt−γV(μικρόt+1)+V(μικρόt)
Υποκατάστατο A ^ t καπέλο A_tΕΝΑ^t έκφραση
A ^ t = − V ( st ) + rt + γ rt + 1 + γ 2 rt + 2 + ⋯ + γ T − tr T − 2 + γ T − t + 1 r T − 1 + γ T − t V ( s T ) = − V ( st ) + rt + γ rt + 1 + ⋯ + γ T − t + 1 r T − 1 + γ T − t V ( s T ) = − V ( st ) + Δ t − γ V ( st + 1 ) + V ( st ) + γ ( Δ t + 1 − γ V ( st + 2 ) + V ( st + 1 ) ) + γ 2 ( Δ t + 2 − γ V ( st + 3 ) + V ( st + 1 ) ) + ⋯ + γ T − t ( Δ T − t − γ V ( s T − t + 1 ) + V ( s T − t ) ) + γ T − t + 1 ( Δ T − 1 − γ V ( s T ) + V ( s T − 1 ) ) + γ T − t V ( s T ) = Δ t + γ Δ t + 1 + γ 2 Δ t + 2 + ⋯ + γ T − t Δ T − t + γ T − t + 1 Δ T − 1ˆΕΝΑt=−V(μικρόt)+rt+γrt+1+γ2rt+2+⋯+γΤ−trΤ−2+γΤ−t+1rΤ−1+γΤ−tV(μικρόΤ)=−V(μικρόt)+rt+γrt+1+⋯+γΤ−t+1rΤ−1+γΤ−tV(μικρόΤ)=−V(μικρόt)+ Δt−γV(μικρόt+1)+V(μικρόt)+ γ(Δt+1−γV(μικρόt+2)+V(μικρόt+1))+ γ2(Δt+2−γV(μικρόt+3)+V(μικρόt+1))+ ⋯+ γΤ−t(ΔΤ−t−γV(μικρόΤ−t+1)+V(μικρόΤ−t))+ γΤ−t+1(ΔΤ−1−γV(μικρόΤ)+V(μικρόΤ−1))+ γΤ−tV(μικρόΤ)=Δt+γΔt+1+γ2Δt+2+⋯+γΤ−tΔΤ−t+γΤ−t+1ΔΤ−1 ΕΝΑ^t=−V(μικρόt)+rt+γrt+1+γ2rt+2+⋯+γΤ−trΤ−2+γΤ−t+1rΤ−1+γΤ−tV(μικρόΤ)=−V(μικρόt)+rt+γrt+1+⋯+γΤ−t+1rΤ−1+γΤ−tV(μικρόΤ)=−V(μικρόt)+ Δt−γV(μικρόt+1)+V(μικρόt)+ γ(Δt+1−γV(μικρόt+2)+V(μικρόt+1))+ γ2(Δt+2−γV(μικρόt+3)+V(μικρόt+1))+ ⋯+ γΤ−t(ΔΤ−t−γV(μικρόΤ−t+1)+V(μικρόΤ−t))+ γΤ−t+1(ΔΤ−1−γV(μικρόΤ)+V(μικρόΤ−1))+ γΤ−tV(μικρόΤ)=Δt+γΔt+1+γ2Δt+2+⋯+γΤ−tΔΤ−t+γΤ−t+1ΔΤ−1
Το Clipping λειτουργεί ως ρυθμιστικός παράγοντας αφαιρώντας το κίνητρο για δραστικές αλλαγές στην πολιτική.υπερπαράμετροι ϵ έψιλονϵ Αντιστοιχεί στην απόσταση μεταξύ της νέας στρατηγικής και της παλιάς στρατηγικής。
Είναι ακόμα πιθανό ότι αυτό το είδος αποκοπής θα οδηγήσει τελικά σε μια νέα στρατηγική που απέχει πολύ από την παλιά στρατηγική Κατά την εφαρμογή εδώ, χρησιμοποιούμε μια ιδιαίτερα απλή μέθοδο:Σταματήστε νωρίς . Εάν η μέση απόκλιση KL της νέας πολιτικής από την παλιά πολιτική υπερβαίνει ένα όριο, σταματάμε την εκτέλεση του βήματος διαβάθμισης.
Συνάρτηση αντικειμενικού PPO απλή σύνδεση παραγωγής
Η αντικειμενική λειτουργία του PPO-Clip είναι:
~
L θ k CLIP ( θ ) = E s , a ∼ θ k [ min ( π θ ( a ∣ s ) π θ k ( a ∣ s ) A θ k ( s , a ) , clip ( π θ ( a ∣ s ) π θ k ( a ∣ s ) , 1 − ϵ , 1 + ϵ ) A θ k ( s , a ) ) ] L^{rm CLIP}_{theta_k}(theta)= underset{s, asimtheta_k}{ rm E}Bigg[minBigg(frac{pi_theta(a|s)}{pi_{theta_k}(a|s)}A^{theta_k}(s, a), {rm clip}Big(frac{pi_theta(a| s)}{pi_{theta_k}(a|s)},1-epsilon, 1+epsilonBig)A^{theta_k}(s, a)Bigg)Bigg]μεγάλοθκΣΥΝΔΕΤΗΡΑΣ(θ)=μικρό,ένα∼θκμι[ελάχ(πθκ(ένα∣μικρό)πθ(ένα∣μικρό)ΕΝΑθκ(μικρό,ένα),συνδετήρας(πθκ(ένα∣μικρό)πθ(ένα∣μικρό),1−ϵ,1+ϵ)ΕΝΑθκ(μικρό,ένα))]
~
$underset{s, asimtheta_k}{rm E}$
E s , a ∼ θ k ~~~ underset{s, asimtheta_k}{rm E} μικρό,ένα∼θκμι
~
Οχι. κκκ Παράμετροι στρατηγικής για επαναλήψεις θ k theta_kθκ, ϵ έψιλονϵ είναι μια μικρή υπερπαράμετρος.
στήνω ϵ ∈ ( 0 , 1 ) εψιλονίνη (0,1)ϵ∈(0,1), ορισμός
F ( r , A , ϵ ) ≐ min ( r A , clip ( r , 1 − ϵ , 1 + ϵ ) A ) F(r,A,epsilon)doteqminBigg(rA,{rm clip}(r,1- epsilon,1+epsilon)ABigg)φά(r,ΕΝΑ,ϵ)≐ελάχ(rΕΝΑ,συνδετήρας(r,1−ϵ,1+ϵ)ΕΝΑ)
πότε A ≥ 0 Ageq0ΕΝΑ≥0
F ( r , A , ϵ ) = min ( r A , clip ( r , 1 − ϵ , 1 + ϵ ) A ) = A min ( r , clip ( r , 1 − ϵ , 1 + ϵ ) ) = A min ( r , { 1 + ϵ r ≥ 1 + ϵ rr ∈ ( 1 − ϵ , 1 + ϵ ) 1 − ϵ r ≤ 1 − ϵ } ) = A { min ( r , 1 + ≥ r ) 1 + ϵ min ( r , r ) r ∈ ( 1 − ϵ , 1 + ϵ ) min ( r , 1 − ϵ ) r ≤ 1 − ϵ } = A { 1 + ϵ r ≥ 1 + ϵ ( rr≥ 1 − ϵ , 1 + ϵ ) rr ≤ 1 − ϵ } Σύμφωνα με το εύρος στη δεξιά πλευρά = A min ( r , 1 + ϵ ) = min ( r A , ( 1 + ϵ ) A )start{aligned}F(r,A,epsilon)&=minBigg(rA,{rm clip}(r,1-epsilon,1+epsilon)ABigg)\ &=AminBigg(r,{rm clip}(r,1 -epsilon,1+epsilon)Bigg)\ &=AminBigg(r,αριστερά{αρχή{στοίχιση}&1+epsilon~~&rgeq1+epsilon\ &r &rin(1-epsilon,1+epsilon)\ &1-epsilon &rleq1-epsilon\ end{ευθυγραμμισμένο}δεξιά}Μεγάλο)\ &=Αριστερά{ελάχδεξιά}\ &=Αριστερά{right}~~~~~textcolor{blue}{σύμφωνα με το εύρος στα δεξιά}\ &=Amin(r, 1+epsilon)\ &=minBigg(rA, (1+epsilon)ABigg) end{aligned} φά(r,ΕΝΑ,ϵ)=ελάχ(rΕΝΑ,συνδετήρας(r,1−ϵ,1+ϵ)ΕΝΑ)=ΕΝΑελάχ(r,συνδετήρας(r,1−ϵ,1+ϵ))=ΕΝΑελάχ(r,⎩ ⎨ ⎧1+ϵ r1−ϵr≥1+ϵr∈(1−ϵ,1+ϵ)r≤1−ϵ⎭ ⎬ ⎫)=ΕΝΑ⎩ ⎨ ⎧ελάχ(r,1+ϵ) ελάχ(r,r)ελάχ(r,1−ϵ)r≥1+ϵr∈(1−ϵ,1+ϵ)r≤1−ϵ⎭ ⎬ ⎫=ΕΝΑ⎩ ⎨ ⎧1+ϵ rrr≥1+ϵr∈(1−ϵ,1+ϵ)r≤1−ϵ⎭ ⎬ ⎫ Σύμφωνα με το εύρος στα δεξιά=ΕΝΑελάχ(r,1+ϵ)=ελάχ(rΕΝΑ,(1+ϵ)ΕΝΑ)
~
πότε A < 0 A<0ΕΝΑ<0
F ( r , A , ϵ ) = min ( r A , clip ( r , 1 − ϵ , 1 + ϵ ) A ) = A max ( r , clip ( r , 1 − ϵ , 1 + ϵ ) ) = A max ( r , { 1 + ϵ r ≥ 1 + ϵ rr ∈ ( 1 − ϵ , 1 + ϵ ) 1 − ϵ r ≤ 1 − ϵ } ) = A { max ( r , 1 + ≥) 1 + ϵ max ( r , r ) r ∈ ( 1 − ϵ , 1 + ϵ ) max ( r , 1 − ϵ ) r ≤ 1 − ϵ } = A { r ≥ 1 + ϵ rr − ∈ , 1 + ϵ ) 1 − ϵ r ≤ 1 − ϵ } Σύμφωνα με το εύρος στη δεξιά πλευρά = A max ( r , 1 − ϵ ) = min ( r A , ( 1 − ϵ ) A )δεξιά}Μεγάλο)\ &=Αριστερά{δεξιά}\ &=Αριστερά{right}~~~~~textcolor{blue}{σύμφωνα με το εύρος στα δεξιά}\ &=Amax(r, 1-epsilon)\ &=textcolor{blue}{min}Bigg(rA,(1-epsilon) ABigg) end{aligned} φά(r,ΕΝΑ,ϵ)=ελάχ(rΕΝΑ,συνδετήρας(r,1−ϵ,1+ϵ)ΕΝΑ)=ΕΝΑΜέναΧ(r,συνδετήρας(r,1−ϵ,1+ϵ))=ΕΝΑΜέγιστη(r,⎩ ⎨ ⎧1+ϵ r1−ϵr≥1+ϵr∈(1−ϵ,1+ϵ)r≤1−ϵ⎭ ⎬ ⎫)=ΕΝΑ⎩ ⎨ ⎧Μέγιστη(r,1+ϵ) Μέγιστη(r,r)Μέγιστη(r,1−ϵ)r≥1+ϵr∈(1−ϵ,1+ϵ)r≤1−ϵ⎭ ⎬ ⎫=ΕΝΑ⎩ ⎨ ⎧r r1−ϵr≥1+ϵr∈(1−ϵ,1+ϵ)r≤1−ϵ⎭ ⎬ ⎫ Σύμφωνα με το εύρος στα δεξιά=ΕΝΑΜέγιστη(r,1−ϵ)=ΜΕγώn(rΕΝΑ,(1−ϵ)ΕΝΑ)
~
Συνοψίζοντας: ορίζεται g ( ϵ , A ) g (έψιλον, Α)σολ(ϵ,ΕΝΑ)
g ( ϵ , A ) = { ( 1 + ϵ ) A A ≥ 0 ( 1 − ϵ ) AA < 0 g(epsilon,A)=αριστερά{σωστά. σολ(ϵ,ΕΝΑ)={(1+ϵ)ΕΝΑ (1−ϵ)ΕΝΑΕΝΑ≥0ΕΝΑ<0
Γιατί αυτός ο ορισμός εμποδίζει τη νέα στρατηγική να απομακρυνθεί πολύ από την παλιά στρατηγική;
Οι αποτελεσματικές μέθοδοι δειγματοληψίας απαιτούν νέες στρατηγικές π θ ( a ∣ s ) pi_theta(a|s)πθ(ένα∣μικρό) και παλιές στρατηγικές π θ k ( a ∣ s ) pi_{theta_k}(a|s)πθκ(ένα∣μικρό) Η διαφορά μεταξύ των δύο κατανομών δεν μπορεί να είναι πολύ μεγάλη
1. Όταν το πλεονέκτημα είναι θετικό
L ( s , a , θ k , θ ) = min ( π θ ( a ∣ s ) π θ k ( a ∣ s ) , 1 + ϵ ) A π θ k ( s , a ) L(s,a, theta_k, theta)=minBigg(frac{pi_theta(a|s)}{pi_{theta_k}(a|s)}, 1+epsilonBigg)A^{pi_{theta_k}}(s, a)μεγάλο(μικρό,ένα,θκ,θ)=ελάχ(πθκ(ένα∣μικρό)πθ(ένα∣μικρό),1+ϵ)ΕΝΑπθκ(μικρό,ένα)
Συνάρτηση πλεονεκτήματος: Βρείτε ένα συγκεκριμένο ζεύγος κατάστασης-δράσης με περισσότερες ανταμοιβές -> αυξήστε το βάρος του ζεύγους κατάστασης-δράσης.
Όταν ένα ζεύγος κατάστασης-δράσης ( s , a ) (s, a)(μικρό,ένα) είναι θετική, τότε εάν η ενέργεια ααένα είναι πιο πιθανό να εκτελεστεί, δηλ. αν π θ ( a ∣ s ) pi_theta(a|s)πθ(ένα∣μικρό) Αυξήστε και ο στόχος θα αυξηθεί.
Το min σε αυτό το στοιχείο περιορίζει την αντικειμενική συνάρτηση να αυξάνεται μόνο σε μια συγκεκριμένη τιμή
μια φορά π θ ( a ∣ s ) > ( 1 + ϵ ) π θ k ( a ∣ s ) pi_theta(a|s)>(1+epsilon)pi_{theta_k}(a|s)πθ(ένα∣μικρό)>(1+ϵ)πθκ(ένα∣μικρό), min trigers, περιορίζοντας την τιμή αυτού του στοιχείου σε ( 1 + ϵ ) π θ k ( a ∣ s ) (1+έψιλον)pi_{theta_k}(a|s)(1+ϵ)πθκ(ένα∣μικρό)。
η νέα πολιτική δεν ωφελείται όταν απομακρύνεται πολύ από την παλιά πολιτική.
Η νέα στρατηγική δεν θα ωφεληθεί από την απομάκρυνση από την παλιά στρατηγική.
2. Όταν το πλεονέκτημα είναι αρνητικό
L ( s , a , θ k , θ ) = max ( π θ ( a ∣ s ) π θ k ( a ∣ s ) , 1 − ϵ ) A π θ k ( s , a ) L(s,a, theta_k, theta)=maxBigg(frac{pi_theta(a|s)}{pi_{theta_k}(a|s)}, 1-epsilonBigg)A^{pi_{theta_k}}(s, a)μεγάλο(μικρό,ένα,θκ,θ)=Μέγιστη(πθκ(ένα∣μικρό)πθ(ένα∣μικρό),1−ϵ)ΕΝΑπθκ(μικρό,ένα)
Όταν ένα ζεύγος κατάστασης-δράσης ( s , a ) (s, a)(μικρό,ένα) Το πλεονέκτημα είναι αρνητικό, τότε αν η δράση ααένα είναι ακόμη λιγότερο πιθανό, δηλαδή αν π θ ( a ∣ s ) π_theta(a|s)πθ(ένα∣μικρό) μειωθεί, η αντικειμενική συνάρτηση θα αυξηθεί. Αλλά το μέγιστο σε αυτόν τον όρο περιορίζει πόσο μπορεί να αυξηθεί η αντικειμενική συνάρτηση.
μια φορά π θ ( a ∣ s ) < ( 1 − ϵ ) π θ k ( a ∣ s ) pi_theta(a|s)<(1-epsilon)pi_{theta_k}(a|s)πθ(ένα∣μικρό)<(1−ϵ)πθκ(ένα∣μικρό), μέγιστοι κανόνες ετικέτας, περιορίζοντας την τιμή αυτού του στοιχείου σε ( 1 − ϵ ) π θ k ( a ∣ s ) (1-έψιλον)pi_{theta_k}(a|s)(1−ϵ)πθκ(ένα∣μικρό)。
Και πάλι: η νέα πολιτική δεν ωφελείται όταν απομακρύνεται πολύ από την παλιά πολιτική.
Η νέα στρατηγική δεν θα ωφεληθεί από την απομάκρυνση από την παλιά στρατηγική.
Ενώ το DDPG μπορεί μερικές φορές να επιτύχει εξαιρετική απόδοση, είναι συχνά ασταθές όταν πρόκειται για υπερπαραμέτρους και άλλους τύπους συντονισμού.
Ένας συνηθισμένος τρόπος αποτυχίας DDPG είναι ότι η εκμάθηση συνάρτησης Q αρχίζει να υπερεκτιμά σημαντικά την τιμή Q, η οποία στη συνέχεια προκαλεί τη διακοπή της πολιτικής επειδή εκμεταλλεύεται το σφάλμα στη συνάρτηση Q.
Το Twin Delayed DDPG (TD3) είναι ένας αλγόριθμος που λύνει αυτό το πρόβλημα εισάγοντας τρεις βασικές τεχνικές:
1、Περικομμένη διπλή Q-Learning。
2、Καθυστέρηση ενημέρωσης πολιτικής。
3. Εξομάλυνση στρατηγικής στόχων.
Το TD3 είναι ένας αλγόριθμος εκτός πολιτικής με τον οποίο μπορεί να χρησιμοποιηθεί μόνοσυνεχήςΤο περιβάλλον του χώρου δράσης.
Αλγόριθμος: TD3
Χρησιμοποιήστε τυχαίες παραμέτρους θ 1 , θ 2 , ϕ θήτα_1, θήτα_2, φιθ1,θ2,ϕ Αρχικοποίηση δικτύου κριτικών Q θ 1 , Q θ 2 Q_{theta_1},Q_{theta_2}Qθ1,Qθ2, και το δίκτυο ηθοποιών π ϕ pi_phiπϕ
Αρχικοποίηση δικτύου προορισμού θ 1 ′ ← θ 1 , θ 2 ′ ← θ 2 , ϕ ′ ← ϕ theta_1^primeleftarrowtheta_1, theta_2^primeleftarrowtheta_2, phi^primeleftarrow phiθ1′←θ1,θ2′←θ2,ϕ′←ϕ
Εκκίνηση σετ buffer αναπαραγωγής B cal Bσι
για t = 1 έως T {bf για}~t=1 ~{bf έως} ~TΓια t=1 προς την Τ :
~~~~~~ Επιλέξτε δράση με θόρυβο εξερεύνησης a ∼ π ϕ ( s ) + ϵ , ϵ ∼ N ( 0 , σ ) asimpi_phi(s)+epsilon,~~epsilonsim {cal N}(0,sigma)ένα∼πϕ(μικρό)+ϵ, ϵ∼Ν(0,σ), ανταμοιβή παρατήρησης rrr και νέο καθεστώς s 's^primeμικρό′
~~~~~~ Η μεταβατική πλειάδα ( s , a , r , s ′ ) (s, a,r, s^prime)(μικρό,ένα,r,μικρό′) κατάθεση σε B cal Bσι Μέσης
~~~~~~ από B cal Bσι Δειγματοληψία μικρών παρτίδων NNΝ μεταβάσεις ( s , a , r , s ′ ) (s, a, r, s^prime)(μικρό,ένα,r,μικρό′)
a ~ ← π ϕ ′ ( s ′ ) + ϵ , ϵ ∼ κλιπ ( N ( 0 , σ ~ ) , − c , c ) ~~~~~~widetilde aleftarrow pi_{phi^prime}(s^prime)+ epsilon,~~epsilonsim{rm clip}({cal N}(0,widetilde sigma),-c,c) ένα ←πϕ′(μικρό′)+ϵ, ϵ∼συνδετήρας(Ν(0,σ ),−ντο,ντο)
y ← r + γ min i = 1 , 2 Q θ i ′ ( s ′ , a ~ ) ~~~~~~yleftarrow r+gamma minlimits_{i=1,2}Q_{theta_i^prime}(s^ prime,widetilde α) y←r+γΕγώ=1,2ελάχQθΕγώ′(μικρό′,ένα )
~~~~~~ Κριτικές ενημέρωσης θ i ← arg min θ i N − 1 ∑ ( y − Q θ i ( s , a ) ) 2 theta_ileftarrowargminims_{theta_i}N^{-1}sum(y-Q_{theta_i}(s, a) ^ 2θΕγώ←αρσολθΕγώελάχΝ−1∑(y−QθΕγώ(μικρό,ένα))2
~~~~~~ αν t % d {bf if}~t~ % ~dαν t % ρε:
~~~~~~~~~~~ Ενημέρωση μέσω ντετερμινιστικής κλίσης πολιτικής ϕ phiϕ
∇ ϕ J ( ϕ ) = N − 1 ∑ ∇ a Q θ 1 ( s , a ) ∣ a = π ϕ ( s ) ∇ ϕ π ϕ ( s ) ~~~~~~~~~~~~~~ ~~~nabla _phi J(phi)=N^{-1}sumnabla_aQ_{theta_1}(s, a)|_{a=pi_phi(s)}nabla_phipi_phi(s) ∇ϕJ(ϕ)=Ν−1∑∇έναQθ1(μικρό,ένα)∣ένα=πϕ(μικρό)∇ϕπϕ(μικρό)
~~~~~~~~~~~ Ενημέρωση δικτύου στόχου:
θ i ′ ← τ θ i + ( 1 − τ ) θ i ′ ~~~~~~~~~~~~~~~~~theta_i^primeleftarrowtautheta_i+(1-tau)theta_i^prime~~~~~~ θΕγώ′←τθΕγώ+(1−τ)θΕγώ′ τ tauτ: Στόχος ο ρυθμός ενημέρωσης
ϕ ′ ← τ ϕ + ( 1 − τ ) ϕ ′ ~~~~~~~~~~~~~~~~~phi^primeleftarrowtauphi+(1-tau)phi^prime ϕ′←τϕ+(1−τ)ϕ′
τέλος αν ~~~~~~{bf τέλος ~if} τέλος αν
τέλος για {bf τέλος ~για}τέλος Για
Μεγιστοποιήστε την εντροπία της πολιτικής, καθιστώντας έτσι την πολιτική πιο ισχυρή.
ντετερμινιστική στρατηγική Σημαίνει ότι με δεδομένη την ίδια κατάσταση, επιλέγετε πάντα την ίδια ενέργεια
στρατηγική τυχαίας Σημαίνει ότι υπάρχουν πολλές πιθανές ενέργειες που μπορούν να επιλεγούν σε μια δεδομένη κατάσταση.
ντετερμινιστική στρατηγική | στρατηγική τυχαίας | |
---|---|---|
ορισμός | Ίδια κατάσταση, εκτελέστε την ίδια ενέργεια | ίδια κατάσταση,Μπορεί να εκτελέσει διαφορετικές ενέργειες |
πλεονέκτημα | Σταθερό και επαναλαμβανόμενο | Αποφύγετε να πέσετε σε τοπικές βέλτιστες λύσεις και βελτιώστε τις δυνατότητες παγκόσμιας αναζήτησης |
έλλειψη | Έλλειψη εξερευνησιμότητας και εύκολο να πιαστούν από τους αντιπάλους | Αυτό μπορεί να προκαλέσει αργή σύγκλιση της στρατηγικής, επηρεάζοντας την αποδοτικότητα και την απόδοση. |
Στην πραγματική εφαρμογή, εάν το επιτρέπουν οι συνθήκες, θα το κάνουμεΠροσπαθήστε να χρησιμοποιήσετεστρατηγική τυχαίας, όπως A2C, PPO, κ.λπ., επειδή είναι πιο ευέλικτο, πιο στιβαρό και πιο σταθερό.
Η εκμάθηση ενίσχυσης της μέγιστης εντροπίας πιστεύει ότι, παρόλο που αυτή τη στιγμή έχουμε ώριμες στρατηγικές τυχαίας, δηλαδή αλγόριθμους όπως το AC, δεν έχουμε ακόμη επιτύχει τη βέλτιστη τυχαιότητα.Ως εκ τούτου, εισάγει αεντροπία πληροφοριώνέννοια, σεΜεγιστοποιήστε τη σωρευτική ανταμοιβή μεγιστοποιώντας ταυτόχρονα την εντροπία της πολιτικής, καθιστώντας τη στρατηγική πιο ισχυρή και επιτυγχάνοντας τη βέλτιστη στρατηγική τυχαιότητας.
——————————————————
Σύνδεσμος διεπαφής OpenAI Documentation_SAC
~
Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor, Haarnoja et al, 201808 ICML 2018
Αλγόριθμοι και εφαρμογές Soft Actor-Critic, Haarnoja et al, 201901
Μαθαίνοντας να περπατάτε μέσω της Εκμάθησης Βαθιάς Ενίσχυσης, Haarnoja et al, 201906 RSS2019
Το Soft Actor Critic (SAC) βελτιστοποιεί τις τυχαίες στρατηγικές με τρόπο εκτός πολιτικής.
DDPG + στοχαστική βελτιστοποίηση στρατηγικής
Δεν είναι άμεσος διάδοχος του TD3 (κυκλοφόρησε περίπου την ίδια εποχή).
Ενσωματώνει το κομμένο κόλπο double-Q και λόγω της εγγενούς τυχαιότητας της στρατηγικής της SAC, επωφελείται επίσης απόεξομάλυνση της πολιτικής στόχου。
Ένα βασικό χαρακτηριστικό του SAC είναι κανονικοποίηση εντροπίας κανονικοποίηση εντροπίας。
Η πολιτική έχει εκπαιδευτεί για να μεγιστοποιεί την αντιστάθμιση μεταξύ της αναμενόμενης ανταμοιβής και της εντροπίας,Η εντροπία είναι ένα μέτρο της τυχαιότητας μιας πολιτικής。
Αυτό συνδέεται στενά με την αντιστάθμιση μεταξύ εξερεύνησης και εκμετάλλευσης: η αύξηση της εντροπίας οδηγεί σεΠερισσότερα για εξερεύνηση,αυτό είναι εντάξειΕπιτάχυνση της μετέπειτα μάθησης .είναι εντάξειΑποτρέψτε την πρόωρη σύγκλιση της πολιτικής σε ένα κακό τοπικό βέλτιστο。
Μπορεί να χρησιμοποιηθεί τόσο σε χώρο συνεχούς δράσης όσο και σε διακριτό χώρο δράσης.
υπάρχει Εντροπία-Regularized Reinforcement Learning, ο πράκτορας αποκτά καιΗ εντροπία της πολιτικής σε αυτό το χρονικό βήμαΑνάλογες ανταμοιβές.
Αυτή τη στιγμή το πρόβλημα RL περιγράφεται ως:
π ∗ = arg max π E τ ∼ π [ ∑ t = 0 ∞ γ t ( R ( st , at , st + 1 ) + α H ( π ( ⋅ ∣ st ) ) ] pi^*=argmaxlimits_pi υποσύνολο {tausimpi}{rm E}Big[sumlimits_{t=0}^inftygamma^tBig(R(s_t,a_t,s_{t+1})textcolor{blue}{+alpha H(pi(·|s_t))} Μεγάλο μεγάλο]π∗=αρσολπΜέγιστητ∼πμι[t=0∑∞γt(R(μικρόt,έναt,μικρόt+1)+αH(π(⋅∣μικρόt)))]
σε α > 0 άλφα > 0α>0 είναι ο συντελεστής αντιστάθμισης.
Συνάρτηση τιμής κατάστασης συμπεριλαμβανομένης της ανταμοιβής εντροπίας σε κάθε χρονικό βήμα V π V^piVπ Για:
V π ( s ) = E τ ∼ π [ ∑ t = 0 ∞ γ t ( R ( st , at , st + 1 ) + α H ( π ( ⋅ ∣ st ) ) ) ∣ s 0 = s ] V^pi (s)=underset{tausimpi}{rm E}Big[sumlimits_{t=0}^inftygamma^tBig(R(s_t,a_t,s_{t+1})+alpha H(pi(·|s_t))Big )Μεγάλο|s_0=sΜεγάλο]Vπ(μικρό)=τ∼πμι[t=0∑∞γt(R(μικρόt,έναt,μικρόt+1)+αH(π(⋅∣μικρόt))) μικρό0=μικρό]
Μια συνάρτηση τιμής ενέργειας που περιλαμβάνει την ανταμοιβή εντροπίας για κάθε χρονικό βήμα εκτός από το πρώτο χρονικό βήμα Q π Q^piQπ:
Q π ( s , a ) = E τ ∼ π [ ∑ t = 0 ∞ γ t ( R ( st , at , st + 1 ) + α ∑ t = 1 ∞ H ( π ( ⋅ ∣ st ) ) ∣ s 0 = s , a 0 = a ] Q^pi(s,a)=underset{tausimpi}{rm E}Big[sumlimits_{t=0}^inftygamma^tBig(R(s_t,a_t,s_{t+1 })+alpha sumlimits_{t=1}^infty H(pi(·|s_t))Big)Big|s_0=s,a_0=aBig]Qπ(μικρό,ένα)=τ∼πμι[t=0∑∞γt(R(μικρόt,έναt,μικρόt+1)+αt=1∑∞H(π(⋅∣μικρόt))) μικρό0=μικρό,ένα0=ένα]
V π V^piVπ και Q π Q^piQπ Η σχέση μεταξύ είναι:
V π ( s ) = E a ∼ π [ Q π ( s , a ) ] + α H ( π ( ⋅ ∣ s ) ) V^pi(s)= underset{asimpi}{rm E}[Q^pi( s, a)]+άλφα H(pi(·|s))Vπ(μικρό)=ένα∼πμι[Qπ(μικρό,ένα)]+αH(π(⋅∣μικρό))
σχετικά με Q π Q^piQπ Ο τύπος Bellman είναι:
Q π ( s , a ) = E s ′ ∼ P a ′ ∼ π [ R ( s , a , s ′ ) + γ ( Q π ( s ′ , a ′ ) + α H ( π ( ⋅ ∣ s ′ ) ) ) ] = E s '∼ P [ R ( s , a , s ' ) + γ V π ( s ' ) ] Qπ(μικρό,ένα)=ένα′∼πμικρό′∼Πμι[R(μικρό,ένα,μικρό′)+γ(Qπ(μικρό′,ένα′)+αH(π(⋅∣μικρό′)))]=μικρό′∼Πμι[R(μικρό,ένα,μικρό′)+γVπ(μικρό′)]
Η SAC μαθαίνει μια πολιτική ταυτόχρονα π θ π_θήταπθ και δύο QQQ λειτουργία Q ϕ 1 , Q ϕ 2 Q_{phi_1}, Q_{phi_2}Qϕ1,Qϕ2。
Υπάρχουν επί του παρόντος δύο παραλλαγές του τυπικού SAC: η μία χρησιμοποιεί μια σταθερήΣυντελεστής τακτοποίησης εντροπίας α άλφαα, άλλο αλλάζοντας κατά τη διάρκεια της προπόνησης α άλφαα για την επιβολή περιορισμών εντροπίας.
Η τεκμηρίωση του OpenAI χρησιμοποιεί μια έκδοση με σταθερό συντελεστή τακτοποίησης εντροπίας, αλλά στην πράξη συχνά προτιμάταιπεριορισμός εντροπίαςπαραλαγή.
Όπως φαίνεται παρακάτω, στο α άλφαα Στη σταθερή έκδοση, εκτός από την τελευταία εικόνα που έχει εμφανή πλεονεκτήματα, οι άλλες έχουν μόνο ελαφρά πλεονεκτήματα, βασικά τα ίδια με α άλφαα Η έκδοση εκμάθησης παραμένει η ίδια ενώ βρίσκεστε α άλφαα Οι μεσαίες δύο εικόνες όπου η εκμάθηση έχει πλεονεκτήματα είναι πιο εμφανείς.
SAC
VSTD3
:
~
Ίδιο σημείο:
1. Και οι δύο συναρτήσεις Q μαθαίνονται ελαχιστοποιώντας το MSBE (Μέσο τετράγωνο σφάλμα Bellman) με παλινδρόμηση σε έναν κοινό στόχο.
2. Χρησιμοποιήστε το δίκτυο στόχου Q για να υπολογίσετε τον κοινό στόχο και πραγματοποιήστε υπολογισμό του μέσου όρου πολυάκ στις παραμέτρους του δικτύου Q κατά τη διάρκεια της εκπαιδευτικής διαδικασίας για να αποκτήσετε το δίκτυο στόχου Q.
3. Ο κοινός στόχος χρησιμοποιεί την τεχνική του περικομμένου διπλού Q.
~
διαφορά:
1. Το SAC περιέχει όρο κανονικοποίησης εντροπίας
2. Η επόμενη ενέργεια κατάστασης που χρησιμοποιείται στον στόχο SAC προέρχεται απόΤρέχουσα στρατηγική, αντί για τη στρατηγική στόχο.
3. Δεν υπάρχει σαφής στρατηγική στόχος για εξομάλυνση. Το TD3 εκπαιδεύει μια ντετερμινιστική πολιτική μέσω ενεργειών προς την επόμενη κατάστασηΠροσθέστε τυχαίο θόρυβο για να επιτευχθεί ομαλότητα. Το SAC εκπαιδεύει μια τυχαία πολιτική και ο θόρυβος από την τυχαιότητα είναι αρκετός για να επιτευχθούν παρόμοια αποτελέσματα.
Αλγόριθμος: Soft Actor-Critic SAC
εισαγω: θ 1 , θ 2 , ϕ theta_1,theta_2,phi~~~~~θ1,θ2,ϕ Παράμετροι αρχικοποίησης
Αρχικοποίηση παραμέτρων:
~~~~~~ Αρχικοποίηση βαρών δικτύου στόχου: θ ˉ 1 ← θ 1 , θ ˉ 2 ← θ 2 bar theta_1lefttarrowtheta_1, bar theta_2leftarrowtheta_2θˉ1←θ1,θˉ2←θ2
~~~~~~ Η ομάδα αναπαραγωγής προετοιμάζεται ώστε να είναι άδεια: D ← ∅ {cal D}leftarrowemptysetρε←∅
για {bf for}Για κάθε επανάληψη κάνω {bf do}κάνω :
~~~~~~ για {bf for}Για Κάθε βήμα περιβάλλοντος κάνω {bf do}κάνω :
~~~~~~~~~~~ Δείγματα ενεργειών από μια πολιτική: στο ∼ π ϕ ( στο ∣ st ) a_tsimpi_phi(a_t|s_t)~~~~~έναt∼πϕ(έναt∣μικρόt) ▢Εδώ π ϕ (στο ∣ st ) pi_phi(a_t|s_t)πϕ(έναt∣μικρόt) Πώς να ορίσετε;
~~~~~~~~~~~ Δείγματα μεταβάσεων από το περιβάλλον: st + 1 ∼ p ( st + 1 ∣ st , at ) s_{t+1}sim p(s_{t+1}|s_t,a_t)μικρόt+1∼Π(μικρόt+1∣μικρόt,έναt)
~~~~~~~~~~~ Αποθηκεύστε τη μετάβαση στο χώρο συγκέντρωσης αναπαραγωγής: D ← D ∪ { ( st , at , r ( st , at ) , st + 1 ) } {cal D}lefttarrow{cal D}~ cup~{(s_t,a_t,r(s_t,a_t),s_{t +1})}ρε←ρε ∪ {(μικρόt,έναt,r(μικρόt,έναt),μικρόt+1)}
~~~~~~ τέλος για {bf τέλος ~για}τέλος Για
~~~~~~ για {bf for}Για Κάθε βήμα κλίσης κάνω {bf do}κάνω :
~~~~~~~~~~~ ανανεώνω QQQ Παράμετροι συνάρτησης: για i ∈ { 1 , 2 } iin{1,2}Εγώ∈{1,2}, θ i ← θ i − λ Q ∇ ^ θ i JQ ( θ i ) theta_ileftarrowtheta_i-lambda_Qhat nabla_{theta_i}J_Q(theta_i)~~~~~θΕγώ←θΕγώ−λQ∇^θΕγώJQ(θΕγώ) ▢Εδώ JQ ( θ i ) J_Q(θήτα_ι)JQ(θΕγώ) Πώς να ορίσετε;
~~~~~~~~~~~ Ενημέρωση βαρών στρατηγικής: ϕ ← ϕ − λ π ∇ ^ ϕ J π ( ϕ ) phileftarrowphi-lambda_pihat nabla_phi J_pi (phi)~~~~~ϕ←ϕ−λπ∇^ϕJπ(ϕ) ▢Εδώ J π ( ϕ ) J_pi (phi)Jπ(ϕ) Πώς να ορίσετε;
~~~~~~~~~~~ Ρύθμιση θερμοκρασίας: α ← α − λ ∇ ^ α J ( α ) alphaleftarrowalpha-lambdahatnabla_alpha J(άλφα)~~~~~α←α−λ∇^αJ(α) ▢Εδώ J ( α ) J(άλφα)J(α) Πώς να ορίσετε;Πώς να καταλάβετε τη θερμοκρασία εδώ;
~~~~~~~~~~~ Ενημέρωση βαρών δικτύου στόχου: για i ∈ { 1 , 2 } iin{1,2}Εγώ∈{1,2}, θ ˉ i ← τ θ i − ( 1 − τ ) θ ˉ i bar theta_ileftarrow tau theta_i-(1-tau)bar theta_i~~~~~θˉΕγώ←τθΕγώ−(1−τ)θˉΕγώ ▢ Πώς να το καταλάβετε αυτό τ tauτ ? ——>Στόχος συντελεστής εξομάλυνσης
~~~~~~ τέλος για {bf τέλος ~για}τέλος Για
τέλος για {bf τέλος ~για}τέλος Για
Παραγωγή: θ 1 , θ 1 , ϕ theta_1,theta_1,phi~~~~~θ1,θ1,ϕ Βελτιστοποιημένες παράμετροι
∇ ^ καπέλο nabla∇^: στοχαστική κλίση
$emptyset$
∅ ~~~~άδειασμα ∅
Μαθαίνοντας να περπατάτε μέσω της Εκμάθησης Βαθιάς Ενίσχυσης Έκδοση σε:
~
α
α
α είναι η παράμετρος θερμοκρασίας, η οποία καθορίζει τη σχετική σημασία του όρου και της ανταμοιβής της εντροπίας, ελέγχοντας έτσι την τυχαιότητα της βέλτιστης στρατηγικής.
α άλφαα Μεγάλο: Εξερευνήστε
α άλφαα Μικρό: εκμεταλλεύομαι
J ( α ) = E σε ∼ π t [ − α log π t ( στο ∣ st ) − α H ˉ ] J(άλφα)=υποσύνολο{a_tsimpi_t}{mathbb E}[-άλφαλογος pi_t(a_t|s_t)- αλφαβάρι{cal H}]J(α)=έναt∼πtμι[−αιδούσολπt(έναt∣μικρόt)−αHˉ]