Κοινή χρήση τεχνολογίας

# [0705] Task06 αλγόριθμος DDPG, αλγόριθμος PPO, αλγόριθμος SAC [μόνο θεωρία]

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

  • οργάνωση σημείωσης έκδοσης PDF easy-rl P5, P10 - P12
  • joyrl σύγκριση συμπλήρωμα P11-P13
  • Οργάνωση εγγράφων OpenAI ⭐ https://spinningup.openai.com/en/latest/index.html

Εισαγάγετε την περιγραφή της εικόνας εδώ

Εισαγάγετε την περιγραφή της εικόνας εδώ

Λήψη pdf τελευταίας έκδοσης
Διεύθυνση: https://github.com/datawhalechina/easy-rl/releases
Εγχώρια διεύθυνση (συνιστάται για εγχώριους αναγνώστες)
Σύνδεσμος: https://pan.baidu.com/s/1isqQnpVRWbb3yh83Vs0kbw Κωδικός εξαγωγής: us6a

Σύνδεσμος ηλεκτρονικής έκδοσης easy-rl (για κωδικό αντιγραφής)
Σύνδεσμος αναφοράς 2: https://datawhalechina.github.io/joyrl-book/

άλλα:
[Εσφαλμένος σύνδεσμος εγγραφής]
——————
5. Βασικά στοιχεία της βαθιάς ενισχυτικής μάθησης ⭐️
Περιεχόμενο ανοιχτού κώδικα: https://linklearner.com/learn/summary/11
——————————

Εισαγάγετε την περιγραφή της εικόνας εδώ
Πηγή εικόνας

Βελτιστοποίηση εγγύς πολιτικής (PPO)

Πανομοιότυπη στρατηγική: Ο πράκτορας που πρέπει να μάθει και ο πράκτορας που αλληλεπιδρά με το περιβάλλον είναι ο ίδιος.
Ετερογενείς στρατηγικές: ο παράγοντας που μαθαίνει και ο πράκτορας που αλληλεπιδρά με το περιβάλλον είναι διαφορετικοί

Διαβάθμιση πολιτικής: Απαιτεί πολύ χρόνο για τη δειγματοληψία δεδομένων

ίδια στρατηγική ⟹ Δειγματοληψία σημασίας ~~~overset{Importance sampling}{Longrightarrow}~~~   δειγματοληψία σπουδαιότητας    διαφορετικές στρατηγικές

PPO: Αποφύγετε δύο διανομές που διαφέρουν πολύ. τον ίδιο αλγόριθμο στρατηγικής
1. Αρχικά στοιχεία βελτιστοποίησης J ( θ , θ ′ ) J(θήτα,θήτα^πρωταρχικός)J(θ,θ)
2. Στοιχεία περιορισμού: θ θήταθ και θ ′ theta^primeθ Η απόκλιση KL της ενέργειας εξόδου ( θ θήταθ και θ ′ theta^primeθ Όσο πιο παρόμοια τόσο το καλύτερο)

Το PPO έχει έναν προκάτοχο: βελτιστοποίηση πολιτικής περιοχής εμπιστοσύνης (TRPO)
Το TRPO είναι δύσκολο να χειριστεί γιατί αντιμετωπίζει τον περιορισμό απόκλισης KL ως πρόσθετο περιορισμό και δεν τοποθετείται στην αντικειμενική συνάρτηση, επομένως είναι δύσκολο να υπολογιστεί. Επομένως, γενικά χρησιμοποιούμε PPO αντί για TRPO. Οι επιδόσεις του PPO και του TRPO είναι παρόμοιες, αλλά το PPO είναι πολύ πιο εύκολο να εφαρμοστεί από το TRPO.

KL divergence: απόσταση δράσης.Κατανομή πιθανότητας εκτέλεσης μιας ενέργειας απόσταση.

Υπάρχουν δύο κύριες παραλλαγές του αλγορίθμου PPO: εγγύς ποινή βελτιστοποίησης πολιτικής (PPO-penalty) και εγγύς αποκοπή βελτιστοποίησης πολιτικής (PPO-clip).

Εισαγάγετε την περιγραφή της εικόνας εδώ

Παρόμοια απόδοση, ευκολότερη στην εφαρμογή
Βελτιστοποίηση στρατηγικής ζώνης εμπιστοσύνης ( βελτιστοποίηση πολιτικής περιοχής εμπιστοσύνης (TRPO)
Βελτιστοποίηση εγγύς στρατηγικής ( εγγύς βελτιστοποίηση πολιτικής, ΔΤΠ
Εγγύς ποινή βελτιστοποίησης πολιτικής ( PPO-τιμωρία)
Προσαρμογή βελτιστοποίησης εγγύς στρατηγικής ( PPO-clip)

——————————
P10 Πρόβλημα αραιής ανταμοιβής
1. Επιβραβεύσεις σχεδίασης. Απαιτεί γνώση τομέα
Τι θα λέγατε για την ανάθεση της τελικής ανταμοιβής σε κάθε σχετική ενέργεια;

2. Περιέργεια
Ενότητα εσωτερικής περιέργειας (ICM)
εισαγω: στο , st a_t,s_tέναt,μικρόt
Παραγωγή: s ^ t + 1 καπέλο s_{t+1}μικρό^t+1
Η προβλεπόμενη αξία του δικτύου s ^ t + 1 καπέλο s_{t+1}μικρό^t+1 με αληθινή αξία st + 1 s_{t+1}μικρόt+1 Όσο πιο ανόμοια είναι, τόσο rti r_t^irtΕγώ Το μεγαλύτερο

rti r_t^irtΕγώ : Όσο πιο δύσκολη είναι η πρόβλεψη της μελλοντικής κατάστασης, τόσο μεγαλύτερη είναι η ανταμοιβή για τη δράση. Ενθαρρύνετε την περιπέτεια και την εξερεύνηση.

  • Ο δείκτης είναι πολύ απλός και μπορεί να μάθετε μόνο άχρηστα πράγματα.

εξαγωγέας χαρακτηριστικών

Δίκτυο 2:
Είσοδος: διάνυσμα ϕ ( st ) {bm phi}(s_{t})ϕ(μικρόt) και ϕ ( st + 1 ) {bm phi}(s_{t+1})ϕ(μικρόt+1)

Πρόβλεψη δράσης ένα ^ καπέλο αένα^ Όσο πιο κοντά στην πραγματική δράση τόσο το καλύτερο.

Εισαγάγετε την περιγραφή της εικόνας εδώ

3. Μελέτη μαθήματος

Εύκολο -> Δύσκολο

Αντίστροφη μάθηση προγράμματος σπουδών:
Ξεκινώντας από την τελική πιο ιδανική κατάσταση [την ονομάζουμε χρυσή κατάσταση], πηγαίνετε στοΒρείτε την πολιτεία που βρίσκεται πιο κοντά στη χρυσή πολιτεία Ως σκηνοθετημένη «ιδανική» κατάσταση που θέλετε να φτάσει ο πράκτορας. Φυσικά, σκόπιμα θα αφαιρέσουμε κάποιες ακραίες καταστάσεις σε αυτή τη διαδικασία, δηλαδή καταστάσεις που είναι πολύ εύκολες ή πολύ δύσκολες.

4. Ιεραρχική ενισχυτική μάθηση (HRL)
Η στρατηγική του πράκτορα χωρίζεται σε στρατηγικές υψηλού επιπέδου και στρατηγικές χαμηλού επιπέδου Η στρατηγική υψηλού επιπέδου καθορίζει τον τρόπο εκτέλεσης της στρατηγικής χαμηλού επιπέδου με βάση την τρέχουσα κατάσταση.

————————
P11 Εκμάθηση μίμησης
Δεν είμαι σίγουρος για τη σκηνή ανταμοιβής

Εκμάθηση μίμησης (IL)
μαθαίνοντας από την επίδειξη
Εκμάθηση μαθητείας
μαθαίνοντας παρακολουθώντας

Υπάρχουν σαφείς ανταμοιβές: επιτραπέζια παιχνίδια, βιντεοπαιχνίδια
Δεν είναι δυνατή η παροχή σαφών ανταμοιβών: chatbot

Συλλέξτε επιδείξεις εμπειρογνωμόνων: αρχεία ανθρώπινης οδήγησης, ανθρώπινες συνομιλίες

Αντίστροφα, τι είδους λειτουργία ανταμοιβής κάνει ο ειδικός σε αυτές τις ενέργειες;
Η αντίστροφη ενισχυτική μάθηση είναιΒρείτε πρώτα τη συνάρτηση ανταμοιβής, αφού βρείτε τη συνάρτηση ανταμοιβής, χρησιμοποιήστε την ενισχυτική μάθηση για να βρείτε τον βέλτιστο παράγοντα.

Τεχνολογία εκμάθησης μίμησης τρίτου προσώπου

————————
P12 Βαθιά ντετερμινιστική κλίση πολιτικής (DDPG)

Εισαγάγετε την περιγραφή της εικόνας εδώ

Χρησιμοποιήστε στρατηγική επανάληψης εμπειρίας

Ανάλυση πειράματος κατάλυσης [Μέθοδος ελεγχόμενης μεταβλητής]κάθε περιορισμόαντίκτυπο στην έκβαση της μάχης.


joyrl:

DDPG_continuous

σε ανάγκηβεβαιότηταστρατηγική καισυνεχής δράσηΥπό την προϋπόθεση του χώρου, αυτός ο τύπος αλγορίθμου θα είναι ένας σχετικά σταθερός αλγόριθμος βασικής γραμμής.

DQN για χώρους συνεχούς δράσης

Βαθιά ντετερμινιστικός αλγόριθμος διαβάθμισης πολιτικής (DDPG)

Ο μηχανισμός επανάληψης εμπειρίας μπορεί να μειώσει τη συσχέτιση μεταξύ των δειγμάτων, να βελτιώσει την αποτελεσματική χρήση των δειγμάτων και να αυξήσει τη σταθερότητα της εκπαίδευσης.

έλλειψη:
1. Δεν μπορεί να χρησιμοποιηθεί σε διακριτό χώρο δράσης
2、Εξαρτάται σε μεγάλο βαθμό από υπερπαραμέτρους
3. Ιδιαίτερα ευαίσθητες αρχικές συνθήκες. Επηρεάζει τη σύγκλιση και την απόδοση του αλγορίθμου
4. Είναι εύκολο να πέσεις στο τοπικό βέλτιστο.

  • Λόγω της υιοθέτησης μιας ντετερμινιστικής στρατηγικής, ο αλγόριθμος μπορεί να πέσει σε ένα τοπικό βέλτιστο και να δυσχεράνει την εύρεση της συνολικής βέλτιστης στρατηγικής. Προκειμένου να αυξηθεί η εξερευνησιμότητα, πρέπει να ληφθούν ορισμένα μέτρα, όπως η προσθήκη στρατηγικών θορύβου ή η χρήση άλλων μεθόδων εξερεύνησης.

Το πλεονέκτημα της μαλακής ενημέρωσης είναι ότι είναι πιο ομαλή και πιο αργή, γεγονός που μπορεί να αποφύγει τους κραδασμούς που προκαλούνται από πολύ γρήγορες ενημερώσεις βάρους και να μειώσει τον κίνδυνο απόκλισης στην προπόνηση.

Αλγόριθμος κλίσης πολιτικής διπλής καθυστέρησης ντετερμινιστικής (twin delayed DDPG, TD3)

Αλγόριθμος ντετερμινιστικής κλίσης πολιτικής διπλής καθυστέρησης

Τρεις βελτιώσεις: Διπλό δίκτυο Q, καθυστερημένη ενημέρωση, τακτοποίηση θορύβου
Διπλό Δίκτυο Q : Δύο δίκτυα Q, επιλέξτε αυτό με μικρότερη τιμή Q. Να αντιμετωπίσει το πρόβλημα υπερεκτίμησης της τιμής Q και να βελτιώσει τη σταθερότητα και τη σύγκλιση του αλγορίθμου.

Καθυστερημένη ενημέρωση: Αφήστε τη συχνότητα ενημέρωσης του ηθοποιού να είναι χαμηλότερη από τη συχνότητα κρίσιμης ενημέρωσης

  • Σκέψου διπλά

Ο θόρυβος μοιάζει περισσότερο με αΤακτοποίησημε τέτοιο τρόπο πουενημέρωση συνάρτησης τιμήςπερισσότερολείος

OpenAI Gym Library_Pendulum_TD3

Σύνδεσμος διεπαφής εγγράφου OpenAI σχετικά με το TD3

Σύνδεσμος PDF σε χαρτί TD3

PPO_Continuous/Discrete Action Space [OpenAI 201708]

Ο πιο συχνά χρησιμοποιούμενος αλγόριθμος PPO στην ενισχυτική μάθηση
Διακριτή + συνεχής
Γρήγορο και σταθερό, εύκολο στην προσαρμογή των παραμέτρων
αλγόριθμος βάσης

Αναποφάσιστο ΔΤΦ

Στην πράξη, οι περιορισμοί κλιπ χρησιμοποιούνται γενικά επειδή είναι απλούστεροι, έχουν χαμηλότερο υπολογιστικό κόστος και έχουν καλύτερα αποτελέσματα.

Ο αλγόριθμος εκτός πολιτικής μπορείνα επωφεληθούν από την ιστορική εμπειρία, γενικά χρησιμοποιήστε την επανάληψη της εμπειρίας για αποθήκευση και επαναχρησιμοποίηση προηγούμενης εμπειρίας,Η αποτελεσματικότητα χρήσης δεδομένων είναι υψηλή

Το PPO είναι ένας αλγόριθμος εντός πολιτικής

  • Αν και το τμήμα δειγματοληψίας σπουδαιότητας χρησιμοποιεί δείγματα από την παλιά δειγματοληψία ηθοποιών, εμείςΑυτά τα δείγματα δεν χρησιμοποιούνται απευθείας για την ενημέρωση της στρατηγικής. , αντί αυτού, χρησιμοποιείται δειγματοληψία σπουδαιότητας για να διορθωθούν πρώτα τα σφάλματα που προκαλούνται από διαφορετικές κατανομές δεδομένων, ακόμη και αν η διαφορά μεταξύ των δύο κατανομών δειγμάτων μειωθεί όσο το δυνατόν περισσότερο.Με άλλα λόγια, μπορεί να γίνει κατανοητό ότι παρόλο που τα δείγματα μετά τη δειγματοληψία σπουδαιότητας λαμβάνονται με δειγματοληψία από την παλιά στρατηγική, μπορούνΛήφθηκε κατά προσέγγιση από την ενημερωμένη πολιτική, δηλαδή, ο ηθοποιός που θέλουμε να βελτιστοποιήσουμε και ο ηθοποιός που δειγματίζουμε είναι ο ίδιος.

——————————————————

—— OpenAI Documentation_PPO

Τεκμηρίωση OpenAI
Έντυπος σύνδεσμος διασύνδεσης arXiv: Αλγόριθμοι βελτιστοποίησης εγγύς πολιτικής

PPO: αλγόριθμος on-policy, κατάλληλος για διακριτούς ή συνεχείς χώρους δράσης.Πιθανό τοπικό βέλτιστο

Το κίνητρο για το PPO είναι το ίδιο με το TRPO: πώς να αξιοποιήσετε τα υπάρχοντα δεδομέναΚάντε το μεγαλύτερο δυνατό βήμα βελτίωσης στη στρατηγική σας, χωρίς να το αλλάξετε πολύ και να προκαλέσετε κατά λάθος συντριβή απόδοσης;
Το TRPO επιχειρεί να λύσει αυτό το πρόβλημα με μια εξελιγμένη προσέγγιση δεύτερης τάξης, ενώ το PPO είναι μια προσέγγιση πρώτης τάξης που χρησιμοποιεί κάποια άλλα κόλπα για να διατηρήσει τη νέα στρατηγική κοντά στην παλιά.
Η μέθοδος PPO είναι πολύ πιο απλή στην εφαρμογή και, εμπειρικά, αποδίδει τουλάχιστον το ίδιο καλά με το TRPO.

Υπάρχουν δύο κύριες παραλλαγές του PPO: PPO-Penalty και PPO-Clip.

  • Το PPO-Penalty επιλύει περίπου ενημερώσεις περιορισμών KL όπως το TRPO, αλλά τιμωρεί την απόκλιση KL στη συνάρτηση αντικειμενικού αντί να την κάνει σκληρό περιορισμό και προσαρμόζει αυτόματα τον συντελεστή ποινής κατά τη διάρκεια της προπόνησης, ώστε να κλιμακώνεται κατάλληλα.
  • Το PPO-Clip δεν έχει απόκλιση KL και κανένα περιορισμό στην αντικειμενική συνάρτηση. Αντίθετα, βασίζεται σε συγκεκριμένη προσαρμογή της αντικειμενικής συνάρτησης για την αφαίρεση του κινήτρου για τη νέα στρατηγική να απομακρυνθεί από την παλιά στρατηγική.
    PPO-Clip (κύρια παραλλαγή που χρησιμοποιείται από το OpenAl).

Εισαγάγετε την περιγραφή της εικόνας εδώ

Ψευδοκωδικός αλγόριθμου PPO-Clip

Εισαγάγετε την περιγραφή της εικόνας εδώ

Αλγόριθμος: PPO-Clip
1: Εισαγωγή: παράμετροι αρχικής στρατηγικής θ 0 θήτα_0θ0, παράμετροι συνάρτησης αρχικής τιμής ϕ 0 phi_0ϕ0
2: για k = 0 , 1 , 2 , … do {bf for} ~ k=0,1,2,dots~ {bf do}Για κ=0,1,2, κάνω
3:        ~~~~~~       Τρέχοντας την πολιτική στο περιβάλλον π k = π ( θ k ) pi_k=pi(theta_k)πκ=π(θκ) Συλλέξτε σετ τροχιών D k = { τ i } {cal D}_k={tau_i}ρεκ={τΕγώ}
4:        ~~~~~~       Υπολογισμός ανταμοιβών (ανταμοιβές σε εξέλιξη) R ^ t καπέλο R_t~~~~~R^t      R ^ t καπέλο R_tR^t κανόνες υπολογισμού
5:        ~~~~~~       Υπολογίστε την εκτίμηση του πλεονεκτήματος, με βάση τη συνάρτηση τρέχουσας τιμής V ϕ k V_{phi_k}Vϕκ του A ^ t καπέλο A_tΕΝΑ^t (Χρησιμοποιήστε οποιαδήποτε μέθοδο εκτίμησης κυριαρχίας)       ~~~~~       ▢ Ποιες είναι οι τρέχουσες μέθοδοι εκτίμησης πλεονεκτημάτων;
6:        ~~~~~~       Ενημερώστε την πολιτική μεγιστοποιώντας τη συνάρτηση στόχου PPO-Clip:
            ~~~~~~~~~~~            
θ k + 1 = arg ⁡ max ⁡ θ 1 ∣ D k ∣ T ∑ τ ∈ D k ∑ t = 0 T min ⁡ ( π θ ( στο ∣ st ) π θ k ( στο ∣ st ) A π θ k ( st , at ) , g ( ϵ , A π θ k ( st , at ) ) ~~~~~~~~~~~theta_{k+1}=argmaxlimits_thetafrac{1}{|{cal D}_k|T }sumlimits_{tauin{cal D}_k}sumlimits_{t=0}^TminBig(frac{pi_{theta} (a_t|s_t)}{pi_{theta_k}(a_t|s_t)}A^{pi_{theta_k}} (s_t,a_t),g(epsilon,A^{pi_{theta_k}}(s_t,a_t))Big)           θκ+1=αρσολθΜέγιστηρεκΤ1τρεκt=0Τελάχ(πθκ(έναtμικρόt)πθ(έναtμικρόt)ΕΝΑπθκ(μικρόt,έναt),σολ(ϵ,ΕΝΑπθκ(μικρόt,έναt)))       ~~~~~       ▢ Πώς να προσδιορίσετε τον τύπο ενημέρωσης στρατηγικής;
            ~~~~~~~~~~~            
            ~~~~~~~~~~~             π θ k pi_{theta_k}πθκ : Διάνυσμα παραμέτρων στρατηγικής πριν από την ενημέρωση. Σημαντική δειγματοληψία. Δειγματοληψία από παλιές στρατηγικές.
            ~~~~~~~~~~~            
            ~~~~~~~~~~~            Γενική Στοχαστική Κλίση Ανάβαση + Αδάμ
7:        ~~~~~~       μέσο τετραγωνικό σφάλμασυνάρτηση προσαρμοσμένης τιμής παλινδρόμησης:
            ~~~~~~~~~~~            
ϕ k + 1 = arg ⁡ min ⁡ ϕ 1 ∣ D k ∣ T ∑ τ ∈ D k ∑ t = 0 T ( V ϕ ( st ) − R ^ t ) 2 ~~~~~~~~~~~phi_ {k+1}=arg minlimits_phifrac{1}{|{cal D}_k|T}sumlimits_{tauin{cal D}_k}sumlimits_{t=0}^TBig(V_phi(s_t)-hat R_tBig)^2           ϕκ+1=αρσολϕελάχρεκΤ1τρεκt=0Τ(Vϕ(μικρόt)R^t)2
            ~~~~~~~~~~~            
            ~~~~~~~~~~~            Γενική κλίση κατάβασης
8: τέλος για bf τέλος ~ γιατέλος Για
             ~~~~~~~~~~~~             

$dots$ … ~~~ τελείες   

g ( ϵ , A ) = { ( 1 + ϵ ) A A ≥ 0 ( 1 − ϵ ) AA &lt; 0 g(epsilon,A)=αριστερά{(1+ϵ)ΕΝΑ    ΕΝΑ0(1ϵ)ΕΝΑΕΝΑ<0σωστά. σολ(ϵ,ΕΝΑ)={(1+ϵ)ΕΝΑ    (1ϵ)ΕΝΑΕΝΑ0ΕΝΑ<0

Εισαγάγετε την περιγραφή της εικόνας εδώ

στο χαρτίΕκτίμηση πλεονεκτήματος:

A ^ t = − V ( st ) + rt + γ rt + 1 + ⋯ + γ T − t + 1 r T − 1 + γ T − t V ( s T ) ⏟ R ^ t ? ? ? καπέλο A_t=-V(s_t)+υποδοχή{r_t+γάμα r_{t+1}+cdots+γάμα^{T-t+1}r_{T-1}+γάμα^{Tt}V(s_T)}_ {textcolor{blue}{hat R_t???}}ΕΝΑ^t=V(μικρόt)+R^t??? rt+γrt+1++γΤt+1rΤ1+γΤtV(μικρόΤ)

Εισαγάγετε την περιγραφή της εικόνας εδώ

φτιαχνω, κανω Δ t = rt + γ V ( st + 1 ) − V ( st ) Δέλτα_t =r_t+γάμα V(s_{t+1})-V(s_t)Δt=rt+γV(μικρόt+1)V(μικρόt)
αλλά rt = Δ t − γ V ( st + 1 ) + V ( st ) r_t=Delta_t - γάμμα V(s_{t+1})+V(s_t)rt=ΔtγV(μικρόt+1)+V(μικρόt)

Υποκατάστατο A ^ t καπέλο A_tΕΝΑ^t έκφραση

A ^ t = − V ( st ) + rt + γ rt + 1 + γ 2 rt + 2 + ⋯ + γ T − tr T − 2 + γ T − t + 1 r T − 1 + γ T − t V ( s T ) = − V ( st ) + rt + γ rt + 1 + ⋯ + γ T − t + 1 r T − 1 + γ T − t V ( s T ) = − V ( st ) + Δ t − γ V ( st + 1 ) + V ( st ) + γ ( Δ t + 1 − γ V ( st + 2 ) + V ( st + 1 ) ) + γ 2 ( Δ t + 2 − γ V ( st + 3 ) + V ( st + 1 ) ) + ⋯ + γ T − t ( Δ T − t − γ V ( s T − t + 1 ) + V ( s T − t ) ) + γ T − t + 1 ( Δ T − 1 − γ V ( s T ) + V ( s T − 1 ) ) + γ T − t V ( s T ) = Δ t + γ Δ t + 1 + γ 2 Δ t + 2 + ⋯ + γ T − t Δ T − t + γ T − t + 1 Δ T − 1ˆΕΝΑt=V(μικρόt)+rt+γrt+1+γ2rt+2++γΤtrΤ2+γΤt+1rΤ1+γΤtV(μικρόΤ)=V(μικρόt)+rt+γrt+1++γΤt+1rΤ1+γΤtV(μικρόΤ)=V(μικρόt)+       ΔtγV(μικρόt+1)+V(μικρόt)+       γ(Δt+1γV(μικρόt+2)+V(μικρόt+1))+       γ2(Δt+2γV(μικρόt+3)+V(μικρόt+1))+       +       γΤt(ΔΤtγV(μικρόΤt+1)+V(μικρόΤt))+       γΤt+1(ΔΤ1γV(μικρόΤ)+V(μικρόΤ1))+       γΤtV(μικρόΤ)=Δt+γΔt+1+γ2Δt+2++γΤtΔΤt+γΤt+1ΔΤ1 ΕΝΑ^t=V(μικρόt)+rt+γrt+1+γ2rt+2++γΤtrΤ2+γΤt+1rΤ1+γΤtV(μικρόΤ)=V(μικρόt)+rt+γrt+1++γΤt+1rΤ1+γΤtV(μικρόΤ)=V(μικρόt)+       ΔtγV(μικρόt+1)+V(μικρόt)+       γ(Δt+1γV(μικρόt+2)+V(μικρόt+1))+       γ2(Δt+2γV(μικρόt+3)+V(μικρόt+1))+       +       γΤt(ΔΤtγV(μικρόΤt+1)+V(μικρόΤt))+       γΤt+1(ΔΤ1γV(μικρόΤ)+V(μικρόΤ1))+       γΤtV(μικρόΤ)=Δt+γΔt+1+γ2Δt+2++γΤtΔΤt+γΤt+1ΔΤ1

Εισαγάγετε την περιγραφή της εικόνας εδώ

Το Clipping λειτουργεί ως ρυθμιστικός παράγοντας αφαιρώντας το κίνητρο για δραστικές αλλαγές στην πολιτική.υπερπαράμετροι ϵ έψιλονϵ Αντιστοιχεί στην απόσταση μεταξύ της νέας στρατηγικής και της παλιάς στρατηγικής

Είναι ακόμα πιθανό ότι αυτό το είδος αποκοπής θα οδηγήσει τελικά σε μια νέα στρατηγική που απέχει πολύ από την παλιά στρατηγική Κατά την εφαρμογή εδώ, χρησιμοποιούμε μια ιδιαίτερα απλή μέθοδο:Σταματήστε νωρίς . Εάν η μέση απόκλιση KL της νέας πολιτικής από την παλιά πολιτική υπερβαίνει ένα όριο, σταματάμε την εκτέλεση του βήματος διαβάθμισης.

Συνάρτηση αντικειμενικού PPO απλή σύνδεση παραγωγής
Η αντικειμενική λειτουργία του PPO-Clip είναι:
  ~  
L θ k CLIP ( θ ) = E s , a ∼ θ k [ min ⁡ ( π θ ( a ∣ s ) π θ k ( a ∣ s ) A θ k ( s , a ) , clip ( π θ ( a ∣ s ) π θ k ( a ∣ s ) , 1 − ϵ , 1 + ϵ ) A θ k ( s , a ) ) ] L^{rm CLIP}_{theta_k}(theta)= underset{s, asimtheta_k}{ rm E}Bigg[minBigg(frac{pi_theta(a|s)}{pi_{theta_k}(a|s)}A^{theta_k}(s, a), {rm clip}Big(frac{pi_theta(a| s)}{pi_{theta_k}(a|s)},1-epsilon, 1+epsilonBig)A^{theta_k}(s, a)Bigg)Bigg]μεγάλοθκΣΥΝΔΕΤΗΡΑΣ(θ)=μικρό,έναθκμι[ελάχ(πθκ(έναμικρό)πθ(έναμικρό)ΕΝΑθκ(μικρό,ένα),συνδετήρας(πθκ(έναμικρό)πθ(έναμικρό),1ϵ,1+ϵ)ΕΝΑθκ(μικρό,ένα))]
  ~  
$underset{s, asimtheta_k}{rm E}$ E s , a ∼ θ k ~~~ underset{s, asimtheta_k}{rm E}   μικρό,έναθκμι
  ~  
Οχι. κκκ Παράμετροι στρατηγικής για επαναλήψεις θ k theta_kθκ ϵ έψιλονϵ είναι μια μικρή υπερπαράμετρος.
στήνω ϵ ∈ ( 0 , 1 ) εψιλονίνη (0,1)ϵ(0,1), ορισμός
F ( r , A , ϵ ) ≐ min ⁡ ( r A , clip ( r , 1 − ϵ , 1 + ϵ ) A ) F(r,A,epsilon)doteqminBigg(rA,{rm clip}(r,1- epsilon,1+epsilon)ABigg)φά(r,ΕΝΑ,ϵ)ελάχ(rΕΝΑ,συνδετήρας(r,1ϵ,1+ϵ)ΕΝΑ)
πότε A ≥ 0 Ageq0ΕΝΑ0
F ( r , A , ϵ ) = min ⁡ ( r A , clip ( r , 1 − ϵ , 1 + ϵ ) A ) = A min ⁡ ( r , clip ( r , 1 − ϵ , 1 + ϵ ) ) = A min ⁡ ( r , { 1 + ϵ r ≥ 1 + ϵ rr ∈ ( 1 − ϵ , 1 + ϵ ) 1 − ϵ r ≤ 1 − ϵ } ) = A { min ⁡ ( r , 1 + ≥ r ) 1 + ϵ min ⁡ ( r , r ) r ∈ ( 1 − ϵ , 1 + ϵ ) min ⁡ ( r , 1 − ϵ ) r ≤ 1 − ϵ } = A { 1 + ϵ r ≥ 1 + ϵ ( rr≥ 1 − ϵ , 1 + ϵ ) rr ≤ 1 − ϵ } Σύμφωνα με το εύρος στη δεξιά πλευρά = A min ⁡ ( r , 1 + ϵ ) = min ⁡ ( r A , ( 1 + ϵ ) A )start{aligned}F(r,A,epsilon)&=minBigg(rA,{rm clip}(r,1-epsilon,1+epsilon)ABigg)\ &=AminBigg(r,{rm clip}(r,1 -epsilon,1+epsilon)Bigg)\ &=AminBigg(r,αριστερά{αρχή{στοίχιση}&1+epsilon~~&rgeq1+epsilon\ &r &rin(1-epsilon,1+epsilon)\ &1-epsilon &rleq1-epsilon\ end{ευθυγραμμισμένο}δεξιά}Μεγάλο)\ &=Αριστερά{ελάχδεξιά}\ &=Αριστερά{right}~~~~~textcolor{blue}{σύμφωνα με το εύρος στα δεξιά}\ &=Amin(r, 1+epsilon)\ &=minBigg(rA, (1+epsilon)ABigg) end{aligned} φά(r,ΕΝΑ,ϵ)=ελάχ(rΕΝΑ,συνδετήρας(r,1ϵ,1+ϵ)ΕΝΑ)=ΕΝΑελάχ(r,συνδετήρας(r,1ϵ,1+ϵ))=ΕΝΑελάχ(r, 1+ϵ  r1ϵr1+ϵr(1ϵ,1+ϵ)r1ϵ )=ΕΝΑ ελάχ(r,1+ϵ)  ελάχ(r,r)ελάχ(r,1ϵ)r1+ϵr(1ϵ,1+ϵ)r1ϵ =ΕΝΑ 1+ϵ  rrr1+ϵr(1ϵ,1+ϵ)r1ϵ      Σύμφωνα με το εύρος στα δεξιά=ΕΝΑελάχ(r,1+ϵ)=ελάχ(rΕΝΑ,(1+ϵ)ΕΝΑ)
  ~  
πότε A &lt; 0 A&lt;0ΕΝΑ<0
F ( r , A , ϵ ) = min ⁡ ( r A , clip ( r , 1 − ϵ , 1 + ϵ ) A ) = A max ⁡ ( r , clip ( r , 1 − ϵ , 1 + ϵ ) ) = A max ⁡ ( r , { 1 + ϵ r ≥ 1 + ϵ rr ∈ ( 1 − ϵ , 1 + ϵ ) 1 − ϵ r ≤ 1 − ϵ } ) = A { max ⁡ ( r , 1 + ≥) 1 + ϵ max ⁡ ( r , r ) r ∈ ( 1 − ϵ , 1 + ϵ ) max ⁡ ( r , 1 − ϵ ) r ≤ 1 − ϵ } = A { r ≥ 1 + ϵ rr − ∈ , 1 + ϵ ) 1 − ϵ r ≤ 1 − ϵ } Σύμφωνα με το εύρος στη δεξιά πλευρά = A max ⁡ ( r , 1 − ϵ ) = min ⁡ ( r A , ( 1 − ϵ ) A )δεξιά}Μεγάλο)\ &=Αριστερά{δεξιά}\ &=Αριστερά{right}~~~~~textcolor{blue}{σύμφωνα με το εύρος στα δεξιά}\ &=Amax(r, 1-epsilon)\ &=textcolor{blue}{min}Bigg(rA,(1-epsilon) ABigg) end{aligned} φά(r,ΕΝΑ,ϵ)=ελάχ(rΕΝΑ,συνδετήρας(r,1ϵ,1+ϵ)ΕΝΑ)=ΕΝΑΜέναΧ(r,συνδετήρας(r,1ϵ,1+ϵ))=ΕΝΑΜέγιστη(r, 1+ϵ  r1ϵr1+ϵr(1ϵ,1+ϵ)r1ϵ )=ΕΝΑ Μέγιστη(r,1+ϵ)  Μέγιστη(r,r)Μέγιστη(r,1ϵ)r1+ϵr(1ϵ,1+ϵ)r1ϵ =ΕΝΑ r  r1ϵr1+ϵr(1ϵ,1+ϵ)r1ϵ      Σύμφωνα με το εύρος στα δεξιά=ΕΝΑΜέγιστη(r,1ϵ)=ΜΕγώn(rΕΝΑ,(1ϵ)ΕΝΑ)
  ~  
Συνοψίζοντας: ορίζεται g ( ϵ , A ) g (έψιλον, Α)σολ(ϵ,ΕΝΑ)
g ( ϵ , A ) = { ( 1 + ϵ ) A A ≥ 0 ( 1 − ϵ ) AA &lt; 0 g(epsilon,A)=αριστερά{σωστά. σολ(ϵ,ΕΝΑ)={(1+ϵ)ΕΝΑ    (1ϵ)ΕΝΑΕΝΑ0ΕΝΑ<0
Εισαγάγετε την περιγραφή της εικόνας εδώ

Γιατί αυτός ο ορισμός εμποδίζει τη νέα στρατηγική να απομακρυνθεί πολύ από την παλιά στρατηγική;
Οι αποτελεσματικές μέθοδοι δειγματοληψίας απαιτούν νέες στρατηγικές π θ ( a ∣ s ) pi_theta(a|s)πθ(έναμικρό) και παλιές στρατηγικές π θ k ( a ∣ s ) pi_{theta_k}(a|s)πθκ(έναμικρό) Η διαφορά μεταξύ των δύο κατανομών δεν μπορεί να είναι πολύ μεγάλη

1. Όταν το πλεονέκτημα είναι θετικό

L ( s , a , θ k , θ ) = min ⁡ ( π θ ( a ∣ s ) π θ k ( a ∣ s ) , 1 + ϵ ) A π θ k ( s , a ) L(s,a, theta_k, theta)=minBigg(frac{pi_theta(a|s)}{pi_{theta_k}(a|s)}, 1+epsilonBigg)A^{pi_{theta_k}}(s, a)μεγάλο(μικρό,ένα,θκ,θ)=ελάχ(πθκ(έναμικρό)πθ(έναμικρό),1+ϵ)ΕΝΑπθκ(μικρό,ένα)
Συνάρτηση πλεονεκτήματος: Βρείτε ένα συγκεκριμένο ζεύγος κατάστασης-δράσης με περισσότερες ανταμοιβές -&gt; αυξήστε το βάρος του ζεύγους κατάστασης-δράσης.

Όταν ένα ζεύγος κατάστασης-δράσης ( s , a ) (s, a)(μικρό,ένα) είναι θετική, τότε εάν η ενέργεια ααένα είναι πιο πιθανό να εκτελεστεί, δηλ. αν π θ ( a ∣ s ) pi_theta(a|s)πθ(έναμικρό) Αυξήστε και ο στόχος θα αυξηθεί.
Το min σε αυτό το στοιχείο περιορίζει την αντικειμενική συνάρτηση να αυξάνεται μόνο σε μια συγκεκριμένη τιμή
μια φορά π θ ( a ∣ s ) &gt; ( 1 + ϵ ) π θ k ( a ∣ s ) pi_theta(a|s)&gt;(1+epsilon)pi_{theta_k}(a|s)πθ(έναμικρό)>(1+ϵ)πθκ(έναμικρό), min trigers, περιορίζοντας την τιμή αυτού του στοιχείου σε ( 1 + ϵ ) π θ k ( a ∣ s ) (1+έψιλον)pi_{theta_k}(a|s)(1+ϵ)πθκ(έναμικρό)
η νέα πολιτική δεν ωφελείται όταν απομακρύνεται πολύ από την παλιά πολιτική.
Η νέα στρατηγική δεν θα ωφεληθεί από την απομάκρυνση από την παλιά στρατηγική.

2. Όταν το πλεονέκτημα είναι αρνητικό

L ( s , a , θ k , θ ) = max ⁡ ( π θ ( a ∣ s ) π θ k ( a ∣ s ) , 1 − ϵ ) A π θ k ( s , a ) L(s,a, theta_k, theta)=maxBigg(frac{pi_theta(a|s)}{pi_{theta_k}(a|s)}, 1-epsilonBigg)A^{pi_{theta_k}}(s, a)μεγάλο(μικρό,ένα,θκ,θ)=Μέγιστη(πθκ(έναμικρό)πθ(έναμικρό),1ϵ)ΕΝΑπθκ(μικρό,ένα)

Όταν ένα ζεύγος κατάστασης-δράσης ( s , a ) (s, a)(μικρό,ένα) Το πλεονέκτημα είναι αρνητικό, τότε αν η δράση ααένα είναι ακόμη λιγότερο πιθανό, δηλαδή αν π θ ( a ∣ s ) π_theta(a|s)πθ(έναμικρό) μειωθεί, η αντικειμενική συνάρτηση θα αυξηθεί. Αλλά το μέγιστο σε αυτόν τον όρο περιορίζει πόσο μπορεί να αυξηθεί η αντικειμενική συνάρτηση.
μια φορά π θ ( a ∣ s ) &lt; ( 1 − ϵ ) π θ k ( a ∣ s ) pi_theta(a|s)&lt;(1-epsilon)pi_{theta_k}(a|s)πθ(έναμικρό)<(1ϵ)πθκ(έναμικρό), μέγιστοι κανόνες ετικέτας, περιορίζοντας την τιμή αυτού του στοιχείου σε ( 1 − ϵ ) π θ k ( a ∣ s ) (1-έψιλον)pi_{theta_k}(a|s)(1ϵ)πθκ(έναμικρό)

Και πάλι: η νέα πολιτική δεν ωφελείται όταν απομακρύνεται πολύ από την παλιά πολιτική.
Η νέα στρατηγική δεν θα ωφεληθεί από την απομάκρυνση από την παλιά στρατηγική.

TD3_μόνο συνεχόμενα: Twin Delayed Deep Deterministic Policy Gradient [ICML 2018 (Καναδάς) Πανεπιστήμιο McGill]

Εισαγάγετε την περιγραφή της εικόνας εδώ
Πηγή εικόνας

OpenAI Documentation_TD3
Σύνδεσμος από χαρτί

Ενώ το DDPG μπορεί μερικές φορές να επιτύχει εξαιρετική απόδοση, είναι συχνά ασταθές όταν πρόκειται για υπερπαραμέτρους και άλλους τύπους συντονισμού.
Ένας συνηθισμένος τρόπος αποτυχίας DDPG είναι ότι η εκμάθηση συνάρτησης Q αρχίζει να υπερεκτιμά σημαντικά την τιμή Q, η οποία στη συνέχεια προκαλεί τη διακοπή της πολιτικής επειδή εκμεταλλεύεται το σφάλμα στη συνάρτηση Q.
Το Twin Delayed DDPG (TD3) είναι ένας αλγόριθμος που λύνει αυτό το πρόβλημα εισάγοντας τρεις βασικές τεχνικές:
1、Περικομμένη διπλή Q-Learning

  • Το TD3 μαθαίνει δύο συναρτήσεις Q αντί για μία (εξ ου και το "δίδυμο") και χρησιμοποιεί τη μικρότερη από τις δύο τιμές Q για να σχηματίσει τον στόχο στη συνάρτηση απώλειας σφάλματος Bellman.

2、Καθυστέρηση ενημέρωσης πολιτικής

  • Το TD3 ενημερώνει την πολιτική (και το δίκτυο προορισμού) λιγότερο συχνά από τη συνάρτηση Q. Το έγγραφο συνιστά την ενημέρωση της πολιτικής κάθε φορά που η συνάρτηση Q ενημερώνεται δύο φορές.

3. Εξομάλυνση στρατηγικής στόχων.

  • Το TD3 προσθέτει θόρυβο στην ενέργεια στόχο, καθιστώντας δυσκολότερη την εκμετάλλευση σφαλμάτων στη συνάρτηση Q από την πολιτική, εξομαλύνοντας το Q σε όλες τις αλλαγές ενεργειών.

Το TD3 είναι ένας αλγόριθμος εκτός πολιτικής με τον οποίο μπορεί να χρησιμοποιηθεί μόνοσυνεχήςΤο περιβάλλον του χώρου δράσης.

Ψευδοκωδικός αλγόριθμου TD3

Εισαγάγετε την περιγραφή της εικόνας εδώ

Αλγόριθμος: TD3
Χρησιμοποιήστε τυχαίες παραμέτρους θ 1 , θ 2 , ϕ θήτα_1, θήτα_2, φιθ1,θ2,ϕ Αρχικοποίηση δικτύου κριτικών Q θ 1 , Q θ 2 Q_{theta_1},Q_{theta_2}Qθ1,Qθ2, και το δίκτυο ηθοποιών π ϕ pi_phiπϕ
Αρχικοποίηση δικτύου προορισμού θ 1 ′ ← θ 1 , θ 2 ′ ← θ 2 , ϕ ′ ← ϕ theta_1^primeleftarrowtheta_1, theta_2^primeleftarrowtheta_2, phi^primeleftarrow phiθ1θ1,θ2θ2,ϕϕ
Εκκίνηση σετ buffer αναπαραγωγής B cal Bσι
για t = 1 έως T {bf για}~t=1 ~{bf έως} ~TΓια t=1 προς την Τ
       ~~~~~~       Επιλέξτε δράση με θόρυβο εξερεύνησης a ∼ π ϕ ( s ) + ϵ , ϵ ∼ N ( 0 , σ ) asimpi_phi(s)+epsilon,~~epsilonsim {cal N}(0,sigma)έναπϕ(μικρό)+ϵ,  ϵΝ(0,σ), ανταμοιβή παρατήρησης rrr και νέο καθεστώς s 's^primeμικρό
       ~~~~~~       Η μεταβατική πλειάδα ( s , a , r , s ′ ) (s, a,r, s^prime)(μικρό,ένα,r,μικρό) κατάθεση σε B cal Bσι Μέσης
       ~~~~~~       από B cal Bσι Δειγματοληψία μικρών παρτίδων NNΝ μεταβάσεις ( s , a , r , s ′ ) (s, a, r, s^prime)(μικρό,ένα,r,μικρό)
a ~ ← π ϕ ′ ( s ′ ) + ϵ , ϵ ∼ κλιπ ( N ( 0 , σ ~ ) , − c , c ) ~~~~~~widetilde aleftarrow pi_{phi^prime}(s^prime)+ epsilon,~~epsilonsim{rm clip}({cal N}(0,widetilde sigma),-c,c)      ένα πϕ(μικρό)+ϵ,  ϵσυνδετήρας(Ν(0,σ ),ντο,ντο)
y ← r + γ min ⁡ i = 1 , 2 Q θ i ′ ( s ′ , a ~ ) ~~~~~~yleftarrow r+gamma minlimits_{i=1,2}Q_{theta_i^prime}(s^ prime,widetilde α)      yr+γΕγώ=1,2ελάχQθΕγώ(μικρό,ένα )
       ~~~~~~       Κριτικές ενημέρωσης θ i ← arg ⁡ min ⁡ θ i N − 1 ∑ ( y − Q θ i ( s , a ) ) 2 theta_ileftarrowargminims_{theta_i}N^{-1}sum(y-Q_{theta_i}(s, a) ^ 2θΕγώαρσολθΕγώελάχΝ1(yQθΕγώ(μικρό,ένα))2
       ~~~~~~        αν t % d {bf if}~t~ % ~dαν t % ρε
            ~~~~~~~~~~~            Ενημέρωση μέσω ντετερμινιστικής κλίσης πολιτικής ϕ phiϕ
∇ ϕ J ( ϕ ) = N − 1 ∑ ∇ a Q θ 1 ( s , a ) ∣ a = π ϕ ( s ) ∇ ϕ π ϕ ( s ) ~~~~~~~~~~~~~~ ~~~nabla _phi J(phi)=N^{-1}sumnabla_aQ_{theta_1}(s, a)|_{a=pi_phi(s)}nabla_phipi_phi(s)                 ϕJ(ϕ)=Ν1έναQθ1(μικρό,ένα)ένα=πϕ(μικρό)ϕπϕ(μικρό)
            ~~~~~~~~~~~            Ενημέρωση δικτύου στόχου:
θ i ′ ← τ θ i + ( 1 − τ ) θ i ′ ~~~~~~~~~~~~~~~~~theta_i^primeleftarrowtautheta_i+(1-tau)theta_i^prime~~~~~~                 θΕγώτθΕγώ+(1τ)θΕγώ      τ tauτ: Στόχος ο ρυθμός ενημέρωσης
ϕ ′ ← τ ϕ + ( 1 − τ ) ϕ ′ ~~~~~~~~~~~~~~~~~phi^primeleftarrowtauphi+(1-tau)phi^prime                 ϕτϕ+(1τ)ϕ
τέλος αν ~~~~~~{bf τέλος ~if}      τέλος αν
τέλος για {bf τέλος ~για}τέλος Για

Soft Actor-Critic: SAC_Continuous/Discrete Action Space [Google Brain τελευταία έκδοση 201906]

Εισαγάγετε την περιγραφή της εικόνας εδώ

Πηγή εικόνας

Μεγιστοποιήστε την εντροπία της πολιτικής, καθιστώντας έτσι την πολιτική πιο ισχυρή.

ντετερμινιστική στρατηγική Σημαίνει ότι με δεδομένη την ίδια κατάσταση, επιλέγετε πάντα την ίδια ενέργεια
στρατηγική τυχαίας Σημαίνει ότι υπάρχουν πολλές πιθανές ενέργειες που μπορούν να επιλεγούν σε μια δεδομένη κατάσταση.

ντετερμινιστική στρατηγικήστρατηγική τυχαίας
ορισμόςΊδια κατάσταση, εκτελέστε την ίδια ενέργειαίδια κατάσταση,Μπορεί να εκτελέσει διαφορετικές ενέργειες
πλεονέκτημαΣταθερό και επαναλαμβανόμενοΑποφύγετε να πέσετε σε τοπικές βέλτιστες λύσεις και βελτιώστε τις δυνατότητες παγκόσμιας αναζήτησης
έλλειψηΈλλειψη εξερευνησιμότητας και εύκολο να πιαστούν από τους αντιπάλουςΑυτό μπορεί να προκαλέσει αργή σύγκλιση της στρατηγικής, επηρεάζοντας την αποδοτικότητα και την απόδοση.

Στην πραγματική εφαρμογή, εάν το επιτρέπουν οι συνθήκες, θα το κάνουμεΠροσπαθήστε να χρησιμοποιήσετεστρατηγική τυχαίας, όπως A2C, PPO, κ.λπ., επειδή είναι πιο ευέλικτο, πιο στιβαρό και πιο σταθερό.

Η εκμάθηση ενίσχυσης της μέγιστης εντροπίας πιστεύει ότι, παρόλο που αυτή τη στιγμή έχουμε ώριμες στρατηγικές τυχαίας, δηλαδή αλγόριθμους όπως το AC, δεν έχουμε ακόμη επιτύχει τη βέλτιστη τυχαιότητα.Ως εκ τούτου, εισάγει αεντροπία πληροφοριώνέννοια, σεΜεγιστοποιήστε τη σωρευτική ανταμοιβή μεγιστοποιώντας ταυτόχρονα την εντροπία της πολιτικής, καθιστώντας τη στρατηγική πιο ισχυρή και επιτυγχάνοντας τη βέλτιστη στρατηγική τυχαιότητας.

——————————————————

—— OpenAI Documentation_SAC

Σύνδεσμος διεπαφής OpenAI Documentation_SAC
  ~  
Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor, Haarnoja et al, 201808 ICML 2018
Αλγόριθμοι και εφαρμογές Soft Actor-Critic, Haarnoja et al, 201901
Μαθαίνοντας να περπατάτε μέσω της Εκμάθησης Βαθιάς Ενίσχυσης, Haarnoja et al, 201906 RSS2019

Το Soft Actor Critic (SAC) βελτιστοποιεί τις τυχαίες στρατηγικές με τρόπο εκτός πολιτικής.

DDPG + στοχαστική βελτιστοποίηση στρατηγικής

Δεν είναι άμεσος διάδοχος του TD3 (κυκλοφόρησε περίπου την ίδια εποχή).

Ενσωματώνει το κομμένο κόλπο double-Q και λόγω της εγγενούς τυχαιότητας της στρατηγικής της SAC, επωφελείται επίσης απόεξομάλυνση της πολιτικής στόχου

Ένα βασικό χαρακτηριστικό του SAC είναι κανονικοποίηση εντροπίας κανονικοποίηση εντροπίας
Η πολιτική έχει εκπαιδευτεί για να μεγιστοποιεί την αντιστάθμιση μεταξύ της αναμενόμενης ανταμοιβής και της εντροπίας,Η εντροπία είναι ένα μέτρο της τυχαιότητας μιας πολιτικής
Αυτό συνδέεται στενά με την αντιστάθμιση μεταξύ εξερεύνησης και εκμετάλλευσης: η αύξηση της εντροπίας οδηγεί σεΠερισσότερα για εξερεύνηση,αυτό είναι εντάξειΕπιτάχυνση της μετέπειτα μάθησης .είναι εντάξειΑποτρέψτε την πρόωρη σύγκλιση της πολιτικής σε ένα κακό τοπικό βέλτιστο

Μπορεί να χρησιμοποιηθεί τόσο σε χώρο συνεχούς δράσης όσο και σε διακριτό χώρο δράσης.

υπάρχει Εντροπία-Regularized Reinforcement Learning, ο πράκτορας αποκτά καιΗ εντροπία της πολιτικής σε αυτό το χρονικό βήμαΑνάλογες ανταμοιβές.
Αυτή τη στιγμή το πρόβλημα RL περιγράφεται ως:

π ∗ = arg ⁡ max ⁡ π E τ ∼ π [ ∑ t = 0 ∞ γ t ( R ( st , at , st + 1 ) + α H ( π ( ⋅ ∣ st ) ) ] pi^*=argmaxlimits_pi υποσύνολο {tausimpi}{rm E}Big[sumlimits_{t=0}^inftygamma^tBig(R(s_t,a_t,s_{t+1})textcolor{blue}{+alpha H(pi(·|s_t))} Μεγάλο μεγάλο]π=αρσολπΜέγιστητπμι[t=0γt(R(μικρόt,έναt,μικρόt+1)+αH(π(μικρόt)))]

σε α &gt; 0 άλφα &gt; 0α>0 είναι ο συντελεστής αντιστάθμισης.
Συνάρτηση τιμής κατάστασης συμπεριλαμβανομένης της ανταμοιβής εντροπίας σε κάθε χρονικό βήμα V π V^piVπ Για:

V π ( s ) = E τ ∼ π [ ∑ t = 0 ∞ γ t ( R ( st , at , st + 1 ) + α H ( π ( ⋅ ∣ st ) ) ) ∣ s 0 = s ] V^pi (s)=underset{tausimpi}{rm E}Big[sumlimits_{t=0}^inftygamma^tBig(R(s_t,a_t,s_{t+1})+alpha H(pi(·|s_t))Big )Μεγάλο|s_0=sΜεγάλο]Vπ(μικρό)=τπμι[t=0γt(R(μικρόt,έναt,μικρόt+1)+αH(π(μικρόt))) μικρό0=μικρό]

Μια συνάρτηση τιμής ενέργειας που περιλαμβάνει την ανταμοιβή εντροπίας για κάθε χρονικό βήμα εκτός από το πρώτο χρονικό βήμα Q π Q^piQπ:

Q π ( s , a ) = E τ ∼ π [ ∑ t = 0 ∞ γ t ( R ( st , at , st + 1 ) + α ∑ t = 1 ∞ H ( π ( ⋅ ∣ st ) ) ∣ s 0 = s , a 0 = a ] Q^pi(s,a)=underset{tausimpi}{rm E}Big[sumlimits_{t=0}^inftygamma^tBig(R(s_t,a_t,s_{t+1 })+alpha sumlimits_{t=1}^infty H(pi(·|s_t))Big)Big|s_0=s,a_0=aBig]Qπ(μικρό,ένα)=τπμι[t=0γt(R(μικρόt,έναt,μικρόt+1)+αt=1H(π(μικρόt))) μικρό0=μικρό,ένα0=ένα]

  • μερικά χαρτιά Q π Q^piQπ Περιέχει την ανταμοιβή εντροπίας για το πρώτο βήμα

V π V^piVπ και Q π Q^piQπ Η σχέση μεταξύ είναι:

V π ( s ) = E a ∼ π [ Q π ( s , a ) ] + α H ( π ( ⋅ ∣ s ) ) V^pi(s)= underset{asimpi}{rm E}[Q^pi( s, a)]+άλφα H(pi(·|s))Vπ(μικρό)=έναπμι[Qπ(μικρό,ένα)]+αH(π(μικρό))

σχετικά με Q π Q^piQπ Ο τύπος Bellman είναι:

Q π ( s , a ) = E s ′ ∼ P a ′ ∼ π [ R ( s , a , s ′ ) + γ ( Q π ( s ′ , a ′ ) + α H ( π ( ⋅ ∣ s ′ ) ) ) ] = E s '∼ P [ R ( s , a , s ' ) + γ V π ( s ' ) ] Qπ(μικρό,ένα)=έναπμικρόΠμι[R(μικρό,ένα,μικρό)+γ(Qπ(μικρό,ένα)+αH(π(μικρό)))]=μικρόΠμι[R(μικρό,ένα,μικρό)+γVπ(μικρό)]

Η SAC μαθαίνει μια πολιτική ταυτόχρονα π θ π_θήταπθ και δύο QQQ λειτουργία Q ϕ 1 , Q ϕ 2 Q_{phi_1}, Q_{phi_2}Qϕ1,Qϕ2
Υπάρχουν επί του παρόντος δύο παραλλαγές του τυπικού SAC: η μία χρησιμοποιεί μια σταθερήΣυντελεστής τακτοποίησης εντροπίας α άλφαα, άλλο αλλάζοντας κατά τη διάρκεια της προπόνησης α άλφαα για την επιβολή περιορισμών εντροπίας.
Η τεκμηρίωση του OpenAI χρησιμοποιεί μια έκδοση με σταθερό συντελεστή τακτοποίησης εντροπίας, αλλά στην πράξη συχνά προτιμάταιπεριορισμός εντροπίαςπαραλαγή.

Όπως φαίνεται παρακάτω, στο α άλφαα Στη σταθερή έκδοση, εκτός από την τελευταία εικόνα που έχει εμφανή πλεονεκτήματα, οι άλλες έχουν μόνο ελαφρά πλεονεκτήματα, βασικά τα ίδια με α άλφαα Η έκδοση εκμάθησης παραμένει η ίδια ενώ βρίσκεστε α άλφαα Οι μεσαίες δύο εικόνες όπου η εκμάθηση έχει πλεονεκτήματα είναι πιο εμφανείς.

Εισαγάγετε την περιγραφή της εικόνας εδώ
Πηγή εικόνας

SAC VSTD3:
  ~  
Ίδιο σημείο:
1. Και οι δύο συναρτήσεις Q μαθαίνονται ελαχιστοποιώντας το MSBE (Μέσο τετράγωνο σφάλμα Bellman) με παλινδρόμηση σε έναν κοινό στόχο.
2. Χρησιμοποιήστε το δίκτυο στόχου Q για να υπολογίσετε τον κοινό στόχο και πραγματοποιήστε υπολογισμό του μέσου όρου πολυάκ στις παραμέτρους του δικτύου Q κατά τη διάρκεια της εκπαιδευτικής διαδικασίας για να αποκτήσετε το δίκτυο στόχου Q.
3. Ο κοινός στόχος χρησιμοποιεί την τεχνική του περικομμένου διπλού Q.
  ~  
διαφορά:
1. Το SAC περιέχει όρο κανονικοποίησης εντροπίας
2. Η επόμενη ενέργεια κατάστασης που χρησιμοποιείται στον στόχο SAC προέρχεται απόΤρέχουσα στρατηγική, αντί για τη στρατηγική στόχο.
3. Δεν υπάρχει σαφής στρατηγική στόχος για εξομάλυνση. Το TD3 εκπαιδεύει μια ντετερμινιστική πολιτική μέσω ενεργειών προς την επόμενη κατάστασηΠροσθέστε τυχαίο θόρυβο για να επιτευχθεί ομαλότητα. Το SAC εκπαιδεύει μια τυχαία πολιτική και ο θόρυβος από την τυχαιότητα είναι αρκετός για να επιτευχθούν παρόμοια αποτελέσματα.

Ψευδοκωδικός αλγόριθμου SAC

Εισαγάγετε την περιγραφή της εικόνας εδώ

Αλγόριθμος: Soft Actor-Critic SAC
εισαγω: θ 1 , θ 2 , ϕ theta_1,theta_2,phi~~~~~θ1,θ2,ϕ      Παράμετροι αρχικοποίησης
Αρχικοποίηση παραμέτρων:
       ~~~~~~       Αρχικοποίηση βαρών δικτύου στόχου: θ ˉ 1 ← θ 1 , θ ˉ 2 ← θ 2 bar theta_1lefttarrowtheta_1, bar theta_2leftarrowtheta_2θˉ1θ1,θˉ2θ2
       ~~~~~~       Η ομάδα αναπαραγωγής προετοιμάζεται ώστε να είναι άδεια: D ← ∅ {cal D}leftarrowemptysetρε
για {bf for}Για κάθε επανάληψη κάνω {bf do}κάνω
       ~~~~~~        για {bf for}Για Κάθε βήμα περιβάλλοντος κάνω {bf do}κάνω
            ~~~~~~~~~~~            Δείγματα ενεργειών από μια πολιτική: στο ∼ π ϕ ( στο ∣ st ) a_tsimpi_phi(a_t|s_t)~~~~~έναtπϕ(έναtμικρόt)      ▢Εδώ π ϕ (στο ∣ st ) pi_phi(a_t|s_t)πϕ(έναtμικρόt) Πώς να ορίσετε;
            ~~~~~~~~~~~            Δείγματα μεταβάσεων από το περιβάλλον: st + 1 ∼ p ( st + 1 ∣ st , at ) s_{t+1}sim p(s_{t+1}|s_t,a_t)μικρόt+1Π(μικρόt+1μικρόt,έναt)
            ~~~~~~~~~~~            Αποθηκεύστε τη μετάβαση στο χώρο συγκέντρωσης αναπαραγωγής: D ← D ∪ { ( st , at , r ( st , at ) , st + 1 ) } {cal D}lefttarrow{cal D}~ cup~{(s_t,a_t,r(s_t,a_t),s_{t +1})}ρερε  {(μικρόt,έναt,r(μικρόt,έναt),μικρόt+1)}
       ~~~~~~        τέλος για {bf τέλος ~για}τέλος Για
       ~~~~~~        για {bf for}Για Κάθε βήμα κλίσης κάνω {bf do}κάνω
            ~~~~~~~~~~~            ανανεώνω QQQ Παράμετροι συνάρτησης: για i ∈ { 1 , 2 } iin{1,2}Εγώ{1,2} θ i ← θ i − λ Q ∇ ^ θ i JQ ( θ i ) theta_ileftarrowtheta_i-lambda_Qhat nabla_{theta_i}J_Q(theta_i)~~~~~θΕγώθΕγώλQ^θΕγώJQ(θΕγώ)      ▢Εδώ JQ ( θ i ) J_Q(θήτα_ι)JQ(θΕγώ) Πώς να ορίσετε;
            ~~~~~~~~~~~            Ενημέρωση βαρών στρατηγικής: ϕ ← ϕ − λ π ∇ ^ ϕ J π ( ϕ ) phileftarrowphi-lambda_pihat nabla_phi J_pi (phi)~~~~~ϕϕλπ^ϕJπ(ϕ)      ▢Εδώ J π ( ϕ ) J_pi (phi)Jπ(ϕ) Πώς να ορίσετε;
            ~~~~~~~~~~~            Ρύθμιση θερμοκρασίας: α ← α − λ ∇ ^ α J ( α ) alphaleftarrowalpha-lambdahatnabla_alpha J(άλφα)~~~~~ααλ^αJ(α)      ▢Εδώ J ( α ) J(άλφα)J(α) Πώς να ορίσετε;Πώς να καταλάβετε τη θερμοκρασία εδώ;
            ~~~~~~~~~~~             Ενημέρωση βαρών δικτύου στόχου: για i ∈ { 1 , 2 } iin{1,2}Εγώ{1,2} θ ˉ i ← τ θ i − ( 1 − τ ) θ ˉ i bar theta_ileftarrow tau theta_i-(1-tau)bar theta_i~~~~~θˉΕγώτθΕγώ(1τ)θˉΕγώ      ▢ Πώς να το καταλάβετε αυτό τ tauτ ? ——&gt;Στόχος συντελεστής εξομάλυνσης
       ~~~~~~        τέλος για {bf τέλος ~για}τέλος Για
τέλος για {bf τέλος ~για}τέλος Για
Παραγωγή: θ 1 , θ 1 , ϕ theta_1,theta_1,phi~~~~~θ1,θ1,ϕ     Βελτιστοποιημένες παράμετροι

∇ ^ καπέλο nabla^: στοχαστική κλίση

$emptyset$ ∅ ~~~~άδειασμα    

Εισαγάγετε την περιγραφή της εικόνας εδώ

Εισαγάγετε την περιγραφή της εικόνας εδώ

Μαθαίνοντας να περπατάτε μέσω της Εκμάθησης Βαθιάς Ενίσχυσης Έκδοση σε:
  ~  
Εισαγάγετε την περιγραφή της εικόνας εδώ
Εισαγάγετε την περιγραφή της εικόνας εδώ
Εισαγάγετε την περιγραφή της εικόνας εδώ

α α α είναι η παράμετρος θερμοκρασίας, η οποία καθορίζει τη σχετική σημασία του όρου και της ανταμοιβής της εντροπίας, ελέγχοντας έτσι την τυχαιότητα της βέλτιστης στρατηγικής.
α άλφαα Μεγάλο: Εξερευνήστε
α άλφαα Μικρό: εκμεταλλεύομαι

J ( α ) = E σε ∼ π t [ − α log ⁡ π t ( στο ∣ st ) − α H ˉ ] J(άλφα)=υποσύνολο{a_tsimpi_t}{mathbb E}[-άλφαλογος pi_t(a_t|s_t)- αλφαβάρι{cal H}]J(α)=έναtπtμι[αιδούσολπt(έναtμικρόt)αHˉ]