[Deep Learning] Βασικές αρχές γραφικού μοντέλου (7): Μέθοδος μείωσης διακύμανσης στη βελτιστοποίηση μηχανικής μάθησης (1)

2024-07-12

Περίληψη

Η στοχαστική βελτιστοποίηση είναι ένα ζωτικό συστατικό της μηχανικής μάθησης και στον πυρήνα της βρίσκεται ο αλγόριθμος στοχαστικής διαβάθμισης (SGD), μια μέθοδος που έχει χρησιμοποιηθεί ευρέως από τότε που προτάθηκε για πρώτη φορά πριν από περισσότερα από 60 χρόνια. Τα τελευταία οκτώ χρόνια, γίναμε μάρτυρες μιας συναρπαστικής νέας εξέλιξης: τεχνικές μείωσης διασποράς για μεθόδους στοχαστικής βελτιστοποίησης. Αυτές οι μέθοδοι μείωσης της διακύμανσης (μέθοδοι VR) έχουν καλή απόδοση σε σενάρια που επιτρέπουν πολλαπλές επαναλήψεις των δεδομένων εκπαίδευσης, παρουσιάζοντας ταχύτερη σύγκλιση από το SGD, τόσο στη θεωρία όσο και στην πράξη. Αυτή η αύξηση της ταχύτητας υπογραμμίζει το αυξανόμενο ενδιαφέρον για τις μεθόδους VR και το ταχέως συσσωρευμένο ερευνητικό αποτέλεσμα σε αυτόν τον τομέα. Αυτό το άρθρο εξετάζει βασικές αρχές και σημαντικές προόδους στις μεθόδους VR για βελτιστοποίηση περιορισμένων συνόλων δεδομένων, με στόχο να ενημερώσει τους μη ειδικούς αναγνώστες. Εστιάζουμε κυρίως σε κυρτά περιβάλλοντα βελτιστοποίησης και παρέχουμε μια αναφορά σε αναγνώστες που ενδιαφέρονται για επεκτάσεις ελαχιστοποίησης μη κυρτών συναρτήσεων.

Λέξεις κλειδιά Μείωση διακύμανσης

1. Εισαγωγή

Στον τομέα της έρευνας μηχανικής μάθησης, ένα βασικό και σημαντικό ζήτημα είναι ο τρόπος προσαρμογής του μοντέλου σε ένα τεράστιο σύνολο δεδομένων. Για παράδειγμα, μπορούμε να εξετάσουμε την τυπική περίπτωση ενός γραμμικού μοντέλου ελαχίστων τετραγώνων:

$x^* σε argmin_{x σε mathbb{R}^d} frac{1}{n} sum_{ i=1}^{n} (a_i^T x - b_i)^2$

Σε αυτό το μοντέλο έχουμε $ρε$ παραμέτρους, οι οποίες αντιπροσωπεύονται από διανύσματα $mathbb{R}^d$ δεδομένος.Στο μεταξύ, έχουμε σε ετοιμότητα $n$ σημεία δεδομένων, συμπεριλαμβανομένων των διανυσμάτων χαρακτηριστικών $a_i στο mathbb{R}^d$ και την τιμή στόχο $b_i στο mathbb{R}$ .Η διαδικασία προσαρμογής του μοντέλου είναι να προσαρμόσει αυτές τις παραμέτρους έτσι ώστε το προβλεπόμενο αποτέλεσμα του μοντέλου $a_i^T x$ κατά μέσο όρο όσο το δυνατόν πιο κοντά στην τιμή στόχο $b_i$ 。

Γενικότερα, μπορεί να χρησιμοποιήσουμε μια συνάρτηση απώλειας $f_i(x)$ Για να μετρήσετε τις προβλέψεις του μοντέλου και το $Εγώ$ Πόσο κοντά είναι τα σημεία δεδομένων:

$x^* σε argmin_{x σε mathbb{R}^d} f(x) := frac{1 }{n} sum_{i=1}^{n} f_i(x)$

λειτουργία απώλειας $f_i(x)$ Εάν είναι μεγαλύτερο, υποδηλώνει ότι οι προβλέψεις του μοντέλου αποκλίνουν πολύ από τα δεδομένα εάν $f_i(x)$ Ίσο με μηδέν, το μοντέλο ταιριάζει απόλυτα στα σημεία δεδομένων.λειτουργία $φά (Χ)$ Αντικατοπτρίζει τη μέση απώλεια του μοντέλου σε ολόκληρο το σύνολο δεδομένων.

Προβλήματα όπως η φόρμα (2) παραπάνω ισχύουν όχι μόνο για προβλήματα γραμμικών ελαχίστων τετραγώνων, αλλά και σε πολλά άλλα μοντέλα που μελετώνται στη μηχανική μάθηση. Για παράδειγμα, σε ένα μοντέλο λογιστικής παλινδρόμησης λύνουμε για:

$x^* σε argmin_{x σε mathbb{R} d} frac{1}{n} sum_{i=1}^{n} log(1 + e^{-b_i a_i^T x}) + frac{lambda}{2} |x|_2^2$

Εδώ, έχουμε να κάνουμε με $b_i σε {-1, +1}$ Για ένα πρόβλημα δυαδικής ταξινόμησης, η πρόβλεψη βασίζεται σε $a_i^T x$ σύμβολα.Ένας όρος τακτοποίησης εισάγεται επίσης στον τύπο $|x|_2^2$ για να αποφευχθεί η υπερβολική προσαρμογή των δεδομένων, όπου $x|_2^2$ εξπρές $Χ$ Το τετράγωνο της Ευκλείδειας νόρμας του .

Στα περισσότερα εποπτευόμενα μοντέλα μάθησης, η διαδικασία εκπαίδευσης μπορεί να εκφραστεί ως μορφή (2), συμπεριλαμβανομένων των κανονικοποιημένων ελαχίστων τετραγώνων L1, της μηχανής διανυσμάτων υποστήριξης (SVM), της ανάλυσης κύριων συστατικών, των τυχαίων πεδίων υπό όρους και των βαθιών νευρωνικών δικτύων κ.λπ.

Μια βασική πρόκληση στις σύγχρονες περιπτώσεις προβλημάτων είναι ο αριθμός των σημείων δεδομένων $n$ Πιθανώς εξαιρετικά μεγάλο. Συχνά ασχολούμαστε με σύνολα δεδομένων που ξεπερνούν κατά πολύ το εύρος των terabyte και μπορούν να προέρχονται από διαφορετικές πηγές όπως το Διαδίκτυο, οι δορυφόροι, οι απομακρυσμένοι αισθητήρες, οι χρηματοοικονομικές αγορές και τα επιστημονικά πειράματα. Για να αντιμετωπίσουμε τόσο μεγάλα σύνολα δεδομένων, μια κοινή προσέγγιση είναι η χρήση του αλγόριθμου στοχαστικής διαβάθμισης (SGD), ο οποίος χρησιμοποιεί μόνο έναν μικρό αριθμό τυχαία επιλεγμένων σημείων δεδομένων σε κάθε επανάληψη. Επιπλέον, υπήρξε μια απότομη αύξηση πρόσφατα στο ενδιαφέρον για τις μεθόδους στοχαστικής κλίσης μείωσης διακύμανσης (VR), οι οποίες έχουν ταχύτερους ρυθμούς σύγκλισης από τις παραδοσιακές μεθόδους στοχαστικής κλίσης.
Εισαγάγετε την περιγραφή της εικόνας εδώ
Σχήμα 1. Σχετικά με το πρόβλημα λογιστικής παλινδρόμησης που βασίζεται στο σύνολο δεδομένων των μανιταριών [7], η μέθοδος gradient descent (GD), accelerated gradient descent (AGD, accelerated GD in [50]), στοχαστική κλίση κάθοδος (SGD) και ADAM [30] σε σύγκριση με τις μεθόδους μείωσης διακύμανσης (VR) SAG και SVRG, όπου n = 8124, d = 112.

1.1 Μέθοδοι κλίσης και στοχαστικής κλίσης

Το Gradient descent (GD) είναι ένας κλασικός αλγόριθμος που χρησιμοποιείται για την επίλυση του παραπάνω προβλήματος (2) και ο επαναληπτικός τύπος ενημέρωσης είναι ο ακόλουθος:
$x_{k+1} = x_k - frac γάμμα{1}{n} sum_{i=1}^{n} nabla f_i(x_k )$

εδώ, $γ$ είναι μια σταθερή τιμή βήματος μεγαλύτερη από το μηδέν.Κατά τη διάρκεια κάθε επανάληψης του αλγορίθμου GD, κάθε σημείο δεδομένων πρέπει να είναι $Εγώ$ Υπολογίστε την κλίση $f_i(x_k)$ , που σημαίνει ότι το GD απαιτεί όλα $n$ εκτελέστε μια πλήρη διέλευση σημείων δεδομένων.Όταν το μέγεθος του συνόλου δεδομένων $n$ Όταν γίνεται πολύ μεγάλο, το κόστος κάθε επανάληψης του αλγορίθμου GD γίνεται πολύ υψηλό, περιορίζοντας έτσι την εφαρμογή του.

Ως εναλλακτική, μπορούμε να εξετάσουμε τη μέθοδο στοχαστικής κλίσης κατάβασης (SGD), η οποία προτάθηκε για πρώτη φορά από τους Robbins και Monro και ο επαναληπτικός τύπος ενημέρωσης είναι ο ακόλουθος:
$x_{k+1} = x_k - gamma nabla f_{i_k}(x_k)$

Ο αλγόριθμος SGD λειτουργεί χρησιμοποιώντας μόνο τη διαβάθμιση ενός τυχαία επιλεγμένου σημείου δεδομένων σε κάθε επανάληψη. $f_{i_k}(x_k)$ για να μειώσετε το κόστος κάθε επανάληψης. Στο Σχήμα 1, μπορούμε να δούμε ότι το SGD επιτυγχάνει πιο σημαντική πρόοδο από το GD (συμπεριλαμβανομένων των μεθόδων επιταχυνόμενης GD) στα αρχικά στάδια της διαδικασίας βελτιστοποίησης.Το γράφημα δείχνει την πρόοδο της βελτιστοποίησης ως προς τις εποχές, οι οποίες ορίζονται ως ο υπολογισμός όλων $n$ Ο αριθμός των κλίσεων για τα δείγματα εκπαίδευσης. Ο αλγόριθμος GD εκτελεί μία επανάληψη σε κάθε γύρο, ενώ ο αλγόριθμος SGD εκτελεί μία επανάληψη σε κάθε γύρο $n$ επαναλήψεις.Χρησιμοποιούμε γύρους ως βάση για τη σύγκριση των SGD και GD, επειδή υπό την υπόθεση $n$ Σε πολύ μεγάλες περιπτώσεις, το κύριο κόστος και των δύο μεθόδων συγκεντρώνεται στην κλίση $f_i(x_k)$ υπολογισμός.

1.2 Πρόβλημα διακύμανσης

Ας εξετάσουμε την τυχαία ευρετηρίαση $i_k$ από τη συλλογή ${1, \dots, n}$ Στην περίπτωση της ομοιόμορφης τυχαίας επιλογής, αυτό σημαίνει ότι για όλους $Εγώ$ ,επιλέγω $i_k = i$ Η πιθανότητα $P[i_k = i]$ ίσος $1 n frac{1}{n}$ . σε αυτήν την περίπτωση, $f_{i_k}(x_k)$ όπως και $f(x_k)$ Ο εκτιμητής είναι αμερόληπτος επειδή, με τον ορισμό της προσδοκίας, έχουμε:
$f_{i_k}(x_k) | x_k] = frac{1}{n} sum_{i=1}^{n} nabla f_i(x_k) = nabla f(x_k) quad (6)$

Αν και η μέθοδος SGD (Stochastic Gradient Descent) δεν εγγυάται τη συνάρτηση σε κάθε επανάληψη $φά$ Η τιμή του θα μειώνεται, αλλά κατά μέσο όρο κινείται προς την αρνητική πλήρη κλίση, η οποία αντιπροσωπεύει την καθοδική κατεύθυνση.

Ωστόσο, η ύπαρξη ενός αμερόληπτου εκτιμητή κλίσης δεν αρκεί για να διασφαλιστεί η σύγκλιση των επαναλήψεων SGD. Για να επεξηγήσει αυτό το σημείο, το σχήμα 2 (αριστερά) δείχνει την επαναληπτική τροχιά του SGD κατά την εφαρμογή μιας συνάρτησης λογιστικής παλινδρόμησης χρησιμοποιώντας ένα σταθερό μέγεθος βήματος στο σύνολο δεδομένων τεσσάρων κατηγοριών που παρέχεται από το LIBSVM [7].Οι ομόκεντρες ελλείψεις στο σχήμα αντιπροσωπεύουν τα περιγράμματα της συνάρτησης, δηλαδή την τιμή της συνάρτησης $φά (Χ) = ντο$ αντίστοιχο σημείο $Χ$ μαζεύω, $ντο$ είναι μια συγκεκριμένη σταθερά στο σύνολο των πραγματικών αριθμών.διαφορετικές σταθερές τιμές $ντο$ Αντιστοιχεί σε διαφορετικές ελλείψεις.

Η επαναληπτική τροχιά του SGD δεν συγκλίνει στη βέλτιστη λύση (που υποδεικνύεται από έναν πράσινο αστερίσκο στο σχήμα), αλλά σχηματίζει ένα σύννεφο σημείου γύρω από τη βέλτιστη λύση. Αντίθετα, δείχνουμε στο σχήμα 2 την επαναληπτική τροχιά μιας μεθόδου μείωσης διακύμανσης (VR), στοχαστική μέση κλίση (SAG), χρησιμοποιώντας το ίδιο σταθερό μέγεθος βήματος, το οποίο θα παρουσιάσουμε αργότερα. Ο λόγος που το SGD αποτυγχάνει να συγκλίνει σε αυτό το παράδειγμα είναι ότι η ίδια η στοχαστική κλίση δεν συγκλίνει στο μηδέν, και επομένως, η μέθοδος SGD σταθερού βήματος (5) δεν σταματά ποτέ.Αυτό έρχεται σε έντονη αντίθεση με τις μεθόδους gradient descent (GD), οι οποίες φυσικά σταματούν ως $x_k$ Προσεγγίσεις $x^*$ ,βαθμίδα $f(x_k)$ θα τείνει στο μηδέν.
Εισαγάγετε την περιγραφή της εικόνας εδώ
Σχήμα 2. Διαγράμματα συνόλου επιπέδων για δισδιάστατη λογιστική παλινδρόμηση χρησιμοποιώντας επαναληπτικές μεθόδους SGD σταθερού βήματος (αριστερά) και SAG (δεξιά). Ο πράσινος αστερίσκος δείχνει xλύνω.

1.3 Κλασική μέθοδος μείωσης διασποράς

επεξεργασία λόγω $f_i(x_k)$ Υπάρχουν αρκετές κλασικές τεχνικές για προβλήματα μη σύγκλισης που προκαλούνται από τη διακύμανση των τιμών.Για παράδειγμα, οι Robbins και Monro [64] χρησιμοποιούν μια σειρά από φθίνοντα βήματα $gamma_k$ για την επίλυση του προβλήματος της διακύμανσης, διασφαλίζοντας ότι το προϊόν $gamma_k nabla f_{i_k}(x_k)$ μπορεί να συγκλίνει στο μηδέν. Ωστόσο, η προσαρμογή αυτής της ακολουθίας βημάτων μείωσης για να αποφευχθεί η διακοπή του αλγορίθμου πολύ νωρίς ή πολύ αργά είναι ένα δύσκολο πρόβλημα.

Μια άλλη κλασική τεχνική για τη μείωση της διακύμανσης είναι η χρήση πολλαπλών $f_i(x_k)$ μέσο όρο για να αποκτήσετε την πλήρη κλίση $\nabla φά (Χ)$ ακριβέστερη εκτίμηση. Αυτή η προσέγγιση ονομάζεται minibatch και είναι ιδιαίτερα χρήσιμη όταν πολλαπλές κλίσεις μπορούν να αξιολογηθούν παράλληλα. Αυτό έχει ως αποτέλεσμα μια επανάληψη της φόρμας:
$x_{k+1} = x_k - frac γάμμα{1}{|B_k|} sum_{i σε B_k} nabla f_i(x_k) quad (7)$
σε $Β_κ$ είναι ένα τυχαίο σύνολο δεικτών, $B_k|$ εξπρές $Β_κ$ το μέγεθος του.αν $Β_κ$ Ομοιόμορφη δειγματοληψία με αντικατάσταση, τότε η διακύμανση αυτής της εκτίμησης κλίσης σχετίζεται με το "μέγεθος παρτίδας" $B_k|$ είναι αντιστρόφως ανάλογη, επομένως η διακύμανση μπορεί να μειωθεί αυξάνοντας το μέγεθος της παρτίδας.

Ωστόσο, το κόστος τέτοιων επαναλήψεων είναι ανάλογο με το μέγεθος της παρτίδας, επομένως αυτή η μορφή μείωσης της διακύμανσης έχει κόστος αυξημένου υπολογιστικού κόστους.

Μια άλλη κοινή στρατηγική για τη μείωση της διακύμανσης και τη βελτίωση της εμπειρικής απόδοσης του SGD είναι η προσθήκη "ορμής", ένας επιπλέον όρος που βασίζεται στην κατεύθυνση που χρησιμοποιήθηκε σε προηγούμενα βήματα. Ειδικότερα, η μορφή του SGD με ορμή έχει ως εξής:
$x_{k+1} = x_k - γάμμα m_k τετραπλό (9)$
όπου η παράμετρος ορμής $β$ Βρίσκεται στην περιοχή (0, 1).Αν η αρχική ορμή $m_0 = 0$ , και επέκταση σε (8) $m_k$ Για ενημερώσεις, λαμβάνουμε $m_k$ είναι ο σταθμισμένος μέσος όρος των προηγούμενων κλίσεων:
$m_k = sum_{t=0}^{k} beta^{kt} nabla f_{i_t}(x_t) quad (10)$
επομένως, $m_k$ είναι το σταθμισμένο άθροισμα των στοχαστικών κλίσεων.επειδή $sum_{t=0}^{k} beta^{kt} = frac{1 - βήτα^{k+1}}{1 - βήτα}$ , μπορούμε να μετατρέψουμε $beta^k} m_k$ Θεωρείται ως σταθμικός μέσος όρος στοχαστικών κλίσεων.Αν το συγκρίνουμε με την έκφραση για την πλήρη κλίση $f(x_k) = frac{1}{n} sum_{i=1}^{n} nabla f_i(x_k)$ Για να συγκρίνουμε, μπορούμε $beta^k} m_k$ (καθώς $m_k$ ) ερμηνεύεται ως εκτίμηση της πλήρους κλίσης. Αν και αυτό το σταθμισμένο άθροισμα μειώνει τη διακύμανση, εγείρει επίσης βασικά ζητήματα.Εφόσον το σταθμισμένο άθροισμα (10) δίνει μεγαλύτερη βαρύτητα στις πρόσφατες κλίσεις του δείγματος, δεν θα συγκλίνει στην πλήρη κλίση $f(x_k)$ , το τελευταίο είναι ένας απλός μέσος όρος. Η πρώτη μέθοδος μείωσης της διακύμανσης που θα δούμε στην Ενότητα ΙΙ-Α λύνει αυτό το πρόβλημα χρησιμοποιώντας έναν απλό μέσο όρο αντί για οποιοδήποτε σταθμισμένο μέσο όρο.

1.4 Σύγχρονες μέθοδοι μείωσης διασποράς

Σε αντίθεση με τις κλασικές μεθόδους, χρησιμοποιούν απευθείας μία ή περισσότερες $f_i(x_k)$ όπως και $f(x_k)$ Κατά προσέγγιση, οι σύγχρονες μέθοδοι μείωσης διασποράς (VR) χρησιμοποιούν διαφορετική στρατηγική.Αυτές οι μέθοδοι χρησιμοποιούν $f_i(x_k)$ για να ενημερώσετε την εκτίμηση κλίσης $g_k$ , στόχος του οποίου είναι να κάνει $g_k$ πλησιάζοντας $f(x_k)$ .Συγκεκριμένα ελπίζουμε $g_k$ ικανός να ικανοποιήσει $g_k περίπου nabla f(x_k)$ . Με βάση τέτοιες εκτιμήσεις κλίσης, εκτελούμε στη συνέχεια ένα κατά προσέγγιση βήμα κλίσης της φόρμας:
$x_{k+1} = x_k - γάμμα g_k τετραπλό (11)$
εδώ $γ > 0$ είναι η παράμετρος μεγέθους βήματος.

Για να διασφαλιστεί ότι χρησιμοποιείται σταθερό μέγεθος βήματος $γ$ Όταν η επανάληψη (11) μπορεί να συγκλίνει, πρέπει να διασφαλίσουμε ότι η εκτίμηση της κλίσης $g_k$ Η διακύμανση τείνει στο μηδέν. Μαθηματικά, αυτό μπορεί να εκφραστεί ως:
$g_k - nabla f(x_k) |^2 δεξιά] δεξιό βέλος 0 τετραπλό κείμενο{ως } k δεξιό βέλος infty quad (12)$
προσδοκίες εδώ $μι$ βασίζεται στον αλγόριθμο μέχρι το $κ$ Όλες οι τυχαίες μεταβλητές υπολογίζονται για επαναλήψεις. Η ιδιότητα (12) διασφαλίζει ότι η μέθοδος VR μπορεί να σταματήσει όταν επιτευχθεί η βέλτιστη λύση. Θεωρούμε αυτή την ιδιότητα ως χαρακτηριστικό γνώρισμα της προσέγγισης VR και επομένως την αποκαλούμε ιδιότητα VR. Αξίζει να σημειωθεί ότι η έκφραση «μειωμένη» διακύμανση μπορεί να είναι παραπλανητική, γιατί στην πραγματικότητα η διακύμανση τείνει στο μηδέν. Η ιδιότητα (12) είναι ένας βασικός παράγοντας που επιτρέπει στις μεθόδους VR να επιτύχουν ταχύτερη σύγκλιση στη θεωρία (υπό κατάλληλες υποθέσεις) και στην πράξη (όπως φαίνεται στο Σχήμα 1).

1.5 Πρώτο παράδειγμα μεθόδου μείωσης διακύμανσης: SGD²

Μια απλή μέθοδος βελτίωσης μπορεί να κάνει τον αναδρομικό τύπο SGD (5) να επιτύχει σύγκλιση χωρίς να μειώσει το μέγεθος του βήματος, δηλαδή να μεταφράσει κάθε κλίση Η συγκεκριμένη μέθοδος είναι η αφαίρεση $f_i(x^*)$ , αυτή η μέθοδος ορίζεται ως εξής:
$x_{k+1} = x_k - γάμμα (nabla f_{i_k}(x_k) - nabla f_{i_k}( x^*)) τετραπλό (13)$
Αυτή η μέθοδος ονομάζεται SGD² [22].Αν και συνήθως δεν μπορούμε να γνωρίζουμε με βεβαιότητα κάθε $f_i(x^*)$ , αλλά το SGD², για παράδειγμα, μπορεί να επεξηγήσει καλά τα βασικά χαρακτηριστικά της μεθόδου μείωσης της διακύμανσης.Επιπλέον, πολλές μέθοδοι μείωσης της διακύμανσης μπορούν να θεωρηθούν ως μια κατά προσέγγιση μορφή της μεθόδου SGD² αυτές οι μέθοδοι δεν βασίζονται στα γνωστά $f_i(x^*)$ , αλλά αντίθετα χρησιμοποιήστε μια μέθοδο που μπορεί να γίνει κατά προσέγγιση $f_i(x^*)$ εκτιμώμενη αξία.

Αξίζει να σημειωθεί ότι το SGD² χρησιμοποιεί μια αμερόληπτη εκτίμηση της πλήρους κλίσης.επειδή $f(x^*) = 0$ ,ΦΑ:
$f_{i_k}(x_k) - nabla f_{i_k} (x^*)] = νάμπλα f(x_k) - νάμπλα f(x^*) = νάμπλα f(x_k)$
Επιπλέον, όταν το SGD² φτάσει στη βέλτιστη λύση, φυσικά θα σταματήσει γιατί για οποιαδήποτε $Εγώ$ ,έχω:
$f_i(x) - nabla f_i(x^*)) big|_{x=x^*} = 0$

Κατόπιν περαιτέρω παρατήρησης, με $x_k$ κοντά $x^*$ (για συνεχόμενα $f_i$ ), το SGD² ικανοποιεί την ιδιότητα μείωσης διασποράς (12) επειδή:
$g_k - nabla f(x_k) |^2 δεξιά] = \Αριστερά[ | nabla f_{i_k}(x_k) - nabla f_{i_k}(x^*) - nabla f(x_k) |^2 δεξιά] leq Eleft[ | nabla f_{i_k}(x_k) - nabla f_{i_k}(x^*) |^2 δεξιά]$
Εδώ χρησιμοποιούμε Lemma 2, let $f_{i_k}(x_k) - nabla f_{i_k}(x^*)$ , και εκμεταλλεύτηκε $f_{i_k}(x_k) - nabla f_{i_k}(x^*)] = nabla f(x_k)$ φύση. Αυτή η ιδιότητα υποδεικνύει ότι το SGD² έχει μεγαλύτερη ταχύτητα σύγκλισης από τις παραδοσιακές μεθόδους SGD, τις οποίες έχουμε αναλυτικά στο Παράρτημα Β.

1.6 Μέθοδος ταχείας σύγκλισης της μείωσης της διακύμανσης

Σε αυτήν την ενότητα θα εισαγάγουμε δύο τυπικές παραδοχές που χρησιμοποιούνται για την ανάλυση της μεθόδου μείωσης της διακύμανσης (VR) και θα συζητήσουμε το αποτέλεσμα επιτάχυνσης που μπορεί να επιτευχθεί με αυτές τις παραδοχές σε σύγκριση με την παραδοσιακή μέθοδο SGD. Πρώτον, υποθέτουμε ότι η κλίση έχει συνέχεια Lipschitz, που σημαίνει ότι ο ρυθμός μεταβολής της κλίσης είναι πεπερασμένος.

Υπόθεση 1 (Συνέχεια Lipschitz)

Υποθέτουμε ότι η συνάρτηση $φά$ είναι διαφοροποιήσιμο και είναι $μεγάλο$ - ομαλή, για όλους $Χ$ και $y$ και κάποιος $0 < μεγάλο < \infty$ ,Οι παρακάτω προϋποθέσεις:
$∥\nabla φά (Χ) - \nabla φά (y) ∥ \leq μεγάλο ∥ Χ - y ∥ (14)$
Αυτό σημαίνει ότι κάθε $mathbb{R}^d δεξιό βέλος mathbb{R}$ είναι διαφοροποιήσιμο, $L_i$ - ομαλή, ορίζουμε $L_{text{max}}$ Για $μέγ.{L_1, . . . , L_n}$ 。

Αν και αυτό θεωρείται γενικά μια αδύναμη υπόθεση, στα επόμενα κεφάλαια θα συζητήσουμε μεθόδους VR που είναι κατάλληλες για μη ομαλά προβλήματα. Για μια διπλά διαφοροποιήσιμη μονομεταβλητή συνάρτηση, $μεγάλο$ -Η ομαλότητα μπορεί να κατανοηθεί διαισθητικά ως: ισοδυναμεί με την υπόθεση ότι η δεύτερη παράγωγος είναι $μεγάλο$ ανώτατο όριο, δηλαδή $∣ φά^{''} (Χ) ∣ \leq μεγάλο$ για όλα $mathbb{R}^d$ .Για δύο διαφοροποιήσιμες συναρτήσεις πολλαπλών μεταβλητών, είναι ισοδύναμο με την υπόθεση Hessian matrix $nabla^2 f(x)$ Η μοναδική τιμή του $μεγάλο$ ανώτατο όριο.

Υπόθεση 2 (ισχυρή κυρτότητα)

Η δεύτερη υπόθεση που θεωρούμε είναι ότι η συνάρτηση (f) είναι $μ$ -Έντονα κυρτό, που σημαίνει ότι για ένα ορισμένο $μ > 0$ ,λειτουργία $frac{mu}{2}|x|^2$ Είναι κυρτό.Επιπλέον, για κάθε $Εγώ = 1, ..., n$ ， $mathbb{R}^d δεξιό βέλος mathbb{R}$ Είναι κυρτό.

Αυτή είναι μια ισχυρή υπόθεση.Στο πρόβλημα των ελαχίστων τετραγώνων, το καθένα (fi$ είναι κυρτό, αλλά η συνολική συνάρτηση (f) βρίσκεται μόνο στον πίνακα σχεδίασης $[a_1, . . . , a_n]$ Είναι έντονα κυρτό μόνο αν έχει πλήρη σειρά σειράς. Το πρόβλημα κανονικοποιημένης λογιστικής παλινδρόμησης L2 ικανοποιεί αυτήν την υπόθεση λόγω της ύπαρξης του όρου κανονικοποίησης, όπου $μ \geq λ$ 。

Μια σημαντική κατηγορία προβλημάτων που ικανοποιούν αυτές τις παραδοχές είναι τα προβλήματα βελτιστοποίησης της μορφής:
$x^* σε argmin_{x σε mathbb{R }^d} f(x) = frac{1}{n} sum_{i=1}^{n} ell_i(a_i^Tx) + frac{lambda}{2}|x|^2 quad (15)$
όπου κάθε συνάρτηση «απώλειας». $ell_i: mathbb{R} δεξιό βέλος mathbb{R}$ είναι δύο φορές διαφοροποιήσιμο και η δεύτερη παράγωγός του $ell_i''$ περιορίζεται στο 0 και σε κάποιο άνω όριο $Μ$ μεταξύ. Αυτό περιλαμβάνει μια ποικιλία συναρτήσεων απώλειας με κανονικοποίηση L2 στη μηχανική μάθηση, όπως τα ελάχιστα τετράγωνα, η λογιστική παλινδρόμηση, η παλινδρόμηση probit, η ισχυρή παλινδρόμηση Huber κ.λπ.Σε αυτή την περίπτωση, για όλους $Εγώ$ ,Εχουμε $L_i leq M|a_i|^2 + λάμδα$ και $μ \geq λ$ 。

Σύμφωνα με αυτές τις παραδοχές, ο ρυθμός σύγκλισης της μεθόδου gradient descent (GD) καθορίζεται από τον αριθμό συνθήκης $κ := μεγάλο / μ$ Αποφασίζω. Ο αριθμός συνθήκης είναι πάντα μεγαλύτερος ή ίσος με 1 και όταν είναι σημαντικά μεγαλύτερος από 1, τα περιγράμματα της συνάρτησης γίνονται πολύ ελλειπτικά, προκαλώντας την ταλάντωση των επαναλήψεων της μεθόδου GD.Αντίθετα, όταν $κ$ Όταν είναι κοντά στο 1, η μέθοδος GD συγκλίνει πιο γρήγορα.

Στις παραδοχές 1 και 2, η μέθοδος VR συγκλίνει με γραμμικό ρυθμό.Λέμε ότι η τιμή της συνάρτησης μιας τυχαίας μεθόδου ({f(x_k)}) δίνεται από $0 < ρ \leq 1$ Ο ρυθμός γραμμικής σύγκλισης (υπό προσδοκία), εάν υπάρχει σταθερά $ντο > 0$ Κάνει:
$E[f(x_k)] - f(x^* ) leq (1 - rho)^k C = O(exp(-krho)) quad forall k quad (16)$
Αυτό έρχεται σε αντίθεση με τις κλασσικές μεθόδους SGD που βασίζονται μόνο σε αμερόληπτες εκτιμήσεις της κλίσης σε κάθε επανάληψη, οι οποίες λαμβάνουν μόνο υπογραμμικούς ρυθμούς υπό αυτές τις παραδοχές:
$E[f(x_k)] - f(x^*) leq O(1/k)$
Το ελάχιστο που ικανοποιεί αυτή την ανισότητα $κ$ Ονομάζεται επαναληπτική πολυπλοκότητα του αλγορίθμου. Τα ακόλουθα είναι η επαναληπτική πολυπλοκότητα και το κόστος μιας επανάληψης για βασικές παραλλαγές των μεθόδων GD, SGD και VR:

αλγόριθμος	Αριθμός επαναλήψεων	κόστος μιας επανάληψης
GD	$Ο (κ ιδού σολ (1/ ϵ))$	$Ο (n)$
SGD	$O(kappa_{text{max}} max(1/epsilon))$	$Ο (1)$
VR	$O((kappa_{text{max}} + n) log(1/epsilon))$	$Ο (1)$

Ο συνολικός χρόνος εκτέλεσης ενός αλγορίθμου καθορίζεται από το γινόμενο της πολυπλοκότητας της επανάληψης και του χρόνου εκτέλεσης της επανάληψης.χρησιμοποιείται εδώ $kappa_{text{max}} := max_i L_i/mu$ .Ειδοποίηση $kappa_{text{max}} geq kappa$ Επομένως, η πολυπλοκότητα της επανάληψης της GD είναι μικρότερη από αυτή της μεθόδου VR.

Ωστόσο, δεδομένου ότι το κόστος ανά επανάληψη του GD είναι αυτό της μεθόδου VR $n$ φορές, η μέθοδος VR είναι ανώτερη όσον αφορά τον συνολικό χρόνο λειτουργίας.

Το πλεονέκτημα των κλασικών μεθόδων SGD είναι ότι ο χρόνος λειτουργίας τους και ο ρυθμός σύγκλισης δεν εξαρτώνται από $n$ , αλλά έχει μια ανοχή $ϵ$ Η εξάρτηση του είναι πολύ χειρότερη, γεγονός που εξηγεί την κακή απόδοση του SGD όταν η ανοχή είναι μικρή.

Στο Παράρτημα Β, παρέχουμε μια απλή απόδειξη που δείχνει ότι η μέθοδος SGD² έχει την ίδια επαναληπτική πολυπλοκότητα με τη μέθοδο VR.

2. Μέθοδος μείωσης βασικής διακύμανσης

Η ανάπτυξη μεθόδων μείωσης διακύμανσης (VR) έχει περάσει από διάφορα στάδια και η αρχική παρτίδα μεθόδων είχε ως αποτέλεσμα σημαντικά βελτιωμένα ποσοστά σύγκλισης. Η αρχή αυτής της σειράς μεθόδων είναι ο αλγόριθμος SAG. Στη συνέχεια, ο αλγόριθμος στοχαστικής ανάβασης διπλής συντεταγμένης (SDCA), ο αλγόριθμος MISO, ο αλγόριθμος μείωσης της διακύμανσης στοχαστικής διακύμανσης (SVRG/S2GD) και ο αλγόριθμος SAGA (που σημαίνει "βελτιωμένο" SAG) βγήκαν ο ένας μετά τον άλλο.

Σε αυτό το κεφάλαιο, ρίχνουμε μια πιο προσεκτική ματιά σε αυτές τις πρωτοποριακές μεθόδους VR. Στο Κεφάλαιο 4, θα διερευνήσουμε μερικές νεότερες μεθόδους που παρουσιάζουν ανώτερα χαρακτηριστικά σε σύγκριση με αυτές τις βασικές μεθόδους σε συγκεκριμένα σενάρια εφαρμογών.

2.1 Μέθοδος στοχαστικής μέσης κλίσης (SAG)

Η εξερεύνηση της μεθόδου μείωσης της πρώτης διακύμανσης (VR) ξεκινά με τη μίμηση της δομής πλήρους κλίσης.Από την πλήρη κλίση $\nabla φά (Χ)$ ειναι ολα $f_i(x)$ ένας απλός μέσος όρος των κλίσεων, στη συνέχεια η εκτίμησή μας για την πλήρη κλίση $g_k$ Θα πρέπει επίσης να είναι ο μέσος όρος αυτών των εκτιμήσεων κλίσης. Αυτή η ιδέα οδήγησε στην πρώτη μας μέθοδο VR: τη μέθοδο στοχαστική μέση κλίση (SAG).

Η μέθοδος SAG [37], [65] είναι μια τυχαιοποιημένη έκδοση της μεθόδου πρώιμης αυξητικής συγκεντρωτικής κλίσης (IAG) [4]. Η βασική ιδέα του SAG είναι αυτή για κάθε σημείο δεδομένων $Εγώ$ διατηρεί μια εκτίμηση $v_{ik} περίπου nabla f_i(x_k)$ .Στη συνέχεια, χρησιμοποιήστε αυτά $v_{ik}$ Ο μέσος όρος των τιμών χρησιμοποιείται ως εκτίμηση της πλήρους κλίσης, δηλαδή:
$bar{g}_k = frac{1}{n} sum_{j= 1}^{n} v_{jk} περίπου frac{1}{n} sum_{j=1}^{n} nabla f_j(x_k) = nabla f(x_k) quad (18)$

Σε κάθε επανάληψη του SAG, από το σύνολο ${1, \dots, n}$ Εξαγωγή ευρετηρίου από $i_k$ , και στη συνέχεια ενημερώνεται σύμφωνα με τους ακόλουθους κανόνες $v_{jk}$ ：
$begin{cases} nabla f_{i_k}(x_k), & text{if } j = i_k \ v_{jk}^k, & text{if } j neq i_k end{cases}$
Ανάμεσά τους, το καθένα $v_{0i}$ Μπορεί να αρχικοποιηθεί στο μηδέν ή $f_i(x_0)$ κατά προσέγγιση τιμή.Με τη λύση $x^*$ προσέγγιση, το καθένα $v_{ik}$ θα συγκλίνει σταδιακά σε $f_i(x^*)$ , ικανοποιώντας έτσι την ιδιότητα VR (12).

Για να εφαρμόσουμε αποτελεσματικά το SAG, πρέπει να δώσουμε προσοχή στον υπολογισμό $bar{g}_k$ για να αποφύγετε κάθε φορά να ξεκινάτε το ποσό από την αρχή $n$ διάνυσμα, γιατί αυτό είναι $n$ Το κόστος είναι μεγάλο όταν είναι μεγάλο.Ευτυχώς, αφού κάθε επανάληψη έχει μόνο μία $v_{ik}$ Οι όροι θα αλλάξουν και δεν χρειάζεται να υπολογίζουμε εκ νέου ολόκληρο το άθροισμα κάθε φορά.Συγκεκριμένα, υποθέστε ότι κατά την επανάληψη $κ$ Ευρετήριο εξάγεται από $i_k$ , τότε υπάρχει:
$bar{g}_k = frac{1}{n} sum_{substack{ j=1 \ j neq i_k}}^{n} v_{jk} + frac{1}{n} v_{i_k}^k = bar{g}_{k-1} - frac{1}{n} v_{i_k}^{k-1} + frac{1}{n} v_{i_k}^k quad (20)$

Δεδομένου ότι εκτός από $v_{i_k}$ τα πάντα εκτός από $v_{jk}$ Οι τιμές παραμένουν όλες οι ίδιες, απλώς αποθηκεύουμε την καθεμία $ι$ Ένα διάνυσμα που αντιστοιχεί σε $v_j$ . Ο αλγόριθμος 1 δείχνει τη συγκεκριμένη εφαρμογή της μεθόδου SAG.

Η SAG είναι η πρώτη στοχαστική μέθοδος για την επίτευξη γραμμικής σύγκλισης και η πολυπλοκότητα της επανάληψης είναι $O((kappa_{text{max}} + n) log(1/epsilon))$ , χρησιμοποιώντας το μέγεθος βήματος $O(1/L_{text{max}})$ . Αυτή η γραμμική σύγκλιση μπορεί να παρατηρηθεί στο σχήμα 1.Αξίζει να σημειωθεί ότι λόγω $L_{text{max}}$ - Ομαλή λειτουργία για οποιοδήποτε $L_{text{max}}$ Πολύ $μεγάλο^{'}$ - Οι ομαλές, μέθοδοι SAG επιτυγχάνουν γραμμικούς ρυθμούς σύγκλισης για αρκετά μικρά μεγέθη βημάτων, σε αντίθεση με τις κλασσικές μεθόδους SGD, οι οποίες επιτυγχάνουν μόνο υπογραμμικούς ρυθμούς με ακολουθίες μειούμενων μεγεθών βημάτων που είναι δύσκολο να προσαρμοστούν στην πράξη.

Εκείνη την εποχή, η γραμμική σύγκλιση του SAG ήταν μια σημαντική πρόοδος επειδή υπολόγιζε μόνο μία στοχαστική κλίση (επεξεργασία ενός μόνο σημείου δεδομένων) σε κάθε επανάληψη. Ωστόσο, η απόδειξη σύγκλισης που παρέχεται από τους Schmidt et al [65] είναι πολύ περίπλοκη και βασίζεται σε βήματα που έχουν επαληθευτεί από υπολογιστή. Ένας βασικός λόγος για τον οποίο το SAG είναι δύσκολο να αναλυθεί είναι αυτός $g_k$ είναι μια μεροληπτική εκτίμηση της κλίσης.

Στη συνέχεια, εισάγουμε τη μέθοδο SAGA, μια παραλλαγή της SAG που εκμεταλλεύεται την έννοια των συμμεταβλητών για να δημιουργήσει μια αμερόληπτη παραλλαγή της μεθόδου SAG που έχει παρόμοια απόδοση αλλά είναι πιο εύκολο να αναλυθεί.

Αλγόριθμος 1: Μέθοδος SAG

Παράμετροι: μέγεθος βήματος $γ > 0$
αρχικοποίηση: $x_0$ ， $v_i = 0 στο mathbb{R}^d$ Για $Εγώ = 1, \dots, n$
σωστά $κ = 1, \dots, Τ - 1$ υλοποιώ, εφαρμόζω:
α. Τυχαία επιλογή $i_k σε {1, ldots, n}$
β. Υπολογίστε $bar{g}_k = bar{g}_{k-1} - frac{1}{n} v_{i_k}^{k-1}$
γ $v_{i_k}^k = nabla f_{i_k}(x_k)$
δ. Ενημέρωση εκτίμησης κλίσης $bar{g}_k = bar{g}_k + frac{1}{n} v_{i_k}^k$
ε. Ενημέρωση $x_{k+1} = x_k - γραμμή γάμμα{g}_k$
Παραγωγή: $x_T$

2.2.Μέθοδος SAGA

Μια μειωμένη βασική αμερόληπτη εκτίμηση κλίσης $f_{i_k}(x_k)$ Η προσέγγιση της διακύμανσης γίνεται μέσω της χρήσης των λεγόμενων συμμεταβλητών ή μεταβλητών ελέγχου.Για $Εγώ = 1, \dots, n$ ,στήνω $v_i στο mathbb{R}^d$ είναι ένας φορέας.Χρησιμοποιώντας αυτά τα διανύσματα, μπορούμε να μετατρέψουμε την πλήρη κλίση $\nabla φά (Χ)$ Ξαναγράφτηκε ως:
$sum_{i=1}^{n}(nabla f_i(x) - v_i + v_i) = frac{1}{n} sum_{i=1}^{n} nabla f_i(x) - v_i + frac{1}{n} sum_{j=1}^{n} v_j$
$sum_{i=1}^{n} nabla f_i(x, v) quad (21)$
που ορίζει $f_i(x, v) := nabla f_i(x) - v_i + frac{1}{n} sum_{ j=1}^{n} v_j$ .Τώρα, μπορούμε τυχαία να κάνουμε δείγμα α $f_i(x, v)$ για την κατασκευή της πλήρους κλίσης $\nabla φά (Χ)$ Μια αμερόληπτη εκτίμηση του $Εγώ \in {1, \dots, n}$ , μπορείτε να εφαρμόσετε τη μέθοδο SGD και να χρησιμοποιήσετε την εκτίμηση κλίσης:
$g_k = nabla f_{i_k}(x_k, v) = nabla f_{i_k}(x_k) - v_{i_k} + frac{1}{n} sum_{j=1}^{n} v_j quad (22)$

για παρατήρηση $v_i$ Η διαφορά ζεύγους επιλογής $g_k$ επιρροή, μπορούμε $g_k = nabla f_{i_k}(x_k, v)$ Αντικατάσταση και χρήση $E_i sim frac{1}{n}[v_i] = frac{1}{n} sum_{j=1}^{n} v_j$ Για να υπολογίσουμε την προσδοκία, παίρνουμε:
$f_i(x_k) - v_i + E_i sim frac{1}{n}[v_i - nabla f_i(x_k)]|^2 δεξιά] leq E αριστερά[ |nabla f_i(x_k) - v_i|^2 δεξιά] τετραγωνικά (23 )$
Το Lemma 2 χρησιμοποιείται εδώ, όπου $f_i(x_k) - v_i$ .Αυτό το φράγμα (23) δείχνει ότι αν $v_i$ μαζί με $κ$ Η αύξηση είναι κοντά στο $f_i(x_k)$ , μπορούμε να αποκτήσουμε χαρακτηριστικά VR (12).Γι' αυτό καλούμε $v_i$ είναι συμμεταβλητές και μπορούμε να τις επιλέξουμε για να μειώσουμε τη διακύμανση.

Για παράδειγμα, αυτή η προσέγγιση εφαρμόζεται επίσης με τη μέθοδο SGD² (13), όπου $v_i = nabla f_i(x^*)$ .Ωστόσο, αυτό δεν χρησιμοποιείται συνήθως στην πράξη γιατί συνήθως δεν γνωρίζουμε $f_i(x^*)$ .Μια πιο πρακτική επιλογή είναι $v_i$ όπως γνωρίζουμε $bar{x}_i στο mathbb{R}^d$ κοντινή κλίση $f_i(bar{x}_i)$ . SAGA για κάθε λειτουργία $f_i$ χρησιμοποιήστε ένα σημείο αναφοράς $bar{x}_i στο mathbb{R}^d$ , και χρησιμοποιήστε συμμεταβλητές $v_i = nabla f_i(bar{x}_i)$ , καθένα από τα οποία $bar{x}_i$ θα είναι η τελευταία μας αξιολόγηση $f_i$ σημείο. Χρησιμοποιώντας αυτές τις συμμεταβλητές, μπορούμε να κατασκευάσουμε μια εκτίμηση κλίσης, ακολουθώντας την (22), δίνοντας:
$g_k = nabla f_{i_k}(x_k) - nabla f_{i_k}( bar{x}_{i_k}) + frac{1}{n} sum_{j=1}^{n} nabla f_j(bar{x}_j) quad (24)$

Για να εφαρμόσουμε το SAGA μπορούμε να αποθηκεύσουμε διαβαθμίσεις $f_i(bar{x}_i)$ αντί $n$ σημείο αναφοράς $bar{x}_i$ .Ας υποθέσουμε δηλαδή $v_j = nabla f_j(bar{x}_j)$ Για $ι \in {1, \dots, n}$ , σε κάθε επανάληψη, ενημερώνουμε μια στοχαστική κλίση όπως το SAG $v_j$ 。

Αλγόριθμος 2 SAGA

Παράμετροι: μέγεθος βήματος $γ > 0$
αρχικοποίηση: $x_0$ ， $v_i = 0 στο mathbb{R}^d$ Για $Εγώ = 1, \dots, n$
συμπεριφορά $κ = 1, \dots, Τ - 1$ επαναλήψεις:
α. Τυχαία επιλογή $i_k σε {1, ldots, n}$
β. Αποθήκευση παλιάς αξίας $v_{text{old}} = v_{i_k}$
γ $v_{i_k} = nabla f_{i_k}(x_k)$
δ. Ενημέρωση $x_{k+1} = x_k - γάμμα (v_{i_k} - v_{κείμενο{παλιό}} + γραμμή{g}_k)$
ε. Ενημέρωση εκτίμησης κλίσης $bar{g}_k = bar{g}_{k-1} + frac{1}{n} (v_{i_k} - v_{ κείμενο{παλιό}})$
Παραγωγή: $x_T$

Η μέθοδος SAGA έχει την ίδια πολυπλοκότητα επανάληψης με την SAG $O((kappa_{text{max}} + n) log(1/epsilon))$ , χρησιμοποιώντας το μέγεθος βήματος $O(1/L_{text{max}})$ , αλλά η απόδειξη είναι πολύ πιο απλή.Ωστόσο, όπως το SAG, η μέθοδος SAGA απαιτεί αποθήκευση $n$ βοηθητικά διανύσματα $v_i στο mathbb{R}^d$ Για $Εγώ = 1, \dots, n$ , που σημαίνει την ανάγκη $Ο (n ρε)$ του αποθηκευτικού χώρου.πότε $ρε$ και $n$ Όταν και τα δύο είναι μεγάλα, αυτό μπορεί να μην είναι εφικτό. Στην επόμενη ενότητα, περιγράφουμε λεπτομερώς τον τρόπο μείωσης αυτής της απαίτησης μνήμης για κοινά μοντέλα, όπως τα κανονικοποιημένα γραμμικά μοντέλα.

όταν μπορεί $n$ Όταν δύο βοηθητικά διανύσματα είναι αποθηκευμένα στη μνήμη, τα SAG και SAGA τείνουν να συμπεριφέρονται παρόμοια. Εάν αυτή η απαίτηση μνήμης είναι πολύ υψηλή, η μέθοδος SVRG, την οποία θα εξετάσουμε στην επόμενη ενότητα, είναι μια καλή εναλλακτική. Η μέθοδος SVRG επιτυγχάνει τον ίδιο ρυθμό σύγκλισης και συχνά είναι σχεδόν εξίσου γρήγορη στην πράξη, αλλά απαιτεί μόνο $Ο (ρε)$ μνήμης, για γενικά θέματα.

2.3.Μέθοδος SVRG

Πριν από την εμφάνιση της μεθόδου SAGA, ορισμένες πρώτες εργασίες εισήγαγαν συμμεταβλητές για πρώτη φορά για να λύσουν το πρόβλημα υψηλής μνήμης που απαιτείται από τη μέθοδο SAG.Αυτές οι μελέτες βασίζονται σε ένα σταθερό σημείο αναφοράς $mathbb{R}^d$ συμμεταβλητές, έχουμε υπολογίσει την πλήρη κλίση σε εκείνο το σημείο $\nabla φά (\overset{Χ}{ˉ})$ .με την αποθήκευση σημείων αναφοράς $\overset{Χ}{ˉ}$ και την αντίστοιχη πλήρη κλίση $\nabla φά (\overset{Χ}{ˉ})$ , μπορούμε να το κάνουμε αυτό χωρίς να αποθηκεύσουμε το καθένα $f_j(bar{x})$ Σε περίπτωση, χρησιμοποιήστε $μπαρ{x}_j = μπάρα{x}$ σε όλους $ι$ για την εφαρμογή της ενημέρωσης (24).Συγκεκριμένα, αντί να αποθηκεύουμε αυτά τα διανύσματα, χρησιμοποιούμε τα αποθηκευμένα σημεία αναφοράς σε κάθε επανάληψη $\overset{Χ}{ˉ}$ να υπολογίσω $f_{i_k}(bar{x})$ . Αυτή η μέθοδος προτάθηκε αρχικά από διαφορετικούς συγγραφείς με διαφορετικά ονόματα, αλλά αργότερα ενοποιήθηκε ως μέθοδος SVRG, ακολουθώντας την ονοματολογία των [28] και [84].

Επισημοποιούμε τη μέθοδο SVRG στον Αλγόριθμο 3.

Χρησιμοποιώντας το (23), μπορούμε να εξαγάγουμε την εκτίμηση της κλίσης $g_k$ Η διακύμανση του οριοθετείται:
$g_k - nabla f(x_k) |^2 δεξιά] leq Eleft[ | nabla f_i(x_k) - nabla f_i(bar{x}) |^2 δεξιά] leq L_{text{max}}^2 | x_k - γραμμή{x} |^2$
όπου η δεύτερη ανισότητα χρησιμοποιεί το καθένα $f_i$ του $L_i$ -Ομαλότητα.

Αξίζει να σημειωθεί ότι το σημείο αναφοράς $\overset{Χ}{ˉ}$ Όσο πιο κοντά στο σημερινό σημείο $x_k$ , τόσο μικρότερη είναι η διακύμανση της εκτίμησης της κλίσης.

Για να είναι αποτελεσματική η μέθοδος SVRG, πρέπει να ενημερώνουμε συχνά τα σημεία αναφοράς $\overset{Χ}{ˉ}$ (που απαιτεί τον υπολογισμό της πλήρους διαβάθμισης) σταθμίζεται έναντι του οφέλους της μειωμένης διακύμανσης.Για το λόγο αυτό, ο καθένας μας $t$ Ενημερώνετε το σημείο αναφοράς μία φορά κάθε επανάληψη για να το πλησιάζετε $x_k$ (Βλ. γραμμή 11 του Αλγορίθμου II-C).Δηλαδή, η μέθοδος SVRG περιέχει δύο βρόχους: έναν εξωτερικό βρόχο $μικρό$ , όπου υπολογίζεται η κλίση αναφοράς $f(bar{x}_{s-1})$ (γραμμή 4) και έναν εσωτερικό βρόχο όπου το σημείο αναφοράς είναι σταθερό και η εσωτερική επανάληψη ενημερώνεται με βάση το βήμα στοχαστικής κλίσης (22) $x_k$ (Γραμμή 10).

Σε αντίθεση με το SAG και το SAGA, το SVRG απαιτεί μόνο $Ο (ρε)$ της μνήμης. Στα μειονεκτήματα του SVRG περιλαμβάνονται: 1) Έχουμε μια επιπλέον παράμετρο $t$ , δηλαδή, το μήκος του εσωτερικού βρόχου, πρέπει να ρυθμιστεί.

Οι Johnson και Zhang [28] έδειξαν ότι το SVRG έχει επαναληπτική πολυπλοκότητα $O((kappa_{text{max}} + n) log(1/epsilon))$ , παρόμοια με τα SAG και SAGA.Αυτός είναι ο αριθμός των βρόχων εντός της υπόθεσης $t$ από τη συλλογή ${1, \dots, Μ}$ Λήφθηκε υπό την προϋπόθεση της ομοιόμορφης δειγματοληψίας, όπου $L_{text{max}}$ ， $μ$ , μέγεθος βήματος $γ$ και $t$ Ορισμένες εξαρτήσεις πρέπει να ικανοποιούνται μεταξύ τους.Στην πράξη, με τη χρήση $O(1/L_{text{max}})$ και μήκος εσωτερικού βρόχου $t = n$ , το SVRG τείνει να αποδίδει καλά, η οποία είναι ακριβώς η ρύθμιση που χρησιμοποιήσαμε στο Σχήμα 1.

Τώρα, υπάρχουν πολλές παραλλαγές της αρχικής μεθόδου SVRG.Για παράδειγμα, ορισμένες παραλλαγές χρησιμοποιούν $t$ εναλλακτική διανομή [32], ορισμένες παραλλαγές επιτρέπουν τη φόρμα $O(1/L_{text{max}})$ Το μέγεθος βήματος [27], [33], [35].Υπάρχουν επίσης ορισμένες παραλλαγές χρησιμοποιώντας $\nabla φά (\overset{Χ}{ˉ})$ προσέγγιση μίνι-παρτίδας για τη μείωση του κόστους αυτών των αξιολογήσεων πλήρους κλίσης και την αύξηση του μεγέθους της μίνι παρτίδας για τη διατήρηση των ιδιοτήτων VR.Υπάρχουν επίσης ορισμένες παραλλαγές όπου οι ενημερώσεις επαναλαμβάνονται στον εσωτερικό βρόχο σύμφωνα με το [54] $g_k$ ：
[ g_k = nabla f_{i_k}(x_k) - nabla f_{i_k}(x_{k-1}) + g_{k-1} quad (25) ]
Αυτό παρέχει μια πιο τοπική προσέγγιση. Η χρήση αυτής της παραλλαγής συνεχούς ενημέρωσης (25) δείχνει μοναδικά πλεονεκτήματα στην ελαχιστοποίηση των μη κυρτών συναρτήσεων, όπως συζητάμε εν συντομία στην Ενότητα IV.Τέλος, σημειώστε ότι το SVRG μπορεί να εκμεταλλευτεί $f(bar{x}_s)$ τιμή για να αποφασίσετε πότε θα τερματιστεί ο αλγόριθμος.

Αλγόριθμος 3 Μέθοδος SVRG

Παράμετροι: μέγεθος βήματος $γ > 0$
Αρχικοποίηση σημείου αναφοράς $bar{x}_0 = x_0 σε mathbb{R}^d$
Πραγματοποιήστε εξωτερική κυκλοφορία $μικρό = 1, 2, \dots$ ：
α. Υπολογίστε και αποθηκεύστε $f(bar{x}_{s-1})$
β. Υποθέστε $x_0 = bar{x}_{s-1}$
c Επιλέξτε τον αριθμό των επαναλήψεων του εσωτερικού βρόχου $t$
δ. Εκτελέστε εσωτερική κυκλοφορία $κ = 0, 1, \dots, t - 1$ ：
i. Τυχαία επιλογή $i_k σε {1, ldots, n}$
ii. Υπολογισμός $g_k = nabla f_{i_k}(x_k) - nabla f_{i_k}(bar{x}_{ s-1}) + nabla f(bar{x}_{s-1})$
iii. Ενημέρωση $x_{k+1} = x_k - γάμμα g_k$
ε. Ενημέρωση σημείου αναφοράς $bar{x}_s = x_t$

2.4. SDCA και οι παραλλαγές του

Ένα μειονέκτημα των μεθόδων SAG και SVRG είναι ότι το μέγεθος του βήματος τους βασίζεται σε άγνωστες τιμές που μπορεί να είναι άγνωστες σε ορισμένα προβλήματα. $L_{text{max}}$ . Πριν από το SVRG, η μέθοδος SDCA [70], ως μία από τις παλαιότερες μεθόδους VR, επέκτεινε την έρευνα για τις μεθόδους καθόδου συντεταγμένων σε προβλήματα πεπερασμένων αθροισμάτων. Η ιδέα πίσω από το SDCA και τις παραλλαγές του είναι ότι οι συντεταγμένες της κλίσης παρέχουν μια φυσική εκτίμηση της κλίσης που μειώνει τη διακύμανση.Συγκεκριμένα, ας υποθέσουμε $ι \in {1, \dots, ρε}$ , και ορίστε $nabla_j f(x) := αριστερά( frac{μερική f(x)}{μερική x_j} δεξιά) e_j$ είναι το ου του (f(x)) $ι$ παράγωγα σε κατευθύνσεις συντεταγμένων, όπου $e_j στο mathbb{R}^d$ Είναι το πρώτο $ι$ μονάδα διάνυσμα.Μια βασική ιδιότητα των παραγώγων συντεταγμένων είναι αυτή $nabla_j f(x^*) = 0$ , γιατί ξέρουμε $f(x^*) = 0$ .Η παράγωγος αυτού με κάθε σημείο δεδομένων $f_j$ διαφορετικό, το τελευταίο είναι $x^*$ μπορεί να μην είναι μηδέν. Επομένως έχουμε:
$nabla_j f(x) |^2 δεξιό βέλος 0 τετραγωνικό κείμενο{当} τετραπλό x δεξιό βέλος x^* τετραγωνίδιο (26)$
Αυτό σημαίνει ότι η παράγωγος συντεταγμένων ικανοποιεί την ιδιότητα μείωσης της διακύμανσης (12).Επιπλέον, μπορούμε να χρησιμοποιήσουμε $nabla_j f(x)$ χτίζω $\nabla φά (Χ)$ μια αμερόληπτη εκτίμηση του.Για παράδειγμα, ας υποθέσουμε $ι$ είναι από τη συλλογή ${1, \dots, ρε}$ Ένας ομοιόμορφα τυχαία επιλεγμένος δείκτης σε .Επομένως, για οποιαδήποτε $Εγώ \in {1, \dots, ρε}$ ,Εχουμε $P [ j = i ] = 1 d P[j = i] = frac{1}{d}$ . επομένως, $nabla_j f(x)$ Ναί $\nabla φά (Χ)$ Μια αμερόληπτη εκτίμηση επειδή:
$nabla_j f(x) δεξιά] = d sum_{i=1}^{d} P[j = i] frac{μερική f(x)}{μερική x_i} e_i = άθροισμα_{i=1}^{d} frac{μερική f(x)}{μερική x_i} e_i = nabla f(x)$

επομένως, $nabla_j f(x)$ Έχει όλες τις ιδανικές ιδιότητες που θα περιμέναμε για την εκτίμηση πλήρους διαβάθμισης VR, χωρίς την ανάγκη χρήσης συμμεταβλητών. Ένα μειονέκτημα της χρήσης αυτής της κλίσης συντεταγμένων είναι ότι είναι υπολογιστικά ακριβό για το πρόβλημα αθροίσματος (2).Αυτό συμβαίνει γιατί ο υπολογισμός $nabla_j f(x)$ Πρέπει να διασχίσετε ολόκληρο το σύνολο δεδομένων γιατί $nabla_j f(x) = frac{1}{n} sum_{i=1}^{n} nabla_j f_i(x)$ . Επομένως, η χρήση παραγώγων συντεταγμένων φαίνεται ασύμβατη με τη δομή του προβλήματος αθροίσματος μας. Ωστόσο, μπορούμε συχνά να ξαναγράψουμε το αρχικό πρόβλημα (2) σε μια λεγόμενη διπλή διατύπωση, όπου οι παράγωγοι συντεταγμένων μπορούν να εκμεταλλευτούν την εγγενή δομή.

Για παράδειγμα, ο διπλός τύπος του τακτοποιημένου γραμμικού μοντέλου L2 (15) είναι:
$vx_*2 σε mathbb{R}^n} frac{1}{n} sum_{i=1}^{n} -ell_i^*(-v_i) - frac{lambda}{2} αριστερά| frac{1}{lambda} sum_{i=1}^{n} v_i a_i δεξιά|^2 τετραγωνικά (27)$
σε $ell_i^*(v)$ Ναί $ell_i$ κυρτό συζυγές.Μπορούμε να χρησιμοποιήσουμε χαρτογράφηση $sum_{i=1}^{n} v_i a_i$ για να επαναφέρετε το αρχικό πρόβλημα (15) $Χ$ μεταβλητός.θα λύσει $v^*$ Αντικαθιστώντας στη δεξιά πλευρά της παραπάνω χαρτογράφησης, μπορούμε να πάρουμε τη λύση του (15) $x^*$ 。

Σημειώστε ότι αυτό το διπλό πρόβλημα έχει $n$ πραγματικές μεταβλητές $v_i στο mathbb{R}$ , που αντιστοιχεί σε ένα για κάθε δείγμα εκπαίδευσης.Επιπλέον, κάθε λειτουργία διπλής απώλειας $ell_i^*$ μόνο $v_i$ Η λειτουργία. Δηλαδή, ο πρώτος όρος στη συνάρτηση απώλειας είναι συντεταγμένος διαχωρισμός. Αυτή η δυνατότητα διαχωρισμού στις συντεταγμένες, σε συνδυασμό με την απλή μορφή του δεύτερου όρου, μας επιτρέπει να εφαρμόσουμε αποτελεσματικά τη μέθοδο συντεταγμένης ανάβασης.Πράγματι, οι Shalev-Shwartz και Zhang έδειξαν ότι η συντεταγμένη ανάβαση σε αυτό το πρόβλημα έχει παρόμοια επαναληπτική πολυπλοκότητα με τα SAG, SAGA και SVRG $O((kappa_{text{max}} + n) log(1/epsilon))$ 。

Το κόστος επανάληψης και η δομή του αλγορίθμου είναι επίσης πολύ παρόμοια: άθροιση με παρακολούθηση $sum_{i=1}^{n} v_i a_i$ Για να χειριστείτε τον δεύτερο όρο στο (27), κάθε επανάληψη ανάβασης διπλής συντεταγμένης χρειάζεται μόνο να λάβετε υπόψη ένα δείγμα εκπαίδευσης και το κόστος κάθε επανάληψης είναι το ίδιο με $n$ Τίποτα να κάνω.Επιπλέον, μπορούμε να χρησιμοποιήσουμε μια αναζήτηση γραμμής 1D για να υπολογίσουμε αποτελεσματικά το μέγεθος του βήματος για μεγιστοποίηση $v_i$ Διπλός στόχος της συνάρτησης.Αυτό σημαίνει ότι ακόμη και χωρίς $L_{text{max}}$ Ή γνώση σχετικών ποσοτήτων, είναι επίσης δυνατό να επιτευχθούν γρήγοροι χρόνοι λειτουργίας στη χειρότερη περίπτωση για μεθόδους VR.

3. Πρακτικά θέματα μείωσης διασποράς

Προκειμένου να εφαρμοστεί η βασική μέθοδος μείωσης διασποράς (VR) και να επιτευχθούν λογικές επιδόσεις, πρέπει να αντιμετωπιστούν αρκετά ζητήματα υλοποίησης. Σε αυτή την ενότητα, συζητάμε διάφορα θέματα που δεν καλύπτονται παραπάνω.

3.1.Μέγεθος βήματος ρύθμισης SAG/SAGA/SVRG

Στον τομέα των αλγορίθμων βελτιστοποίησης, ειδικά σε μεθόδους μείωσης διακύμανσης όπως η στοχαστική μέση κλίση (SAG), ο στοχαστικός μέσος αλγόριθμος κλίσης (SAGA) και η στοχαστική κλίση (SVRG), η ρύθμιση του μεγέθους του βήματος είναι βασικό ζήτημα.Αν και για τη μέθοδο στοχαστικής ανάβασης διπλής συντεταγμένης (SDCA), μπορούμε να χρησιμοποιήσουμε τον διπλό στόχο για να καθορίσουμε το μέγεθος του βήματος, η θεωρητική βάση για τις αρχικές μεταβλητές μεθόδους των SAG, SAGA και SVRG είναι ότι το μέγεθος του βήματος πρέπει να είναι $Oleft(frac{1}{L_{text{max}}}right)$ μορφή.Ωστόσο, σε πρακτικές εφαρμογές, συχνά δεν γνωρίζουμε $L_{text{max}}$ Η ακριβής τιμή του και η χρήση άλλων μεγεθών βημάτων μπορεί να δώσει καλύτερη απόδοση.

Μια κλασική στρατηγική για τον ορισμό του μεγέθους βήματος στη μέθοδο πλήρους κλίσης κατάβασης (full-GD) είναι η αναζήτηση γραμμής Armijo.δεδομένο τρέχον σημείο $x_k$ και κατεύθυνση αναζήτησης $g_k$ , αναζήτηση γραμμής Armijo σε $gamma_k$ πραγματοποιείται στη γραμμή, η οποία ορίζεται ως $gamma_k σε {γάμα : x_k + γάμμα g_k}$ , και η συνάρτηση απαιτείται να μειωθεί επαρκώς, δηλαδή:
$f(x_k + gamma_k g_k) < f(x_k) - c gamma_k |nabla f(x_k)|^2$
Ωστόσο, αυτή η προσέγγιση απαιτεί πολλαπλά βήματα υποψηφίου $gamma_k$ Υπολογισμός $f(x_k + gamma_k g_k)$ , το οποίο αξιολογεί $φά (Χ)$ Απαγορευτικό κόστος όταν πρόκειται για τη διέλευση ολόκληρου του συνόλου δεδομένων.

Για να λυθεί αυτό το πρόβλημα, μπορεί να χρησιμοποιηθεί μια μέθοδος τυχαίας παραλλαγής για να βρεθούν εκείνα που πληρούν τις ακόλουθες προϋποθέσεις $gamma_k$ ：
$f_{ik}(x_k + gamma_k g_k) < f_{ik}(x_k) - c gamma_k |nabla f_{ik }(x_k)|^2$
Αυτή η προσέγγιση συνήθως λειτουργεί καλά στην πράξη, ειδικά όταν $f_{ik}(x_k)|$ όχι κοντά στο μηδέν, αν και δεν υπάρχει προς το παρόν καμία θεωρία που να υποστηρίζει αυτήν την προσέγγιση.

Επιπλέον, ο Mairal πρότεινε μια «τεχνική Bottou» για τον καθορισμό του μεγέθους του βήματος στην πράξη. Αυτή η μέθοδος εκτελεί μια δυαδική αναζήτηση λαμβάνοντας ένα μικρό μέρος του συνόλου δεδομένων (π.χ. 5%) για να προσπαθήσει να βρει το βέλτιστο μέγεθος βήματος σε ένα μόνο πέρασμα από αυτό το δείγμα. Παρόμοια με την αναζήτηση γραμμής Armijo, αυτή η μέθοδος συχνά αποδίδει καλά στην πράξη, αλλά και πάλι στερείται θεωρητικής βάσης.

Λάβετε υπόψη ότι το παραπάνω περιεχόμενο αποτελεί επαναδιατύπωση του αρχικού κειμένου, χρησιμοποιώντας τη μορφή Markdown για την αναπαράσταση μαθηματικών τύπων και μεταβλητών.

Ωστόσο, η μέθοδος SDCA έχει επίσης ορισμένα μειονεκτήματα.Πρώτον, απαιτεί τον υπολογισμό του κυρτού συζυγούς $ell_i^*$ παρά μια απλή κλίση. Δεν έχουμε αυτόματο διαφορικό ισοδύναμο για κυρτά συζεύγματα, επομένως αυτό μπορεί να αυξήσει την προσπάθεια υλοποίησης. Πρόσφατη εργασία έχει προτείνει μεθόδους SDCA "διπλής ελεύθερα" που δεν απαιτούν σύζευξη και αντίθετα χρησιμοποιούν απευθείας κλίσεις. Ωστόσο, σε αυτές τις μεθόδους δεν είναι πλέον δυνατή η παρακολούθηση του διπλού στόχου για να ορίσετε το μέγεθος του βήματος.Δεύτερον, αν και το SDCA απαιτεί μόνο $Ο (n + ρε)$ μνήμη για την επίλυση του προβλήματος (15), αλλά για αυτήν την κατηγορία προβλημάτων, χρειάζεται μόνο το SAG/SAGA $Ο (n + ρε)$ μνήμης (βλ. Ενότητα 3).Μια παραλλαγή του SDCA κατάλληλη για γενικότερα προβλήματα με SAG/SAGA $Ο (n ρε)$ μνήμη γιατί $v_i$ γίνει έχοντας $ρε$ διάνυσμα στοιχείων. Ένα τελευταίο λεπτό μειονέκτημα του SDCA είναι ότι υποθέτει έμμεσα μια ισχυρή σταθερά κυρτότητας $μ$ ίσος $λ$ .Για $μ$ περισσότερο από το $λ$ πρόβλημα, η αρχική μέθοδος VR συνήθως ξεπερνά σημαντικά το SDCA.

3.2 Καθορισμός όρων τερματισμού

Στον τομέα της βελτιστοποίησης αλγορίθμων, βασιζόμαστε συχνά σε θεωρητικά αποτελέσματα επαναληπτικής πολυπλοκότητας για να προβλέψουμε τον αριθμό των επαναλήψεων στη χειρότερη περίπτωση που απαιτείται για να επιτύχει ένας αλγόριθμος μια συγκεκριμένη ακρίβεια. Ωστόσο, αυτά τα θεωρητικά όρια συχνά βασίζονται σε ορισμένες σταθερές που δεν μπορούμε να προβλέψουμε και σε πρακτικές εφαρμογές, ο αλγόριθμος μπορεί συχνά να επιτύχει την αναμενόμενη ακρίβεια σε λιγότερες επαναλήψεις. Επομένως, πρέπει να ορίσουμε κάποια κριτήρια δοκιμής για να καθορίσουμε πότε πρέπει να τερματιστεί ο αλγόριθμος.

Στην παραδοσιακή μέθοδο καθόδου πλήρους κλίσης (full-GD), συνήθως χρησιμοποιούμε τον κανόνα της κλίσης $f(x_k) |$ Ή κάποια άλλη ποσότητα που σχετίζεται με αυτό για να αποφασίσετε πότε θα σταματήσετε την επανάληψη.Για τη μέθοδο SVRG μπορούμε να υιοθετήσουμε το ίδιο κριτήριο αλλά να χρησιμοποιήσουμε $f(bar{x}_s) |$ ως βάση για κρίση.Για τη μέθοδο SAG/SAGA, αν και δεν υπολογίζουμε ρητά την πλήρη διαβάθμιση, η ποσότητα $ g_{bar{k}} $ θα προσεγγιστεί σταδιακά $f(x_k)$ , επομένως, χρήση $g_{bar{k}} |$ ως συνθήκη διακοπής είναι μια λογική ευρετική.

Στη μέθοδο SDCA, με κάποια πρόσθετη εργασία εγγραφής, μπορούμε να παρακολουθήσουμε την κλίση του διπλού στόχου χωρίς να προσθέσουμε επιπλέον ασυμπτωτικό κόστος.Επιπλέον, μια πιο συστηματική προσέγγιση θα ήταν η παρακολούθηση του διπλού χάσματος, αν και αυτό θα αύξανε το $Ο (n)$ κόστος, αλλά είναι σε θέση να παρέχει συνθήκες τερματισμού με αποδείξεις διπλού κενού. Επιπλέον, με βάση τη συνθήκη βελτιστοποίησης των έντονα κυρτών στόχων, η μέθοδος MISO υιοθετεί μια βασική μέθοδο βασισμένη στο τετραγωνικό κάτω όριο [41].

Οι παρακάτω είναι μαθηματικοί τύποι και μεταβλητές που εκφράζονται σε μορφή Markdown:

Κανόνας κλίσης: $f(x_k) |$
Κανόνας κλίσης στη μέθοδο SVRG: $f(bar{x}_s) |$
Το ποσό της κλίσης προσέγγισης στη μέθοδο SAG/SAGA: $ g_{bar{k}} $
Αυξημένο κόστος ανά επανάληψη: $Ο (n)$
Μέθοδος MISO
τετραγωνικό κάτω όριο

3.3 Μειώστε τις απαιτήσεις μνήμης

Αν και ο αλγόριθμος Stochastic Variational Reduction of Gradient (SVRG) εξαλείφει τις απαιτήσεις μνήμης των προηγούμενων μεθόδων μείωσης παραλλαγής, σε πρακτικές εφαρμογές, οι αλγόριθμοι SAG (Stochastic Average Gradient Descent) και SAGA (Stochastic Average Gradient Descent with Gradient Accuulation) χρησιμοποιούνται σε πολλά προβλήματα. τείνουν να απαιτούν λιγότερες επαναλήψεις από τον αλγόριθμο SVRG.Αυτό πυροδότησε μια σκέψη: Υπάρχουν ορισμένα ζητήματα που επιτρέπουν στο SAG/SAGA $Ο (n ρε)$ Οι απαιτήσεις μνήμης υλοποιούνται παρακάτω. Αυτή η ενότητα διερευνά μια κατηγορία γραμμικών μοντέλων για τα οποία οι απαιτήσεις μνήμης μπορούν να μειωθούν σημαντικά.

Εξετάστε ένα γραμμικό μοντέλο όπου κάθε συνάρτηση $f_i(x)$ Μπορεί να εκφραστεί ως $xi_i(mathbf{a}_i^top x)$ .σωστά $Χ$ Το παράγωγο δίνει τη μορφή κλίσης:
$f_i(x) = xi'(mathbf{a}_i^top x) mathbf{a}_i$
εδώ, $ξ^{'}$ εξπρές $ξ$ το παράγωγο του.Υποθέτοντας ότι έχουμε άμεση πρόσβαση στα ιδιοδιανύσματα $mathbf{a}_i$ , τότε για να εφαρμόσουμε τη μέθοδο SAG/SAGA, χρειάζεται μόνο να αποθηκεύσουμε το βαθμωτό $xi(mathbf{a}_i^top x)$ .Με αυτόν τον τρόπο, οι απαιτήσεις μνήμης ποικίλλουν από $Ο (n ρε)$ μειώθηκε σε $Ο (n)$ . Ο αλγόριθμος SVRG μπορεί επίσης να εκμεταλλευτεί αυτή τη δομή διαβαθμίσεων: αποθηκεύοντας αυτό $n$ κλιμακωτό, μπορούμε να μειώσουμε τον αριθμό των αξιολογήσεων κλίσης που απαιτούνται ανά "εσωτερική" επανάληψη SVRG σε 1 για αυτήν την κατηγορία προβλημάτων.

Υπάρχουν και άλλα είδη προβλημάτων, όπως πιθανοτικά γραφικά μοντέλα, τα οποία προσφέρουν επίσης τη δυνατότητα μείωσης των απαιτήσεων μνήμης [66]. Μέσω συγκεκριμένης δομής δεδομένων και βελτιστοποίησης αλγορίθμων, οι πόροι μνήμης που απαιτούνται από τον αλγόριθμο κατά το χρόνο εκτέλεσης μπορούν να μειωθούν περαιτέρω.

Οι παρακάτω είναι μαθηματικοί τύποι και μεταβλητές που εκφράζονται σε μορφή Markdown:

Λειτουργία γραμμικού μοντέλου: $f_i(x) = xi_i(mathbf{a}_i^top x)$
Έκφραση κλίσης: $f_i(x) = xi'(mathbf{a}_i^top x) mathbf{a}_i$
Διάνυσμα χαρακτηριστικών: $mathbf{a}_i$
Οι απαιτήσεις μνήμης κυμαίνονται από $Ο (n ρε)$ Μειώστε σε $Ο (n)$ 。

3.4 Επεξεργασία αραιών κλίσεων

Σε ορισμένα προβλήματα, η κλίση $f_i(x)$ Μπορεί να περιέχει μεγάλο αριθμό μηδενικών τιμών, όπως ένα γραμμικό μοντέλο με αραιά χαρακτηριστικά.Σε αυτήν την περίπτωση, ο παραδοσιακός αλγόριθμος στοχαστικής διαβάθμισης (SGD) μπορεί να εφαρμοστεί αποτελεσματικά, με υπολογιστική πολυπλοκότητα γραμμική ως προς τον αριθμό των μη μηδενικών στοιχείων στη διαβάθμιση, που είναι συνήθως πολύ μικρότερος από τη διάσταση του προβλήματος $ρε$ . Ωστόσο, στις τυπικές μεθόδους μείωσης της μεταβολής (VR), αυτό το πλεονέκτημα δεν αξιοποιείται. Ευτυχώς, υπάρχουν δύο γνωστοί τρόποι για να βελτιωθεί αυτό.

Η πρώτη βελτίωση προτάθηκε από τους Schmidt et al., ο οποίος εκμεταλλεύεται την απλότητα της διαδικασίας ενημέρωσης και εφαρμόζει μια παραλλαγή του υπολογισμού "on-the-fly" έτσι ώστε το κόστος κάθε επανάληψης να είναι ανάλογο με τον αριθμό των μη μηδενικών στοιχεία.Λαμβάνοντας ως παράδειγμα το SAG (αλλά αυτή η προσέγγιση λειτουργεί για όλες τις παραλλαγές), αυτό γίνεται με το να μην αποθηκεύεται το πλήρες διάνυσμα μετά από κάθε επανάληψη $v_{ik}$ , αλλά υπολογίζει μόνο εκείνα που αντιστοιχούν σε μη μηδενικά στοιχεία $v_{ik_j}$ , ενημερώνοντας κάθε μεταβλητή από την τελευταία φορά που αυτό το στοιχείο ήταν μη μηδενικό $v_{ik_j}$ 。

Η δεύτερη μέθοδος βελτίωσης προτάθηκε από τους Leblond et al για το SAGA, η οποία ενημερώνει τον τύπο $x_{k+1} = x_k - γάμμα(nabla f_{ik}(x_k) - nabla f_{ik }(bar{x}_{ik}) + γραμμή{g}_k)$ Εισάγεται πρόσθετη τυχαιότητα. εδώ, $f_{ik}(x_k)$ και $f_{ik}(bar{x}_{ik})$ είναι αραιή, και $bar{g}_k$ είναι πυκνό.Σε αυτή τη μέθοδο, ο πυκνός όρος $(bar{g}_k)_j$ Κάθε συστατικό του αντικαθίσταται από $w_j (bar{g}_k)_j$ ,σε $mathbb{R}^d$ είναι ένα τυχαίο αραιό διάνυσμα του οποίου το σύνολο υποστήριξης περιέχεται σε $f_{ik}(x_k)$ , και αναμένεται να είναι ένα σταθερό διάνυσμα με όλα τα στοιχεία ίσα με 1. Με αυτόν τον τρόπο, η διαδικασία ενημέρωσης παραμένει αμερόληπτη (αν και τώρα αραιή) και η αυξημένη διακύμανση δεν επηρεάζει τον ρυθμό σύγκλισης του αλγορίθμου. Περισσότερες λεπτομέρειες παρέχονται από τους Leblond et al.

Οι παρακάτω είναι μαθηματικοί τύποι και μεταβλητές που εκφράζονται σε μορφή Markdown:

βαθμίδα: $f_i(x)$
Ενημέρωση SGD: $x_{k+1} = x_k - γάμμα(nabla f_{ik}(x_k) - nabla f_{ik }(bar{x}_{ik}) + γραμμή{g}_k)$
Αραιή κλίση: $f_{ik}(x_k)$ και $f_{ik}(bar{x}_{ik})$
Πυκνή κλίση: $bar{g}_k$
Τυχαία αραιά διανύσματα: $w$
Αναμένει σταθερό διάνυσμα: ένα διάνυσμα με όλα τα στοιχεία ίσα με 1.

Κοινή χρήση τεχνολογίας