Κοινή χρήση τεχνολογίας

Τεχνολογία Regularization in Deep Learning - Noise Robustness

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Πρόλογος

Με τη δυναμική ανάπτυξη της βαθιάς μάθησης, η απόδοση και η ικανότητα γενίκευσης των μοντέλων έχουν γίνει στο επίκεντρο των ερευνητών. Ωστόσο, τα δεδομένα σε πρακτικές εφαρμογές συνοδεύονται συχνά από διάφορους θορύβους Αυτοί οι θόρυβοι όχι μόνο προέρχονται από περιορισμούς υλικού στη διαδικασία απόκτησης δεδομένων, αλλά μπορεί επίσης να εισαχθούν από παράγοντες όπως οι περιβαλλοντικές παρεμβολές και τα σφάλματα μετάδοσης. Η ύπαρξη θορύβου επηρεάζει σοβαρά το αποτέλεσμα εκπαίδευσης και την ακρίβεια πρόβλεψης των μοντέλων βαθιάς μάθησης, ειδικά σε εργασίες όπως η αναγνώριση ομιλίας και η ταξινόμηση εικόνων. Επομένως, η βελτίωση της ευρωστίας του θορύβου των μοντέλων βαθιάς εκμάθησης, δηλαδή η ενίσχυση της σταθερής απόδοσης και των δυνατοτήτων αναγνώρισης του μοντέλου σε θορυβώδη περιβάλλοντα, έχει γίνει μια σημαντική κατεύθυνση της τρέχουσας έρευνας. Σχεδιάζοντας πιο αποτελεσματικούς αλγόριθμους προεπεξεργασίας δεδομένων, βελτιστοποιώντας τις δομές μοντέλων και εισάγοντας εκπαίδευση με ενισχυμένο θόρυβο και άλλα τεχνικά μέσα, η αντίσταση των μοντέλων βαθιάς μάθησης στον θόρυβο μπορεί να βελτιωθεί σημαντικά, προωθώντας έτσι την εφαρμογή του σε πιο σύνθετα σενάρια.

Ανθεκτικότητα θορύβου

  • υπάρχειΤεχνολογία τακτοποίησης στη βαθιά μάθηση-βελτίωση συνόλων δεδομένων έχουν εμπνεύσει την εφαρμογή του θορύβου στην είσοδο ως στρατηγική αύξησης συνόλων δεδομένων. Για ορισμένα μοντέλα, η προσθήκη θορύβου με ελάχιστη απόκλιση στην είσοδο του μοντέλου ισοδυναμεί με την προσθήκη μιας κανονικής ποινής στα βάρη (Bishop, 1995a,b). Γενικά, η έγχυση θορύβου είναι πολύ πιο ισχυρή από την απλή συρρίκνωση των παραμέτρων, ειδικά όταν προστίθεται θόρυβος σε κρυφές μονάδες.Η προσθήκη θορύβου σε κρυφές μονάδες είναι ένα σημαντικό θέμα που αξίζει να συζητηθεί
  • αλλοΟ θόρυβος χρησιμοποιείται σε ένα κανονικοποιημένο μοντέλο προσθέτοντάς τον στα βάρη . Αυτή η τεχνική χρησιμοποιείται κυρίως σε επαναλαμβανόμενα νευρωνικά δίκτυα (Jim et al., 1996; Graves, 2011). Αυτό μπορεί να ερμηνευθεί ως μια στοχαστική εφαρμογή του συμπερασμάτων Bayes σχετικά με τα βάρη. Η χρήση μιας Μπεϋζιανής προσέγγισης στη μαθησιακή διαδικασία αντιμετωπίζει τα βάρη ως αβέβαια και αυτή η αβεβαιότητα μπορεί να αναπαρασταθεί από μια κατανομή πιθανοτήτων. Η προσθήκη θορύβου στα βάρη είναι ένας πρακτικός στοχαστικός τρόπος να αντικατοπτρίζεται αυτή η αβεβαιότητα.
  • Κάτω από ορισμένες παραδοχές, ο θόρυβος που εφαρμόζεται στα βάρη μπορεί να ερμηνευθεί ως ισοδύναμος με πιο παραδοσιακές μορφές τακτοποίησης, ενθαρρύνοντας τη σταθερότητα της συνάρτησης που πρέπει να μαθευτεί.
  • Μελετάμε την περίπτωση της παλινδρόμησης, δηλαδή την εκπαίδευση ενός συνόλου χαρακτηριστικών x boldsymbol{x}Χσυνάρτηση αντιστοιχισμένη σε βαθμωτό y ^ ( x ) καπέλο{y}(boldsymbol{x})y^(Χ)και χρησιμοποιήστε τη συνάρτηση κόστους ελαχίστων τετραγώνων για να μετρήσετε την τιμή πρόβλεψης του μοντέλου y ^ καπέλο{y}y^με αληθινή αξία εεεyλάθος
    J = E p ( x , y ) [ ( y ^ ( x ) − y ) 2 ] —Τύπος 1 J=mathbb{E}_{p(x,y)}[(hat{y}(boldsymbol{x} )-y)^2]quadtextbf{footnotesize{---Τύπος 1}}J=μιΠ(Χ,y)[(y^(Χ)y)2]τύπος1
  • Το σετ εκπαίδευσης περιέχει mmΜΠαραδείγματα σχολιασμού { ( x ( i ) , y ( i ) ) , … , ( x ( m ) , y ( m ) ) } {(boldsymbol{x}^{(i)},y^{(i)}),dots ,(boldsymbol{x}^{(m)},y^{(m)})}{(Χ(Εγώ),y(Εγώ)),,(Χ(Μ),y(Μ))}
  • Τώρα υποθέτουμε ότι σε κάθε αναπαράσταση εισόδου προστίθεται μια τυχαία διαταραχή των βαρών του δικτύου ϵ w ∼ N ( ϵ ; 0 , η I ) epsilon_wsimmathcal{N}(boldsymbol{epsilon};0,etaboldsymbol{I})ϵwΝ(ϵ;0,ηΕγώ)Φανταστείτε ότι έχουμε ένα πρότυπο llμεγάλοστρώμα Κείμενο MLP{MLP}MLP .Συμβολίζουμε το μοντέλο διαταραχής ως y ^ ϵ W ( x ) καπέλο{y}_{epsilon_{boldsymbol{W}}}(boldsymbol{x})y^ϵW(Χ)
  • Μας ενδιαφέρει να μειώσουμε το τετράγωνο του σφάλματος εξόδου δικτύου παρά την έγχυση θορύβου. Επομένως η αντικειμενική συνάρτηση είναι: { J ^ W = E p ( x , y , ϵ W ) [ ( y ^ ϵ W ( x ) − y ) 2 ] —Τύπος 2 = E p ( x , y , ϵ W ) [ y ^ ϵ W 2 ( x ) − 2 yy ^ ϵ W ( x ) + y 2 ] —Τύπος 3 {J^W=μιΠ(Χ,y,ϵW)[(y^ϵW(Χ)y)2]τύπος2=μιΠ(Χ,y,ϵW)[y^ϵW2(Χ)2yy^ϵW(Χ)+y2]τύπος3
  • για μικρά η etaη, ελαχιστοποιώντας τον σταθμισμένο θόρυβο (η διακύμανση είναι η I etaboldsymbol{I}ηΕγώ)του JJJΙσοδυναμεί με την ελαχιστοποίηση του πρόσθετου όρου τακτοποίησης J : η E p ( x , y ) [ ∥ ∇ W y ^ ( x ) ∥ 2 ] J:etamathbb{E}_{p(x,y)}αριστερά[Vertnabla_{boldsymbol{W}}καπέλο{y} (boldsymbol{x}) Vert^2right]J:ημιΠ(Χ,y)[Wy^(Χ)2]
  • Αυτή η μορφή τακτοποίησης ενθαρρύνει τις παραμέτρους να εισέλθουν σε περιοχές του χώρου παραμέτρων όπου μικρές διαταραχές στα βάρη έχουν σχετικά μικρό αντίκτυπο στην έξοδο. Με άλλα λόγια, ωθεί το μοντέλο σε μια περιοχή που είναι σχετικά μη ευαίσθητη σε μικρές αλλαγές στα βάρη και τα σημεία που βρέθηκαν δεν είναι απλώς ελάχιστα σημεία, αλλά ελάχιστα σημεία που περιβάλλονται από επίπεδες περιοχές (Hochreiter and Schmidhuber, 1995).
  • Σε απλοποιημένη γραμμική παλινδρόμηση (π.χ. y ^ ( x ) = w ⊤ x + b καπέλο{y}(boldsymbol{x})=boldsymbol{w}^topboldsymbol{x}+by^(Χ)=wΧ+σι, ο κανονικός όρος εκφυλίζεται σε: η E p ( x) [ ∥ x ∥ 2 ] etamathbb{E}_{p(x)}[Vertboldsymbol{x}Vert^2]ημιΠ(Χ)[Χ2], που δεν έχει καμία σχέση με τις παραμέτρους της συνάρτησης, άρα δεν θα έχει J ^ w καπέλο{J}_wJ^wΣυμβάλλει στις κλίσεις των παραμέτρων του μοντέλου.

Εισάγετε θόρυβο στον στόχο εξόδου

  • Τα περισσότερα σύνολα δεδομένων εεεy Υπάρχουν κάποια λάθη στις ετικέτες.πότε εεεyείναι λάθος να μεγιστοποιείς log ⁡ p ( y ∣ x ) log p(ymidboldsymbol{x})ιδούσολΠ(yΧ)θα ήταν επιβλαβές.
  • Ένας τρόπος για να αποφευχθεί αυτό είναι να διαμορφώσετε ρητά τον θόρυβο στις ετικέτες.
    • Για παράδειγμα, μπορούμε να υποθέσουμε ότι για κάποια μικρή σταθερά ϵ έψιλονϵ, ετικέτα σετ εκπαίδευσης εεεyΗ πιθανότητα να είσαι σωστός είναι 1 − ϵ 1-έψιλον1ϵ, οποιαδήποτε άλλη πιθανή ετικέτα μπορεί να είναι σωστή.
    • Αυτή η υπόθεση μπορεί εύκολα να συνδυαστεί αναλυτικά με τη συνάρτηση κόστους χωρίς ρητή λήψη θορυβωδών δειγμάτων.
    • Για παράδειγμα,εξομάλυνση ετικέτας(εξομάλυνση ετικέτας) με βάση κκκμια έξοδο κείμενο softmax{softmax}softmaxλειτουργία, η οποία παραπέμπει σε σαφή ταξινόμηση 0 0 0και 1 1 1Αντικατέστησε με ϵ k − 1 displaystylefrac{epsilon}{k-1}κ1ϵκαι 1 − ϵ 1-έψιλον1ϵ, για την τακτοποίηση του μοντέλου.
  • Η τυπική απώλεια διασταυρούμενης εντροπίας μπορεί να χρησιμοποιηθεί στην έξοδο αυτών των μη ακριβών στόχων.χρήση κείμενο softmax{softmax}softmaxΗ μέγιστη πιθανότητα εκμάθησης των λειτουργιών και των σαφών στόχων δεν μπορεί ποτέ να συγκλίνουν - κείμενο softmax{softmax}softmaxΟι συναρτήσεις δεν μπορούν ποτέ να προβλέψουν αληθινά 0 0 0πιθανότητα ή 1 1 1 πιθανότητα, επομένως συνεχίζει να μαθαίνει όλο και μεγαλύτερα βάρη, κάνοντας τις προβλέψεις πιο ακραίες. Η χρήση άλλων στρατηγικών τακτοποίησης όπως η αποσύνθεση βάρους μπορεί να το αποτρέψει. Η εξομάλυνση ετικετών έχει το πλεονέκτημα ότι εμποδίζει το μοντέλο να ακολουθεί σαφείς πιθανότητες χωρίς να παρεμποδίζει τη σωστή ταξινόμηση. Αυτή η στρατηγική έχει χρησιμοποιηθεί από τη δεκαετία του 1980 και συνεχίζει να εμφανίζεται εξέχουσα θέση στα σύγχρονα νευρωνικά δίκτυα (Szegedy et al., 2015).

Συνοψίζω

  • Η βελτίωση της ανθεκτικότητας του θορύβου στη βαθιά εκμάθηση είναι το κλειδί για τη διασφάλιση της σταθερότητας του μοντέλου σε περιβάλλοντα πραγματικού κόσμου. Μέσω μιας σειράς καινοτόμων τεχνικών μέσων, όπως η βελτίωση δεδομένων, η εκπαίδευση έγχυσης θορύβου, η βελτιστοποίηση της δομής του μοντέλου κ.λπ., μπορούμε να βελτιώσουμε αποτελεσματικά την ανοχή του μοντέλου στον θόρυβο και την ακρίβεια αναγνώρισης. Αυτές οι προσπάθειες όχι μόνο προωθούν την περαιτέρω ανάπτυξη της τεχνολογίας βαθιάς μάθησης, αλλά φέρνουν επίσης πιο αξιόπιστες και αποτελεσματικές λύσεις σε πρακτικές εφαρμογές στην αναγνώριση ομιλίας, την αναγνώριση εικόνας, την επεξεργασία φυσικής γλώσσας και άλλους τομείς.
  • Στο μέλλον, με την εμβάθυνση της έρευνας και τη συνεχή πρόοδο της τεχνολογίας, έχουμε λόγους να πιστεύουμε ότι η ανθεκτικότητα του θορύβου των μοντέλων βαθιάς μάθησης θα βελτιωθεί περαιτέρω, φέρνοντας επαναστατικές αλλαγές σε περισσότερα πεδία.

Επιστροφή προηγούμενου περιεχομένου

Τεχνολογία τακτοποίησης στη βαθιά μάθηση-βελτίωση συνόλων δεδομένων