Deep Learning-Gradient Descent Algorithm-NLP(5)

Deep Learning-Gradient Descent Algorithm-NLP (5)

2024-07-12

αλγόριθμος κατάβασης κλίσης

Εισαγωγή στον αλγόριθμο gradient descent στη βαθιά μάθηση

Εισαγωγή στον αλγόριθμο gradient descent στη βαθιά μάθηση

Ελάχιστο πρόβλημα εύρεσης

Εισαγωγή: Όταν εκπαιδεύουμε ένα μοντέλο τεχνητής νοημοσύνης, για να το θέσω απλά, προσαρμόζουμε τις παραμέτρους του μοντέλου με βάση τα δεδομένα έτσι ώστεΤο μοντέλο προβλέπει την ίδια τιμή με τα δεδομένα μας .Αλλά σίγουρα ήταν διαφορετικά στην αρχή, έτσι κι εμείςΕισαγάγετε τη λειτουργία απώλειας, χρησιμοποιήστε το για να υπολογίσετε πόση διαφορά υπάρχει, μπορούμε να μάθουμε πόση διαφορά υπάρχει και πώς προσαρμόζουμε τις παραμέτρους στο αρχικό μοντέλο;

Γιατί! Ο σκοπός της προσαρμογής των παραμέτρων του αρχικού μοντέλου είναι να γίνει η προβλεπόμενη τιμή ίδια με την απαιτούμενη τιμή. Είναι δυνατόν να βρεθεί μια παράμετρος μοντέλου που ελαχιστοποιεί το χάσμα μεταξύ της υπολογισμένης προβλεπόμενης τιμής και της απαιτούμενης τιμής; ===》Αυτό είναι το πρόβλημα εύρεσης της ελάχιστης τιμής

Ουσιαστικά λοιπόν είναι να βρεθεί η ελάχιστη τιμή της συνάρτησης απώλειας.

Βρείτε την ελάχιστη τιμή μαθηματικά

Εισαγάγετε την περιγραφή της εικόνας εδώ
Οδηγίες αποσυναρμολόγησης:
Στόχος: Βρείτε την κατάλληλη τιμή x που ελαχιστοποιεί την f(x).
λογική

1. Επιλέξτε οποιοδήποτε σημείο x0 και υπολογίστε την τιμή της παραγώγου f(x0) σε αυτό το σημείο
2. Σύμφωνα με το πρόσημο της παραγώγου, αποφασίστε εάν το x0 πρέπει να αυξηθεί ή να μειωθεί.Εάν η παράγωγος είναι θετική, τότε μειώνεται το x γιατί καθώς αυξάνεται, το y θα αυξάνεται επίσης εάν η παράγωγος είναι αρνητική
3.迭代进行1,2步直到导数为0；或者导数变号了。
Κάτω από ποιες συνθήκες το παράγωγο αλλάζει πρόσημο;
那就函数的值，之前在减小，现在在增大了，所以导数就会编号，那么最小值就在其中（救赎之道，就在其中）

βαθμίδα

βαθμίδα: Μπορεί να γίνει άμεσα κατανοητό ως παράγωγος, αλλά στη βαθιά μάθηση, συνήθως δεν είναι παράγωγος, δηλαδή παράγεται η παράγωγος μιας πολυμεταβλητής συνάρτησης.
Εισαγάγετε την περιγραφή της εικόνας εδώ
για παράδειγμα:
Unary συνάρτηση:

Αρχική συνάρτηση: y=5x^2
Παράγωγη συνάρτηση: y= 10x
Δηλαδή, όταν x=1, η τιμή της παραγώγου είναι 10

ΠΟΛΛΑΠΛΩΝ ΧΡΗΣΕΩΝ

Τριαδική συνάρτηση: y=2x^2 + 6z^2 + 7m^3
Παράγωγη συνάρτηση (δηλαδή, μερική λύση παραγώγου για τρεις άγνωστους αριθμούς): y={4x,12z,21m^2}
Η κλίση στο [1,1,1] είναι [4,12,21] και η κλίση είναι διάνυσμα

Όλες παράγουν συναρτήσεις και μπορείτε να χρησιμοποιήσετε παράγωγα για να κατανοήσετε τις διαβαθμίσεις.

αλγόριθμος κατάβασης κλίσης

Ορισμός: Ο αλγόριθμος gradient descent είναι μια λογική που υπολογίζει την κλίση του μοντέλου στα δεδομένα εισόδου και στη συνέχεια ενημερώνει τις αρχικές παραμέτρους βάρους του μοντέλου μέσω του ρυθμού εκμάθησης. Υπάρχουν πολλοί τύποι αλγορίθμων που χρησιμοποιούνται, τους οποίους θα εισαγάγουμε.
Εισαγάγετε την περιγραφή της εικόνας εδώ

Εύρεση του προβλήματος ελάχιστης αξίας στη διαδικασία βαθιάς μάθησης

Συνολικό διάγραμμα ροής βαθιάς μάθησης

Το παρακάτω σχηματικό διάγραμμα είναι το διάγραμμα ροής της βαθιάς μάθησης, στο οποίο η τιμή εύρεσης του προβλήματος ελάχιστης τιμής αντιστοιχεί σεΛειτουργία απώλειας–>Optimizer–>Μοντέλο
Εισαγάγετε την περιγραφή της εικόνας εδώ

Ο στόχος της επίλυσης της συνάρτησης απώλειας

1. Όσο μικρότερη είναι η συνάρτηση απώλειας, τόσο καλύτερο είναι το μοντέλο.
2. Ο στόχος της μάθησης είναι η ελαχιστοποίηση της συνάρτησης απώλειας
3. Το βάρος του μοντέλου επηρεάζει τη λειτουργία απώλειας
4. Βρείτε το βέλτιστο βάρος μέσω κλίσης κατάβασης

ενημέρωση βάρους

ενημερωμένη λογική

1. Υπολογίστε την προβλεπόμενη τιμή y1 με βάση την είσοδο x και το τρέχον βάρος του μοντέλου
2. Χρησιμοποιήστε τη συνάρτηση απώλειας για να υπολογίσετε την απώλεια με βάση τα y1 και y
3. Υπολογίστε την κλίση του βάρους του μοντέλου με βάση την απώλεια
4. Χρησιμοποιήστε την κλίση και το ρυθμό εκμάθησης για να προσαρμόσετε το βάρος του μοντέλου σύμφωνα με τον βελτιστοποιητή

Μέθοδος ενημέρωσης:

1. Όλα τα δείγματα υπολογίζουν την κλίση (συσσώρευση) την κάθοδο κλίσης μαζί
2. Χρησιμοποιήστε ένα δείγμα τη φορά για να υπολογίσετε την κλίση Στοχαστική κλίση κάθοδος
3. Χρησιμοποιήστε n δείγματα κάθε φορά για να υπολογίσετε την κάθοδο βαθμίδας (συσσώρευση) μίνι-παρτίδας

Κοινή χρήση τεχνολογίας