ChatGPT2 "Deep Analysis": Language Model for Unsupervised Multi-Task Learning (2019)

ChatGPT2 "Deep Analysis": Μοντέλο γλώσσας για εκμάθηση πολλαπλών εργασιών χωρίς επίβλεψη (2019)

2024-07-12

Περίληψη χαρτιού

Ακολουθεί η προσωπική μου περίληψη μετά την ανάγνωση ολόκληρης της εργασίας, η οποία περιέχει το κύριο περιεχόμενο του άρθρου ChatGPT-2. Μπορείτε να διαβάσετε μόνο το κεφάλαιο [Περίληψη χαρτιού].

σύνολο δεδομένων

Έφτιαξα ένα σπιτικό πρόγραμμα ανίχνευσης ιστού.τελικό παραγόμενο
Σύνολο δεδομένων WebText
, που περιέχει 45 εκατομμύρια συνδέσμους. Το άλλο μέρος προέρχεται από ειδησεογραφικούς ιστότοπους Από τον Δεκέμβριο του 2017, ο συνολικός όγκος δεδομένων φτάνει τα 8.000.000 άρθρα, με συνολικό περιεχόμενο κειμένου 40 GB.Το άρθρο ανέφερε επίσης ότι κείμενα όπως η Wikipedia και άλλα κείμενα περιλαμβάνονται επίσης στο σύνολο δεδομένων εκπαίδευσης, από
Συμμετέχουν εκατομμύρια άνθρωποι σε όλο τον κόσμο
για να δημιουργήσετε και να καθαρίσετε το σύνολο δεδομένων που χρησιμοποιείται για την εκπαίδευση GPT-2.

Αναπαράσταση εισόδου

σχεδιάστηκε α
Υβριδική αναπαράσταση εισόδου που συνδυάζει αναπαράσταση σε επίπεδο λέξης και αναπαράσταση σε επίπεδο byte
. Για τις προηγούμενες βιβλιοθήκες σε επίπεδο λέξης, ένας μεγάλος αριθμός επαναλαμβανόμενων λέξεων έχει αφαιρεθεί και έχει εισαχθεί αναπαράσταση σε επίπεδο byte για τη βελτίωση των δυνατοτήτων γενίκευσης.

Η αναπαράσταση σε επίπεδο λέξης έχει a priori πλεονεκτήματα και η αναπαράσταση σε επίπεδο byte έχει πλεονεκτήματα γενίκευσης.

Μοντέλο

Έχουν γίνει ορισμένες τροποποιήσεις για το GPT1:

1. Μετακινήστε την κανονικοποίηση στρώσης στην είσοδο κάθε υπομπλοκ.

2. Προσθέστε επιπλέον κανονικοποίηση στρώματος μετά το μπλοκ αυτοπροσοχής.

3. Βελτιώθηκε η μέθοδος αρχικοποίησης (κατά την προετοιμασία, το βάρος του υπολειπόμενου στρώματος επεκτείνεται κατά πολλαπλάσιο του 1/√N, N είναι ο αριθμός των υπολειπόμενων στρωμάτων).

4. Επέκταση λεξικού, επέκταση τμηματοποίησης λέξεων, επέκταση συνόλου εντολών και επέκταση μεγέθους επεξεργασίας παρτίδας.

5.Το GPT περιέχει 117000000 παραμέτρους,
Το GPT-2 περιέχει 1542000000 παραμέτρους
。

πείραμα

Επειδή προπονούμαστε μόνο μία φορά, αλλά θέλουμε να παρατηρήσουμε την απόδοση του μοντέλου σε διάφορες υποδιαιρέσεις, όλα τα πειράματα μπορούν να ταξινομηθούν ως
Μηδενική μάθηση
。

Δοκιμαστικά είδη	Ποια πτυχή του μοντέλου ελέγχεται;	Αποτελέσματα Δοκιμών
παιδικά βιβλία	Προσδιορίστε διαφορετικούς τύπους λεξιλογίου	Το ACC βελτιώθηκε από 85,7 σε 93,3
Δοκιμή LAMBADA	Δυνατότητα αναγνώρισης μεγάλων εξαρτήσεων στο κείμενο	PPL99,8 μειώθηκε σε 8,63
Πρόκληση Σχήματος Winograd	συλλογισμός κοινής λογικής	63,7% αυξήθηκε στο 70,7%
αναγνωστική κατανόηση	Το μοντέλο πρέπει να έχει ορισμένες δυνατότητες μνήμης	4 δοκιμές και 3 ανανεωμένα ιστορικά αρχεία
Περίληψη	Η δυνατότητα εξαγωγής περιλήψεων άρθρων ειδήσεων	Σύμφωνα με τα ιστορικά αποτελέσματα
μεταφράζω	Μεταφραστικές δυνατότητες αυτόματης εκμάθησης μεγάλου μοντέλου	Η αγγλική μετάφραση είναι κακή, ενώ η γαλλική μετάφραση φτάνει στο επίπεδο αναφοράς.
Q&A	Η ικανότητα ενός μοντέλου να απαντά σωστά σε εύλογες ερωτήσεις	Η ακρίβεια αυξήθηκε κατά 5,3 φορές

Συνοψίζω

Το βασικό περιεχόμενο του χαρτιού GPT-2 μπορεί να συνοψιστεί σε μία πρόταση: δηλαδή
Με βάση το μοντέλο GPT, ο συγγραφέας αύξησε το μέγεθος του μοντέλου και το μέγεθος του συνόλου δεδομένων εκπαίδευσης και διαπίστωσε ότι το GPT-2 μπορεί αυτόματα να προσαρμοστεί και να ολοκληρώσει την εκμάθηση των στόχων εργασιών σε διαφορετικά πεδία του NLP.
。

Για παράδειγμα, εισάγουμε σύνολα δεδομένων από κείμενο καθημερινής συνομιλίας και κείμενο αναφοράς ειδήσεων σε ένα σταθερό γλωσσικό μοντέλο ταυτόχρονα και αυτό το σύνολο δεδομένων είναι αρκετά μεγάλο, το μοντέλο είναι αρκετά μεγάλο και ο χρόνος εκπαίδευσης είναι αρκετά μεγάλος. Το τελικό μοντέλο θα έχει τη δυνατότητα να διακρίνει διαφορετικά σενάρια καθημερινών συνομιλιών και ειδήσεων Όχι μόνο αυτό, το μοντέλο θα έχει επίσης αυτόματα ορισμένες νέες δυνατότητες, όπως τη δυνατότητα σύνταξης περιλήψεων ειδήσεων.

Αυτό σημαίνει ότι τα μεγάλα γλωσσικά μοντέλα έχουν ισχυρές δυνατότητες γενίκευσης, αλλά σημαίνει επίσης ότι
Τα μεγάλα γλωσσικά μοντέλα θα είναι δυνητικά αυτόνομα
. Αυτό το άρθρο παρουσιάζει στη συνέχεια πειραματικά αποτελέσματα για διάφορες ανεξάρτητες περιοχές που αναφέρονται από τον συγγραφέα.

Σε σύγκριση με το χαρτί GPT που ανέφερε μόνο το μεγάλο σύνολο δεδομένων, η περιγραφή του LLM (Large Language Model) άρχισε να εμφανίζεται στο χαρτί GPT-2.

Ερμηνεία του αρχικού κειμένου της εργασίας

Διεύθυνση πρωτότυπου χαρτιού: https://cdn.openai.com/better-language-models/language_models_are_uns

Κοινή χρήση τεχνολογίας