Κοινή χρήση τεχνολογίας

ChatGPT2 "Deep Analysis": Μοντέλο γλώσσας για εκμάθηση πολλαπλών εργασιών χωρίς επίβλεψη (2019)

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Περίληψη χαρτιού

Ακολουθεί η προσωπική μου περίληψη μετά την ανάγνωση ολόκληρης της εργασίας, η οποία περιέχει το κύριο περιεχόμενο του άρθρου ChatGPT-2. Μπορείτε να διαβάσετε μόνο το κεφάλαιο [Περίληψη χαρτιού].

σύνολο δεδομένων

Έφτιαξα ένα σπιτικό πρόγραμμα ανίχνευσης ιστού.τελικό παραγόμενο
Σύνολο δεδομένων WebText
, που περιέχει 45 εκατομμύρια συνδέσμους. Το άλλο μέρος προέρχεται από ειδησεογραφικούς ιστότοπους Από τον Δεκέμβριο του 2017, ο συνολικός όγκος δεδομένων φτάνει τα 8.000.000 άρθρα, με συνολικό περιεχόμενο κειμένου 40 GB.Το άρθρο ανέφερε επίσης ότι κείμενα όπως η Wikipedia και άλλα κείμενα περιλαμβάνονται επίσης στο σύνολο δεδομένων εκπαίδευσης, από
Συμμετέχουν εκατομμύρια άνθρωποι σε όλο τον κόσμο
για να δημιουργήσετε και να καθαρίσετε το σύνολο δεδομένων που χρησιμοποιείται για την εκπαίδευση GPT-2.

Αναπαράσταση εισόδου

σχεδιάστηκε α
Υβριδική αναπαράσταση εισόδου που συνδυάζει αναπαράσταση σε επίπεδο λέξης και αναπαράσταση σε επίπεδο byte
. Για τις προηγούμενες βιβλιοθήκες σε επίπεδο λέξης, ένας μεγάλος αριθμός επαναλαμβανόμενων λέξεων έχει αφαιρεθεί και έχει εισαχθεί αναπαράσταση σε επίπεδο byte για τη βελτίωση των δυνατοτήτων γενίκευσης.

Η αναπαράσταση σε επίπεδο λέξης έχει a priori πλεονεκτήματα και η αναπαράσταση σε επίπεδο byte έχει πλεονεκτήματα γενίκευσης.

Μοντέλο

Έχουν γίνει ορισμένες τροποποιήσεις για το GPT1:

1. Μετακινήστε την κανονικοποίηση στρώσης στην είσοδο κάθε υπομπλοκ.

2. Προσθέστε επιπλέον κανονικοποίηση στρώματος μετά το μπλοκ αυτοπροσοχής.

3. Βελτιώθηκε η μέθοδος αρχικοποίησης (κατά την προετοιμασία, το βάρος του υπολειπόμενου στρώματος επεκτείνεται κατά πολλαπλάσιο του 1/√N, N είναι ο αριθμός των υπολειπόμενων στρωμάτων).

4. Επέκταση λεξικού, επέκταση τμηματοποίησης λέξεων, επέκταση συνόλου εντολών και επέκταση μεγέθους επεξεργασίας παρτίδας.

5.Το GPT περιέχει 117000000 παραμέτρους,
Το GPT-2 περιέχει 1542000000 παραμέτρους

πείραμα

Επειδή προπονούμαστε μόνο μία φορά, αλλά θέλουμε να παρατηρήσουμε την απόδοση του μοντέλου σε διάφορες υποδιαιρέσεις, όλα τα πειράματα μπορούν να ταξινομηθούν ως
Μηδενική μάθηση

Δοκιμαστικά είδηΠοια πτυχή του μοντέλου ελέγχεται;Αποτελέσματα Δοκιμών
παιδικά βιβλίαΠροσδιορίστε διαφορετικούς τύπους λεξιλογίουΤο ACC βελτιώθηκε από 85,7 σε 93,3
Δοκιμή LAMBADAΔυνατότητα αναγνώρισης μεγάλων εξαρτήσεων στο κείμενοPPL99,8 μειώθηκε σε 8,63
Πρόκληση Σχήματος Winogradσυλλογισμός κοινής λογικής63,7% αυξήθηκε στο 70,7%
αναγνωστική κατανόησηΤο μοντέλο πρέπει να έχει ορισμένες δυνατότητες μνήμης4 δοκιμές και 3 ανανεωμένα ιστορικά αρχεία
ΠερίληψηΗ δυνατότητα εξαγωγής περιλήψεων άρθρων ειδήσεωνΣύμφωνα με τα ιστορικά αποτελέσματα
μεταφράζωΜεταφραστικές δυνατότητες αυτόματης εκμάθησης μεγάλου μοντέλουΗ αγγλική μετάφραση είναι κακή, ενώ η γαλλική μετάφραση φτάνει στο επίπεδο αναφοράς.
Q&AΗ ικανότητα ενός μοντέλου να απαντά σωστά σε εύλογες ερωτήσειςΗ ακρίβεια αυξήθηκε κατά 5,3 φορές
Συνοψίζω

Το βασικό περιεχόμενο του χαρτιού GPT-2 μπορεί να συνοψιστεί σε μία πρόταση: δηλαδή
Με βάση το μοντέλο GPT, ο συγγραφέας αύξησε το μέγεθος του μοντέλου και το μέγεθος του συνόλου δεδομένων εκπαίδευσης και διαπίστωσε ότι το GPT-2 μπορεί αυτόματα να προσαρμοστεί και να ολοκληρώσει την εκμάθηση των στόχων εργασιών σε διαφορετικά πεδία του NLP.

Για παράδειγμα, εισάγουμε σύνολα δεδομένων από κείμενο καθημερινής συνομιλίας και κείμενο αναφοράς ειδήσεων σε ένα σταθερό γλωσσικό μοντέλο ταυτόχρονα και αυτό το σύνολο δεδομένων είναι αρκετά μεγάλο, το μοντέλο είναι αρκετά μεγάλο και ο χρόνος εκπαίδευσης είναι αρκετά μεγάλος. Το τελικό μοντέλο θα έχει τη δυνατότητα να διακρίνει διαφορετικά σενάρια καθημερινών συνομιλιών και ειδήσεων Όχι μόνο αυτό, το μοντέλο θα έχει επίσης αυτόματα ορισμένες νέες δυνατότητες, όπως τη δυνατότητα σύνταξης περιλήψεων ειδήσεων.

Αυτό σημαίνει ότι τα μεγάλα γλωσσικά μοντέλα έχουν ισχυρές δυνατότητες γενίκευσης, αλλά σημαίνει επίσης ότι
Τα μεγάλα γλωσσικά μοντέλα θα είναι δυνητικά αυτόνομα
. Αυτό το άρθρο παρουσιάζει στη συνέχεια πειραματικά αποτελέσματα για διάφορες ανεξάρτητες περιοχές που αναφέρονται από τον συγγραφέα.

Σε σύγκριση με το χαρτί GPT που ανέφερε μόνο το μεγάλο σύνολο δεδομένων, η περιγραφή του LLM (Large Language Model) άρχισε να εμφανίζεται στο χαρτί GPT-2.


Ερμηνεία του αρχικού κειμένου της εργασίας

Διεύθυνση πρωτότυπου χαρτιού: https://cdn.openai.com/better-language-models/language_models_are_uns