τα στοιχεία επικοινωνίας μου
Ταχυδρομείο[email protected]
2024-07-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Ακολουθεί η προσωπική μου περίληψη μετά την ανάγνωση ολόκληρης της εργασίας, η οποία περιέχει το κύριο περιεχόμενο του άρθρου ChatGPT-2. Μπορείτε να διαβάσετε μόνο το κεφάλαιο [Περίληψη χαρτιού].
Έφτιαξα ένα σπιτικό πρόγραμμα ανίχνευσης ιστού.τελικό παραγόμενο
Σύνολο δεδομένων WebText
, που περιέχει 45 εκατομμύρια συνδέσμους. Το άλλο μέρος προέρχεται από ειδησεογραφικούς ιστότοπους Από τον Δεκέμβριο του 2017, ο συνολικός όγκος δεδομένων φτάνει τα 8.000.000 άρθρα, με συνολικό περιεχόμενο κειμένου 40 GB.Το άρθρο ανέφερε επίσης ότι κείμενα όπως η Wikipedia και άλλα κείμενα περιλαμβάνονται επίσης στο σύνολο δεδομένων εκπαίδευσης, από
Συμμετέχουν εκατομμύρια άνθρωποι σε όλο τον κόσμο
για να δημιουργήσετε και να καθαρίσετε το σύνολο δεδομένων που χρησιμοποιείται για την εκπαίδευση GPT-2.
σχεδιάστηκε α
Υβριδική αναπαράσταση εισόδου που συνδυάζει αναπαράσταση σε επίπεδο λέξης και αναπαράσταση σε επίπεδο byte
. Για τις προηγούμενες βιβλιοθήκες σε επίπεδο λέξης, ένας μεγάλος αριθμός επαναλαμβανόμενων λέξεων έχει αφαιρεθεί και έχει εισαχθεί αναπαράσταση σε επίπεδο byte για τη βελτίωση των δυνατοτήτων γενίκευσης.
Η αναπαράσταση σε επίπεδο λέξης έχει a priori πλεονεκτήματα και η αναπαράσταση σε επίπεδο byte έχει πλεονεκτήματα γενίκευσης.
Έχουν γίνει ορισμένες τροποποιήσεις για το GPT1:
1. Μετακινήστε την κανονικοποίηση στρώσης στην είσοδο κάθε υπομπλοκ.
2. Προσθέστε επιπλέον κανονικοποίηση στρώματος μετά το μπλοκ αυτοπροσοχής.
3. Βελτιώθηκε η μέθοδος αρχικοποίησης (κατά την προετοιμασία, το βάρος του υπολειπόμενου στρώματος επεκτείνεται κατά πολλαπλάσιο του 1/√N, N είναι ο αριθμός των υπολειπόμενων στρωμάτων).
4. Επέκταση λεξικού, επέκταση τμηματοποίησης λέξεων, επέκταση συνόλου εντολών και επέκταση μεγέθους επεξεργασίας παρτίδας.
5.Το GPT περιέχει 117000000 παραμέτρους,
Το GPT-2 περιέχει 1542000000 παραμέτρους
。
Επειδή προπονούμαστε μόνο μία φορά, αλλά θέλουμε να παρατηρήσουμε την απόδοση του μοντέλου σε διάφορες υποδιαιρέσεις, όλα τα πειράματα μπορούν να ταξινομηθούν ως
Μηδενική μάθηση
。
Δοκιμαστικά είδη | Ποια πτυχή του μοντέλου ελέγχεται; | Αποτελέσματα Δοκιμών |
---|---|---|
παιδικά βιβλία | Προσδιορίστε διαφορετικούς τύπους λεξιλογίου | Το ACC βελτιώθηκε από 85,7 σε 93,3 |
Δοκιμή LAMBADA | Δυνατότητα αναγνώρισης μεγάλων εξαρτήσεων στο κείμενο | PPL99,8 μειώθηκε σε 8,63 |
Πρόκληση Σχήματος Winograd | συλλογισμός κοινής λογικής | 63,7% αυξήθηκε στο 70,7% |
αναγνωστική κατανόηση | Το μοντέλο πρέπει να έχει ορισμένες δυνατότητες μνήμης | 4 δοκιμές και 3 ανανεωμένα ιστορικά αρχεία |
Περίληψη | Η δυνατότητα εξαγωγής περιλήψεων άρθρων ειδήσεων | Σύμφωνα με τα ιστορικά αποτελέσματα |
μεταφράζω | Μεταφραστικές δυνατότητες αυτόματης εκμάθησης μεγάλου μοντέλου | Η αγγλική μετάφραση είναι κακή, ενώ η γαλλική μετάφραση φτάνει στο επίπεδο αναφοράς. |
Q&A | Η ικανότητα ενός μοντέλου να απαντά σωστά σε εύλογες ερωτήσεις | Η ακρίβεια αυξήθηκε κατά 5,3 φορές |
Το βασικό περιεχόμενο του χαρτιού GPT-2 μπορεί να συνοψιστεί σε μία πρόταση: δηλαδή
Με βάση το μοντέλο GPT, ο συγγραφέας αύξησε το μέγεθος του μοντέλου και το μέγεθος του συνόλου δεδομένων εκπαίδευσης και διαπίστωσε ότι το GPT-2 μπορεί αυτόματα να προσαρμοστεί και να ολοκληρώσει την εκμάθηση των στόχων εργασιών σε διαφορετικά πεδία του NLP.
。
Για παράδειγμα, εισάγουμε σύνολα δεδομένων από κείμενο καθημερινής συνομιλίας και κείμενο αναφοράς ειδήσεων σε ένα σταθερό γλωσσικό μοντέλο ταυτόχρονα και αυτό το σύνολο δεδομένων είναι αρκετά μεγάλο, το μοντέλο είναι αρκετά μεγάλο και ο χρόνος εκπαίδευσης είναι αρκετά μεγάλος. Το τελικό μοντέλο θα έχει τη δυνατότητα να διακρίνει διαφορετικά σενάρια καθημερινών συνομιλιών και ειδήσεων Όχι μόνο αυτό, το μοντέλο θα έχει επίσης αυτόματα ορισμένες νέες δυνατότητες, όπως τη δυνατότητα σύνταξης περιλήψεων ειδήσεων.
Αυτό σημαίνει ότι τα μεγάλα γλωσσικά μοντέλα έχουν ισχυρές δυνατότητες γενίκευσης, αλλά σημαίνει επίσης ότι
Τα μεγάλα γλωσσικά μοντέλα θα είναι δυνητικά αυτόνομα
. Αυτό το άρθρο παρουσιάζει στη συνέχεια πειραματικά αποτελέσματα για διάφορες ανεξάρτητες περιοχές που αναφέρονται από τον συγγραφέα.
Σε σύγκριση με το χαρτί GPT που ανέφερε μόνο το μεγάλο σύνολο δεδομένων, η περιγραφή του LLM (Large Language Model) άρχισε να εμφανίζεται στο χαρτί GPT-2.
Διεύθυνση πρωτότυπου χαρτιού: https://cdn.openai.com/better-language-models/language_models_are_uns