le mie informazioni di contatto
Posta[email protected]
2024-07-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Quello che segue è il mio riepilogo personale dopo aver letto l'intero documento, che contiene il contenuto principale dell'articolo ChatGPT-2. Puoi leggere solo il capitolo [Riepilogo del documento].
Ho creato un web crawler fatto in casa. Alcune delle pagine web sottoposte a scansione provengono da piattaforme social.finale generato
Set di dati WebText
, contenente 45 milioni di link. L'altra parte proviene da siti Web di notizie. A dicembre 2017, il volume totale di dati raggiunge 8.000.000 di articoli, per un totale di 40 GB di contenuti testuali.L'articolo menzionava anche che nel set di dati di addestramento sono inclusi anche testi tra cui Wikipedia e altri testi
Partecipano milioni di persone in tutto il mondo
per creare e pulire il set di dati utilizzato per l'addestramento GPT-2.
progettato a
Rappresentazione di input ibrida che combina la rappresentazione a livello di parola e la rappresentazione a livello di byte
. Nelle precedenti librerie a livello di parola, un gran numero di parole ripetute è stato rimosso ed è stata introdotta la rappresentazione a livello di byte per migliorare le capacità di generalizzazione.
La rappresentazione a livello di parola presenta vantaggi a priori e la rappresentazione a livello di byte presenta vantaggi di generalizzazione.
Sono state apportate alcune modifiche per GPT1:
1. Spostare la normalizzazione del livello all'input di ciascun sottoblocco.
2. Aggiungi ulteriore normalizzazione del livello dopo il blocco dell'autoattenzione.
3. Migliorato il metodo di inizializzazione (durante l'inizializzazione, il peso dello strato residuo viene espanso di un multiplo di 1/√N, N è il numero di strati residui).
4. Espansione del dizionario, espansione della segmentazione delle parole, espansione del set di istruzioni ed espansione delle dimensioni dell'elaborazione batch.
5.GPT contiene 117000000 parametri,
GPT-2 contiene 1542000000 parametri
。
Poiché ci alleniamo solo una volta, ma vogliamo osservare le prestazioni del modello in varie suddivisioni, tutti gli esperimenti possono essere classificati come
Apprendimento a colpo zero
。
Testare gli articoli | Quale aspetto del modello viene testato? | Risultati del test |
---|---|---|
libri per bambini | Identificare diversi tipi di vocabolario | ACC migliorato da 85,7 a 93,3 |
Prova LAMBADA | La capacità di identificare lunghe dipendenze nel testo | PPL99,8 ridotto a 8,63 |
Sfida dello schema Winograd | ragionamento basato sul buon senso | Il 63,7% è salito al 70,7% |
comprensione della lettura | Il modello deve avere determinate capacità di memoria | 4 prove e 3 documenti storici aggiornati |
Riepilogo | La capacità di estrarre riassunti di articoli di notizie | In linea con i risultati storici |
tradurre | Capacità di traduzione dell'apprendimento automatico di grandi modelli | La traduzione inglese è scarsa, mentre la traduzione francese raggiunge il livello di riferimento. |
Domande e risposte | La capacità di un modello di rispondere correttamente a domande plausibili | La precisione è aumentata di 5,3 volte |
Il contenuto principale del documento GPT-2 può essere riassunto in una frase: cioè
Sulla base del modello GPT, l'autore ha aumentato le dimensioni del modello e del set di dati di addestramento e ha scoperto che GPT-2 può adattarsi e completare automaticamente l'apprendimento degli obiettivi del compito in diversi campi della PNL.
。
Ad esempio, inseriamo contemporaneamente set di dati di testo di conversazione quotidiana e testo di notizie in un modello linguistico fisso e questo set di dati è sufficientemente grande, il modello è sufficientemente grande e il tempo di addestramento è sufficientemente lungo. Il modello finale avrà la capacità di distinguere diversi scenari di conversazioni quotidiane e notizie. Non solo, il modello avrà anche automaticamente alcune nuove funzionalità, come la capacità di scrivere riassunti di notizie.
Ciò significa che i modelli linguistici di grandi dimensioni hanno forti capacità di generalizzazione, ma significa anche questo
I grandi modelli linguistici saranno potenzialmente autonomi
. Questo articolo presenta quindi i risultati sperimentali per diverse aree indipendenti elencate dall'autore.
Rispetto al documento GPT che menzionava solo Large Dataset, la descrizione di LLM (Large Language Model) ha cominciato ad apparire nel documento GPT-2.
Indirizzo del documento originale: https://cdn.openai.com/better-lingual-models/lingual_models_are_uns