ChatGPT2 "Analisi approfondita": modello linguistico per l'apprendimento multitasking non supervisionato (2019)

2024-07-12

Riepilogo dell'articolo

Quello che segue è il mio riepilogo personale dopo aver letto l'intero documento, che contiene il contenuto principale dell'articolo ChatGPT-2. Puoi leggere solo il capitolo [Riepilogo del documento].

insieme di dati

Ho creato un web crawler fatto in casa. Alcune delle pagine web sottoposte a scansione provengono da piattaforme social.finale generato
Set di dati WebText
, contenente 45 milioni di link. L'altra parte proviene da siti Web di notizie. A dicembre 2017, il volume totale di dati raggiunge 8.000.000 di articoli, per un totale di 40 GB di contenuti testuali.L'articolo menzionava anche che nel set di dati di addestramento sono inclusi anche testi tra cui Wikipedia e altri testi
Partecipano milioni di persone in tutto il mondo
per creare e pulire il set di dati utilizzato per l'addestramento GPT-2.

Rappresentazione dell'input

progettato a
Rappresentazione di input ibrida che combina la rappresentazione a livello di parola e la rappresentazione a livello di byte
. Nelle precedenti librerie a livello di parola, un gran numero di parole ripetute è stato rimosso ed è stata introdotta la rappresentazione a livello di byte per migliorare le capacità di generalizzazione.

La rappresentazione a livello di parola presenta vantaggi a priori e la rappresentazione a livello di byte presenta vantaggi di generalizzazione.

Modello

Sono state apportate alcune modifiche per GPT1:

1. Spostare la normalizzazione del livello all'input di ciascun sottoblocco.

2. Aggiungi ulteriore normalizzazione del livello dopo il blocco dell'autoattenzione.

3. Migliorato il metodo di inizializzazione (durante l'inizializzazione, il peso dello strato residuo viene espanso di un multiplo di 1/√N, N è il numero di strati residui).

4. Espansione del dizionario, espansione della segmentazione delle parole, espansione del set di istruzioni ed espansione delle dimensioni dell'elaborazione batch.

5.GPT contiene 117000000 parametri,
GPT-2 contiene 1542000000 parametri
。

sperimentare

Poiché ci alleniamo solo una volta, ma vogliamo osservare le prestazioni del modello in varie suddivisioni, tutti gli esperimenti possono essere classificati come
Apprendimento a colpo zero
。

Testare gli articoli	Quale aspetto del modello viene testato?	Risultati del test
libri per bambini	Identificare diversi tipi di vocabolario	ACC migliorato da 85,7 a 93,3
Prova LAMBADA	La capacità di identificare lunghe dipendenze nel testo	PPL99,8 ridotto a 8,63
Sfida dello schema Winograd	ragionamento basato sul buon senso	Il 63,7% è salito al 70,7%
comprensione della lettura	Il modello deve avere determinate capacità di memoria	4 prove e 3 documenti storici aggiornati
Riepilogo	La capacità di estrarre riassunti di articoli di notizie	In linea con i risultati storici
tradurre	Capacità di traduzione dell'apprendimento automatico di grandi modelli	La traduzione inglese è scarsa, mentre la traduzione francese raggiunge il livello di riferimento.
Domande e risposte	La capacità di un modello di rispondere correttamente a domande plausibili	La precisione è aumentata di 5,3 volte

Riassumere

Il contenuto principale del documento GPT-2 può essere riassunto in una frase: cioè
Sulla base del modello GPT, l'autore ha aumentato le dimensioni del modello e del set di dati di addestramento e ha scoperto che GPT-2 può adattarsi e completare automaticamente l'apprendimento degli obiettivi del compito in diversi campi della PNL.
。

Ad esempio, inseriamo contemporaneamente set di dati di testo di conversazione quotidiana e testo di notizie in un modello linguistico fisso e questo set di dati è sufficientemente grande, il modello è sufficientemente grande e il tempo di addestramento è sufficientemente lungo. Il modello finale avrà la capacità di distinguere diversi scenari di conversazioni quotidiane e notizie. Non solo, il modello avrà anche automaticamente alcune nuove funzionalità, come la capacità di scrivere riassunti di notizie.

Ciò significa che i modelli linguistici di grandi dimensioni hanno forti capacità di generalizzazione, ma significa anche questo
I grandi modelli linguistici saranno potenzialmente autonomi
. Questo articolo presenta quindi i risultati sperimentali per diverse aree indipendenti elencate dall'autore.

Rispetto al documento GPT che menzionava solo Large Dataset, la descrizione di LLM (Large Language Model) ha cominciato ad apparire nel documento GPT-2.

Interpretazione del testo originale dell'articolo

Indirizzo del documento originale: https://cdn.openai.com/better-lingual-models/lingual_models_are_uns

Condivisione della tecnologia