Condivisione della tecnologia

ChatGPT2 "Analisi approfondita": modello linguistico per l'apprendimento multitasking non supervisionato (2019)

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Riepilogo dell'articolo

Quello che segue è il mio riepilogo personale dopo aver letto l'intero documento, che contiene il contenuto principale dell'articolo ChatGPT-2. Puoi leggere solo il capitolo [Riepilogo del documento].

insieme di dati

Ho creato un web crawler fatto in casa. Alcune delle pagine web sottoposte a scansione provengono da piattaforme social.finale generato
Set di dati WebText
, contenente 45 milioni di link. L'altra parte proviene da siti Web di notizie. A dicembre 2017, il volume totale di dati raggiunge 8.000.000 di articoli, per un totale di 40 GB di contenuti testuali.L'articolo menzionava anche che nel set di dati di addestramento sono inclusi anche testi tra cui Wikipedia e altri testi
Partecipano milioni di persone in tutto il mondo
per creare e pulire il set di dati utilizzato per l'addestramento GPT-2.

Rappresentazione dell'input

progettato a
Rappresentazione di input ibrida che combina la rappresentazione a livello di parola e la rappresentazione a livello di byte
. Nelle precedenti librerie a livello di parola, un gran numero di parole ripetute è stato rimosso ed è stata introdotta la rappresentazione a livello di byte per migliorare le capacità di generalizzazione.

La rappresentazione a livello di parola presenta vantaggi a priori e la rappresentazione a livello di byte presenta vantaggi di generalizzazione.

Modello

Sono state apportate alcune modifiche per GPT1:

1. Spostare la normalizzazione del livello all'input di ciascun sottoblocco.

2. Aggiungi ulteriore normalizzazione del livello dopo il blocco dell'autoattenzione.

3. Migliorato il metodo di inizializzazione (durante l'inizializzazione, il peso dello strato residuo viene espanso di un multiplo di 1/√N, N è il numero di strati residui).

4. Espansione del dizionario, espansione della segmentazione delle parole, espansione del set di istruzioni ed espansione delle dimensioni dell'elaborazione batch.

5.GPT contiene 117000000 parametri,
GPT-2 contiene 1542000000 parametri

sperimentare

Poiché ci alleniamo solo una volta, ma vogliamo osservare le prestazioni del modello in varie suddivisioni, tutti gli esperimenti possono essere classificati come
Apprendimento a colpo zero

Testare gli articoliQuale aspetto del modello viene testato?Risultati del test
libri per bambiniIdentificare diversi tipi di vocabolarioACC migliorato da 85,7 a 93,3
Prova LAMBADALa capacità di identificare lunghe dipendenze nel testoPPL99,8 ridotto a 8,63
Sfida dello schema Winogradragionamento basato sul buon sensoIl 63,7% è salito al 70,7%
comprensione della letturaIl modello deve avere determinate capacità di memoria4 prove e 3 documenti storici aggiornati
RiepilogoLa capacità di estrarre riassunti di articoli di notizieIn linea con i risultati storici
tradurreCapacità di traduzione dell'apprendimento automatico di grandi modelliLa traduzione inglese è scarsa, mentre la traduzione francese raggiunge il livello di riferimento.
Domande e risposteLa capacità di un modello di rispondere correttamente a domande plausibiliLa precisione è aumentata di 5,3 volte
Riassumere

Il contenuto principale del documento GPT-2 può essere riassunto in una frase: cioè
Sulla base del modello GPT, l'autore ha aumentato le dimensioni del modello e del set di dati di addestramento e ha scoperto che GPT-2 può adattarsi e completare automaticamente l'apprendimento degli obiettivi del compito in diversi campi della PNL.

Ad esempio, inseriamo contemporaneamente set di dati di testo di conversazione quotidiana e testo di notizie in un modello linguistico fisso e questo set di dati è sufficientemente grande, il modello è sufficientemente grande e il tempo di addestramento è sufficientemente lungo. Il modello finale avrà la capacità di distinguere diversi scenari di conversazioni quotidiane e notizie. Non solo, il modello avrà anche automaticamente alcune nuove funzionalità, come la capacità di scrivere riassunti di notizie.

Ciò significa che i modelli linguistici di grandi dimensioni hanno forti capacità di generalizzazione, ma significa anche questo
I grandi modelli linguistici saranno potenzialmente autonomi
. Questo articolo presenta quindi i risultati sperimentali per diverse aree indipendenti elencate dall'autore.

Rispetto al documento GPT che menzionava solo Large Dataset, la descrizione di LLM (Large Language Model) ha cominciato ad apparire nel documento GPT-2.


Interpretazione del testo originale dell'articolo

Indirizzo del documento originale: https://cdn.openai.com/better-lingual-models/lingual_models_are_uns