Condivisione della tecnologia

Evoluzione del modello linguistico: un viaggio dalla PNL al LLM

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Nel vasto universo dell’intelligenza artificiale, l’elaborazione del linguaggio naturale (NLP) è sempre stata un’area ricca di sfide e opportunità. Con l’evoluzione della tecnologia, abbiamo assistito a un’evoluzione dalle regole tradizionali, all’apprendimento automatico statistico, al deep learning e ai modelli pre-addestrati. Oggi siamo sulla soglia dei grandi modelli linguistici (LLM), che stanno ridefinendo il modo in cui comunichiamo con le macchine. Questo articolo approfondirà la storia dello sviluppo, la tabella di marcia tecnica e l'impatto di LLM sul futuro campo dell'intelligenza artificiale.

introduzione

L’obiettivo dell’elaborazione del linguaggio naturale (NLP) è consentire alle macchine di comprendere, interpretare e generare il linguaggio umano. Lo sviluppo di questo campo ha attraversato diverse fasi importanti, ognuna delle quali ha segnato un salto nella profondità della comprensione del linguaggio. Dai primi sistemi basati su regole, ai metodi di apprendimento statistico, ai modelli di deep learning, fino agli odierni modelli linguistici di grandi dimensioni (LLM), ogni passaggio è una trascendenza della fase precedente.
Inserisci qui la descrizione dell'immagine

Dalle regole alla statistica: prime esplorazioni nella PNL

Fase delle regole (1956-1992)

Agli albori della PNL, i ricercatori si affidavano a regole scritte a mano per elaborare il linguaggio. Lo stack tecnologico in questa fase include macchine a stati finiti e sistemi basati su regole. Ad esempio, Apertium è un sistema di traduzione automatica basato su regole, che mostra come i primi ricercatori possano ottenere la traduzione automatica delle lingue organizzando manualmente dizionari e scrivendo regole.
Inserisci qui la descrizione dell'immagine

Fase di machine learning statistico (1993-2012)

Nel corso del tempo, i ricercatori hanno iniziato a dedicarsi a metodi di apprendimento statistico, utilizzando strumenti come macchine a vettori di supporto (SVM), modelli di Markov nascosti (HMM), modelli di massima entropia (MaxEnt) e campi casuali condizionali (CRF). Questa fase è caratterizzata dalla combinazione di una piccola quantità di dati di dominio etichettati manualmente e di ingegneria manuale delle funzionalità, segnando il passaggio dalle regole scritte a mano alle macchine che apprendono automaticamente la conoscenza dai dati.
Inserisci qui la descrizione dell'immagine

Scoperte nel deep learning: aprire una nuova era

Fase di deep learning (2013-2018)

L’emergere del deep learning ha portato cambiamenti rivoluzionari nella PNL. Le tecnologie rappresentate da Encoder-Decoder, Long Short-Term Memory Network (LSTM), Attenzione ed Embedding consentono al modello di gestire set di dati più grandi quasi senza alcuno sforzo. Richiede la progettazione manuale delle funzionalità. Il sistema di traduzione automatica neurale di Google (2016) è un lavoro rappresentativo di questa fase.
Inserisci qui la descrizione dell'immagine

L'ascesa di modelli pre-addestrati: auto-scoperta della conoscenza

Fase di pre-formazione (2018-2022)

L’emergere di modelli pre-addestrati segna un altro passo avanti nel campo della PNL. Lo stack tecnologico con Transformer e meccanismo di attenzione come nucleo combina enormi dati non etichettati per l'apprendimento auto-supervisionato, genera conoscenza generale e quindi si adatta a compiti specifici attraverso la messa a punto. La variabilità di questa fase è molto elevata perché espande la gamma di dati disponibili dai dati etichettati ai dati non etichettati.
Inserisci qui la descrizione dell'immagine

Una nuova era di LLM: la fusione di intelligenza e versatilità

Stage LLM (2023-?)

LLM rappresenta l'ultimo sviluppo nei modelli linguistici, che solitamente adottano un'architettura basata su decoder combinata con Transformer e Reinforcement Learning Human Feedback (RLHF). Questa fase è caratterizzata da un processo in due fasi: pre-addestramento e allineamento con gli umani. La fase di pre-formazione utilizza enormi quantità di dati non etichettati e di dominio per generare conoscenza attraverso l'apprendimento auto-supervisionato; la fase di allineamento umano consente al modello di adattarsi a vari compiti allineando abitudini e valori di utilizzo.
Inserisci qui la descrizione dell'immagine
Guardando indietro alle varie fasi di sviluppo, possiamo vedere le seguenti tendenze:

Dati: dai dati alla conoscenza, sempre più dati vengono utilizzati/futuro:Altri dati di testo, altri dati del modulo→qualsiasi dato
Algoritmo: la capacità di espressione sta diventando sempre più forte; la capacità di apprendimento indipendente sta diventando sempre più forte da professionale a generale;futuro:Il trasformatore è attualmente sufficiente, nuovo modello (l'efficienza dell'apprendimento dovrebbe essere enfatizzata)?→AGI?
Rapporto uomo-macchina: il ritorno, da istruttore a supervisore/futuro:Collaborazione uomo-macchina, apprendimento automatico dagli esseri umani→Apprendimento umano dalle macchine?→Le macchine espandono i confini della conoscenza umana

Inserisci qui la descrizione dell'immagine

Percorso di sviluppo tecnologico LLM: percorsi diversificati

Negli ultimi anni, lo sviluppo della tecnologia LLM ha mostrato percorsi diversificati, tra cui la modalità BERT, la modalità GPT e la modalità T5, ecc. Ogni modalità ha le sue caratteristiche e scenari applicabili.
Inserisci qui la descrizione dell'immagine

Modalità BERT (solo encoder)

Il modello BERT è adatto per compiti di comprensione del linguaggio naturale attraverso un processo in due fasi di pre-formazione del modello linguistico bidirezionale e messa a punto del compito (pre-formazione del modello linguistico bidirezionale + messa a punto del compito). La formazione preliminare del BERT estrae la conoscenza generale dai dati generali, mentre la messa a punto estrae la conoscenza del dominio dai dati del dominio.
Inserisci qui la descrizione dell'immagine
Scenari di attività adatti: più adatti alla comprensione del linguaggio naturale, compiti specifici in un determinato scenario, specializzati e leggeri;
Inserisci qui la descrizione dell'immagine

Modalità GPT (solo decoder)

La modalità GPT è sviluppata dal pre-addestramento del modello linguistico unidirezionale e dal processo di istruzioni o zero shot/pochi colpi (pre-addestramento del modello linguistico unidirezionale + zero shot/pochi colpi/istruzione) ed è adatta per generazione del linguaggio. I modelli in modalità GPT sono in genere i LLM più grandi disponibili e possono gestire una gamma più ampia di attività.
Inserisci qui la descrizione dell'immagine
Scenari applicabili: più adatti per attività di generazione del linguaggio naturale. Attualmente, i LLM più grandi sono tutti in questa modalità: serie GPT, PaLM, LaMDA..., la modalità Ripeti e Passa è consigliata per attività di generazione/modelli generali;
Inserisci qui la descrizione dell'immagine

Modalità T5 (Encoder-Decoder)

La modalità T5 combina le caratteristiche di BERT e GPT ed è adatta per attività di generazione e comprensione. L'attività di riempimento degli spazi vuoti in modalità T5 (Span Corruption) è un metodo di pre-formazione efficace che funziona bene nelle attività di comprensione del linguaggio naturale. Due fasi (pre-formazione sul modello linguistico unidirezionale + principalmente perfezionamento)
Inserisci qui la descrizione dell'immagine
Caratteristiche: Assomiglia a GPT, assomiglia a Bert
Scenari applicabili: sia la generazione che la comprensione sono accettabili dal punto di vista degli effetti, è più adatta per compiti di comprensione del linguaggio naturale. Molti LLM su larga scala in Cina adottano questa modalità se si tratta di un compito di comprensione del linguaggio naturale in un singolo campo , si consiglia di utilizzare la modalità T5;
Inserisci qui la descrizione dell'immagine

Perché i LLM molto grandi sono in modalità GPT?

Super LLM: ricerca di effetti a zero colpi/pochi colpi/istruzione
Conclusioni attuali della ricerca

(Quando la dimensione del modello è piccola):

  • Categoria di comprensione del linguaggio naturale: la modalità T5 funziona meglio.
  • Classe di generazione del linguaggio naturale: la modalità GPT funziona meglio.
  • Zero shot: la modalità GPT funziona meglio.
    Se la regolazione fine multi-task viene introdotta dopo il Pretraining, la modalità T5 funzionerà meglio (la conclusione è discutibile: l'attuale codificatore-decodificatore sperimentale ha il doppio del numero di parametri del solo decodificatore. La conclusione è affidabile?)

Conclusioni attuali della ricerca (scala molto ampia):
Fatto: quasi tutti i modelli LLM superiori a 100B adottano la modalità GPT

possibile motivo:
1. L'attenzione bidirezionale nell'Encoder-Decoder danneggia l'abilità di tiro zero (Verifica)
2. La struttura Encoder-Decoder può fornire attenzione solo al codificatore di alto livello durante la generazione di token. La struttura solo decodificatore può fornire attenzione livello per livello durante la generazione di token e le informazioni sono più dettagliate.
3. Encoder-Decoder addestra "riempi gli spazi vuoti" e genera l'ultima parola Next Token. C'è incoerenza. I metodi di formazione e generazione della struttura solo del decoder sono coerenti.

Sfide e opportunità di LLM di grandi dimensioni

Man mano che le dimensioni del modello crescono, i ricercatori si trovano ad affrontare la sfida di come utilizzare in modo efficace lo spazio dei parametri. La ricerca sul modello Chinchilla mostra che quando i dati sono sufficienti, l’attuale scala LLM può essere maggiore della scala ideale e si verifica uno spreco di spazio per i parametri. Tuttavia, la Legge di Scaling sottolinea anche che maggiore è la scala del modello, maggiore è la quantità di dati e quanto più adeguata è la formazione, migliore è l'effetto del modello LLM. Un'idea più fattibile è: renderlo prima piccolo (GPT 3 non dovrebbe essere così grande), e poi ingrandirlo (dopo aver utilizzato appieno i parametri del modello, continuare a ingrandirlo).
Inserisci qui la descrizione dell'immagine

Naturalmente, dato che il LLM multimodale richiede capacità di percezione dell’ambiente reale più ricche, propone anche requisiti più elevati per i parametri LLM.
LLM multimodale: input visivo (immagini, video), input uditivo (audio), input tattile (pressione)
Inserisci qui la descrizione dell'immagine
affrontare problemi: LLM multimodale sembra piuttosto buono e fa molto affidamento su grandi set di dati organizzati manualmente.

Ad esempio, ALIGN: grafica e testo 1.8B/LAION: grafica e dati testo 5.8B (filtrati da CLIP, attualmente i dati grafici e testo più grandi) è attualmente testo con immagini volanti?

Elaborazione delle immagini: Si sta sperimentando il percorso tecnico dell'autosupervisione, ma non ha ancora avuto successo (apprendimento comparativo/MAE)/se potrà essere realizzato con successo, sarà un altro enorme passo avanti tecnologico nel campo dell'IA;

Se il problema verrà risolto, si prevede che alcuni attuali compiti di comprensione delle immagini (segmentazione/riconoscimento semantico, ecc.) verranno integrati nel LLM e scompariranno.

Inserisci qui la descrizione dell'immagine

Migliora le complesse capacità di ragionamento di LLM

Sebbene l’attuale LLM abbia alcune capacità di ragionamento semplice, presenta ancora carenze nel ragionamento complesso. Ad esempio, attività come l'addizione di più cifre rimangono una sfida per LLM. I ricercatori stanno esplorando come distillare capacità di ragionamento complesse in modelli più piccoli attraverso mezzi tecnici come la scomposizione semantica.
Inserisci qui la descrizione dell'immagine
Naturalmente, questo problema può essere aggirato anche attraverso l'outsourcing della capacità, ad esempio combinandola con strumenti: potenza di calcolo (calcolatore esterno), nuova query di informazioni (motore di ricerca) e altre funzionalità vengono completate con l'aiuto di strumenti esterni.
Inserisci qui la descrizione dell'immagine

Interazione tra LLM e il mondo fisico

Il concetto di intelligenza incarnata combina il LLM con la robotica e utilizza l'apprendimento per rinforzo per ottenere l'intelligenza incarnata attraverso l'interazione con il mondo fisico. . Ad esempio, il modello PaLM-E di Google combina 540 miliardi di PaLM e 22 miliardi di ViT, dimostrando il potenziale del LLM in un ambiente multimodale.
Inserisci qui la descrizione dell'immagine
Inserisci qui la descrizione dell'immagine

Altre direzioni di ricerca

  1. Acquisizione di nuove conoscenze: al momento ci sono alcune difficoltà, ma esistono anche alcuni metodi (LLM+Retrieval)
  2. Correzione di vecchie conoscenze: attualmente ci sono alcuni risultati della ricerca che devono ancora essere ottimizzati
  3. Integrazione della conoscenza del dominio privato: perfezionamento?
  4. Migliore comprensione dei comandi: necessita ancora di ottimizzazione (grave sciocchezza)
  5. Riduzione dei costi di inferenza della formazione: rapido sviluppo nei prossimi uno o due anni
  6. Costruzione di un set di dati di valutazione cinese: una cartina di tornasole di abilità. Attualmente sono disponibili alcuni set di valutazione in inglese, come HELM/BigBench, ecc., ma mancano set di dati di valutazione / multi-task, ad alta difficoltà e multi-angolo in cinese.

Conclusione

Questo articolo esplora in modo approfondito la storia dello sviluppo, la tabella di marcia tecnica e il loro impatto sul futuro campo dell'intelligenza artificiale di LLM. Lo sviluppo di LLM non è solo un progresso tecnologico, ma anche una profonda riflessione sulle nostre capacità di comprensione della macchina. Dalle regole alle statistiche, dal deep learning alla pre-formazione, ogni passaggio ci fornisce nuove prospettive e strumenti. Oggi ci troviamo sulla soglia di una nuova era di modelli linguistici su larga scala, di fronte a opportunità e sfide senza precedenti.