le mie informazioni di contatto
Posta[email protected]
2024-07-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Nel vasto universo dell’intelligenza artificiale, l’elaborazione del linguaggio naturale (NLP) è sempre stata un’area ricca di sfide e opportunità. Con l’evoluzione della tecnologia, abbiamo assistito a un’evoluzione dalle regole tradizionali, all’apprendimento automatico statistico, al deep learning e ai modelli pre-addestrati. Oggi siamo sulla soglia dei grandi modelli linguistici (LLM), che stanno ridefinendo il modo in cui comunichiamo con le macchine. Questo articolo approfondirà la storia dello sviluppo, la tabella di marcia tecnica e l'impatto di LLM sul futuro campo dell'intelligenza artificiale.
L’obiettivo dell’elaborazione del linguaggio naturale (NLP) è consentire alle macchine di comprendere, interpretare e generare il linguaggio umano. Lo sviluppo di questo campo ha attraversato diverse fasi importanti, ognuna delle quali ha segnato un salto nella profondità della comprensione del linguaggio. Dai primi sistemi basati su regole, ai metodi di apprendimento statistico, ai modelli di deep learning, fino agli odierni modelli linguistici di grandi dimensioni (LLM), ogni passaggio è una trascendenza della fase precedente.
Agli albori della PNL, i ricercatori si affidavano a regole scritte a mano per elaborare il linguaggio. Lo stack tecnologico in questa fase include macchine a stati finiti e sistemi basati su regole. Ad esempio, Apertium è un sistema di traduzione automatica basato su regole, che mostra come i primi ricercatori possano ottenere la traduzione automatica delle lingue organizzando manualmente dizionari e scrivendo regole.
Nel corso del tempo, i ricercatori hanno iniziato a dedicarsi a metodi di apprendimento statistico, utilizzando strumenti come macchine a vettori di supporto (SVM), modelli di Markov nascosti (HMM), modelli di massima entropia (MaxEnt) e campi casuali condizionali (CRF). Questa fase è caratterizzata dalla combinazione di una piccola quantità di dati di dominio etichettati manualmente e di ingegneria manuale delle funzionalità, segnando il passaggio dalle regole scritte a mano alle macchine che apprendono automaticamente la conoscenza dai dati.
L’emergere del deep learning ha portato cambiamenti rivoluzionari nella PNL. Le tecnologie rappresentate da Encoder-Decoder, Long Short-Term Memory Network (LSTM), Attenzione ed Embedding consentono al modello di gestire set di dati più grandi quasi senza alcuno sforzo. Richiede la progettazione manuale delle funzionalità. Il sistema di traduzione automatica neurale di Google (2016) è un lavoro rappresentativo di questa fase.
L’emergere di modelli pre-addestrati segna un altro passo avanti nel campo della PNL. Lo stack tecnologico con Transformer e meccanismo di attenzione come nucleo combina enormi dati non etichettati per l'apprendimento auto-supervisionato, genera conoscenza generale e quindi si adatta a compiti specifici attraverso la messa a punto. La variabilità di questa fase è molto elevata perché espande la gamma di dati disponibili dai dati etichettati ai dati non etichettati.
LLM rappresenta l'ultimo sviluppo nei modelli linguistici, che solitamente adottano un'architettura basata su decoder combinata con Transformer e Reinforcement Learning Human Feedback (RLHF). Questa fase è caratterizzata da un processo in due fasi: pre-addestramento e allineamento con gli umani. La fase di pre-formazione utilizza enormi quantità di dati non etichettati e di dominio per generare conoscenza attraverso l'apprendimento auto-supervisionato; la fase di allineamento umano consente al modello di adattarsi a vari compiti allineando abitudini e valori di utilizzo.
Guardando indietro alle varie fasi di sviluppo, possiamo vedere le seguenti tendenze:
Dati: dai dati alla conoscenza, sempre più dati vengono utilizzati/futuro:Altri dati di testo, altri dati del modulo→qualsiasi dato
Algoritmo: la capacità di espressione sta diventando sempre più forte; la capacità di apprendimento indipendente sta diventando sempre più forte da professionale a generale;futuro:Il trasformatore è attualmente sufficiente, nuovo modello (l'efficienza dell'apprendimento dovrebbe essere enfatizzata)?→AGI?
Rapporto uomo-macchina: il ritorno, da istruttore a supervisore/futuro:Collaborazione uomo-macchina, apprendimento automatico dagli esseri umani→Apprendimento umano dalle macchine?→Le macchine espandono i confini della conoscenza umana
Negli ultimi anni, lo sviluppo della tecnologia LLM ha mostrato percorsi diversificati, tra cui la modalità BERT, la modalità GPT e la modalità T5, ecc. Ogni modalità ha le sue caratteristiche e scenari applicabili.
Il modello BERT è adatto per compiti di comprensione del linguaggio naturale attraverso un processo in due fasi di pre-formazione del modello linguistico bidirezionale e messa a punto del compito (pre-formazione del modello linguistico bidirezionale + messa a punto del compito). La formazione preliminare del BERT estrae la conoscenza generale dai dati generali, mentre la messa a punto estrae la conoscenza del dominio dai dati del dominio.
Scenari di attività adatti: più adatti alla comprensione del linguaggio naturale, compiti specifici in un determinato scenario, specializzati e leggeri;
La modalità GPT è sviluppata dal pre-addestramento del modello linguistico unidirezionale e dal processo di istruzioni o zero shot/pochi colpi (pre-addestramento del modello linguistico unidirezionale + zero shot/pochi colpi/istruzione) ed è adatta per generazione del linguaggio. I modelli in modalità GPT sono in genere i LLM più grandi disponibili e possono gestire una gamma più ampia di attività.
Scenari applicabili: più adatti per attività di generazione del linguaggio naturale. Attualmente, i LLM più grandi sono tutti in questa modalità: serie GPT, PaLM, LaMDA..., la modalità Ripeti e Passa è consigliata per attività di generazione/modelli generali;
La modalità T5 combina le caratteristiche di BERT e GPT ed è adatta per attività di generazione e comprensione. L'attività di riempimento degli spazi vuoti in modalità T5 (Span Corruption) è un metodo di pre-formazione efficace che funziona bene nelle attività di comprensione del linguaggio naturale. Due fasi (pre-formazione sul modello linguistico unidirezionale + principalmente perfezionamento)
Caratteristiche: Assomiglia a GPT, assomiglia a Bert
Scenari applicabili: sia la generazione che la comprensione sono accettabili dal punto di vista degli effetti, è più adatta per compiti di comprensione del linguaggio naturale. Molti LLM su larga scala in Cina adottano questa modalità se si tratta di un compito di comprensione del linguaggio naturale in un singolo campo , si consiglia di utilizzare la modalità T5;
Super LLM: ricerca di effetti a zero colpi/pochi colpi/istruzione
Conclusioni attuali della ricerca
(Quando la dimensione del modello è piccola):
Conclusioni attuali della ricerca (scala molto ampia):
Fatto: quasi tutti i modelli LLM superiori a 100B adottano la modalità GPT
possibile motivo:
1. L'attenzione bidirezionale nell'Encoder-Decoder danneggia l'abilità di tiro zero (Verifica)
2. La struttura Encoder-Decoder può fornire attenzione solo al codificatore di alto livello durante la generazione di token. La struttura solo decodificatore può fornire attenzione livello per livello durante la generazione di token e le informazioni sono più dettagliate.
3. Encoder-Decoder addestra "riempi gli spazi vuoti" e genera l'ultima parola Next Token. C'è incoerenza. I metodi di formazione e generazione della struttura solo del decoder sono coerenti.
Man mano che le dimensioni del modello crescono, i ricercatori si trovano ad affrontare la sfida di come utilizzare in modo efficace lo spazio dei parametri. La ricerca sul modello Chinchilla mostra che quando i dati sono sufficienti, l’attuale scala LLM può essere maggiore della scala ideale e si verifica uno spreco di spazio per i parametri. Tuttavia, la Legge di Scaling sottolinea anche che maggiore è la scala del modello, maggiore è la quantità di dati e quanto più adeguata è la formazione, migliore è l'effetto del modello LLM. Un'idea più fattibile è: renderlo prima piccolo (GPT 3 non dovrebbe essere così grande), e poi ingrandirlo (dopo aver utilizzato appieno i parametri del modello, continuare a ingrandirlo).
Naturalmente, dato che il LLM multimodale richiede capacità di percezione dell’ambiente reale più ricche, propone anche requisiti più elevati per i parametri LLM.
LLM multimodale: input visivo (immagini, video), input uditivo (audio), input tattile (pressione)
affrontare problemi: LLM multimodale sembra piuttosto buono e fa molto affidamento su grandi set di dati organizzati manualmente.
Ad esempio, ALIGN: grafica e testo 1.8B/LAION: grafica e dati testo 5.8B (filtrati da CLIP, attualmente i dati grafici e testo più grandi) è attualmente testo con immagini volanti?
Elaborazione delle immagini: Si sta sperimentando il percorso tecnico dell'autosupervisione, ma non ha ancora avuto successo (apprendimento comparativo/MAE)/se potrà essere realizzato con successo, sarà un altro enorme passo avanti tecnologico nel campo dell'IA;
Se il problema verrà risolto, si prevede che alcuni attuali compiti di comprensione delle immagini (segmentazione/riconoscimento semantico, ecc.) verranno integrati nel LLM e scompariranno.
Sebbene l’attuale LLM abbia alcune capacità di ragionamento semplice, presenta ancora carenze nel ragionamento complesso. Ad esempio, attività come l'addizione di più cifre rimangono una sfida per LLM. I ricercatori stanno esplorando come distillare capacità di ragionamento complesse in modelli più piccoli attraverso mezzi tecnici come la scomposizione semantica.
Naturalmente, questo problema può essere aggirato anche attraverso l'outsourcing della capacità, ad esempio combinandola con strumenti: potenza di calcolo (calcolatore esterno), nuova query di informazioni (motore di ricerca) e altre funzionalità vengono completate con l'aiuto di strumenti esterni.
Il concetto di intelligenza incarnata combina il LLM con la robotica e utilizza l'apprendimento per rinforzo per ottenere l'intelligenza incarnata attraverso l'interazione con il mondo fisico. . Ad esempio, il modello PaLM-E di Google combina 540 miliardi di PaLM e 22 miliardi di ViT, dimostrando il potenziale del LLM in un ambiente multimodale.
Questo articolo esplora in modo approfondito la storia dello sviluppo, la tabella di marcia tecnica e il loro impatto sul futuro campo dell'intelligenza artificiale di LLM. Lo sviluppo di LLM non è solo un progresso tecnologico, ma anche una profonda riflessione sulle nostre capacità di comprensione della macchina. Dalle regole alle statistiche, dal deep learning alla pre-formazione, ogni passaggio ci fornisce nuove prospettive e strumenti. Oggi ci troviamo sulla soglia di una nuova era di modelli linguistici su larga scala, di fronte a opportunità e sfide senza precedenti.