Kielimallin evoluutio: matka NLP:stä LLM

Kielimallin evoluutio: matka NLP:stä LLM:ään

2024-07-12

Tekoälyn valtavassa universumissa luonnollisen kielen käsittely (NLP) on aina ollut alue täynnä haasteita ja mahdollisuuksia. Teknologian kehittyessä olemme nähneet kehitystä perinteisistä säännöistä tilastolliseen koneoppimiseen, syväoppimiseen ja esikoulutettuihin malleihin. Nykyään seisomme suurten kielimallien (LLM) kynnyksellä, jotka määrittelevät uudelleen tapaamme kommunikoida koneiden kanssa. Tässä artikkelissa perehdytään LLM:n kehityshistoriaan, tekniseen tiekarttaan ja vaikutukseen tulevaisuuden tekoälykenttään.

esittely

Luonnollisen kielen käsittelyn (NLP) tavoitteena on antaa koneille mahdollisuus ymmärtää, tulkita ja tuottaa ihmisen kieltä. Tämän alan kehitys on käynyt läpi useita tärkeitä vaiheita, joista jokainen merkitsi harppausta kielen ymmärtämisen syvyydessä. Varhaisista sääntöpohjaisista järjestelmistä tilastollisiin oppimismenetelmiin, syväoppimismalleihin ja nykypäivän suuriin kielimalleihin (LLM) jokainen askel on edellisen vaiheen ylitys.
Lisää kuvan kuvaus tähän

Säännöistä tilastoihin: NLP:n varhaiset tutkimukset

Sääntövaihe (1956-1992)

NLP:n alkuaikoina tutkijat luottivat käsinkirjoitettuihin sääntöihin kielen käsittelyssä. Teknologiapino tässä vaiheessa sisältää äärellisen tilan koneita ja sääntöpohjaisia järjestelmiä. Esimerkiksi Apertium on sääntöihin perustuva konekäännösjärjestelmä, joka osoittaa, kuinka varhaiset tutkijat voivat saavuttaa kielten automaattisen kääntämisen manuaalisesti järjestämällä sanakirjoja ja kirjoittamalla sääntöjä.
Lisää kuvan kuvaus tähän

Tilastollinen koneoppimisvaihe (1993–2012)

Ajan myötä tutkijat alkoivat siirtyä tilastollisiin oppimismenetelmiin käyttämällä työkaluja, kuten tukivektorikoneita (SVM), piilotettuja Markov-malleja (HMM), maksimientropiamalleja (MaxEnt) ja ehdollisia satunnaiskenttiä (CRF). Tälle vaiheelle on ominaista pienen määrän manuaalisesti merkittyjen verkkotunnustietojen ja manuaalisen ominaisuussuunnittelun yhdistelmä, mikä merkitsee siirtymistä käsin kirjoitetuista säännöistä koneisiin, jotka oppivat automaattisesti tietoa tiedosta.
Lisää kuvan kuvaus tähän

Läpimurtoja syväoppimisessa: uuden aikakauden avaaminen

Syväoppimisvaihe (2013-2018)

Syväoppimisen ilmaantuminen on tuonut vallankumouksellisia muutoksia NLP:hen. Encoder-Decoder, Long Short-Term Memory Network (LSTM), Attention ja Embedding edustamat tekniikat mahdollistavat sen, että malli käsittelee suurempia tietojoukkoja lähes ilman vaivaa. Googlen hermoston konekäännösjärjestelmä (2016) on tämän vaiheen edustava työ.
Lisää kuvan kuvaus tähän

Esikoulutettujen mallien nousu: tiedon itsensä löytäminen

Esikoulutusvaihe (2018–2022)

Esikoulutettujen mallien ilmaantuminen merkitsee uutta harppausta NLP:n alalla. Teknologiapino, jossa on muuntaja ja huomiomekanismi ytimenä, yhdistää massiivisen nimeämättömän datan itseohjautuvaa oppimista varten, tuottaa yleistietoa ja mukautuu sitten tiettyihin tehtäviin hienosäädön avulla. Tämän vaiheen vaihtelu on erittäin suuri, koska se laajentaa saatavilla olevan tiedon valikoimaa merkityistä tiedoista merkitsemättömiin tietoihin.
Lisää kuvan kuvaus tähän

LLM:n uusi aikakausi: älykkyyden ja monipuolisuuden fuusio

LLM-vaihe (2023-?)

LLM edustaa kielimallien viimeisintä kehitystä, joka yleensä omaksuu dekooderipohjaisen arkkitehtuurin yhdistettynä Transformer and Reforcement Learning Human Feedbackiin (RLHF). Tälle vaiheelle on ominaista kaksivaiheinen prosessi: esikoulutus ja linjautuminen ihmisten kanssa. Esikoulutusvaiheessa käytetään valtavia nimeämättömiä tietoja ja verkkotunnustietoja tiedon tuottamiseen itseohjatun oppimisen kautta. Ihmisen kohdistusvaihe mahdollistaa sen, että malli mukautuu erilaisiin tehtäviin yhdenmukaistamalla käyttötottumuksia ja arvoja.
Lisää kuvan kuvaus tähän
Kun tarkastellaan eri kehitysvaiheita, voimme nähdä seuraavat suuntaukset:

Data: Datasta tietoon käytetään yhä enemmän dataa/tulevaisuutta: Enemmän tekstidataa, enemmän muita lomaketietoja→kaikki tiedot
Algoritmi: Ilmaisukyky vahvistuu ja voimistuu jatkuvasti ammatillisesta yleiseksi;tulevaisuutta:Transformer riittää tällä hetkellä, uusi malli (oppimistehokkuutta kannattaa korostaa)?→AGI?
Ihmisen ja koneen suhde: paluu, ohjaajalta ohjaajaksi/tulevaisuutta:Ihmisen ja koneen yhteistyö, koneoppiminen ihmisiltä→Ihmisoppiminen koneista?→Koneet laajentavat ihmisen tiedon rajoja

Lisää kuvan kuvaus tähän

LLM-teknologian kehityspolku: erilaisia polkuja

Viime vuosina LLM-teknologian kehitys on osoittanut monipuolisia polkuja, mukaan lukien BERT-tila, GPT-tila ja T5-tila jne. Jokaisella tilalla on omat ominaisuutensa ja soveltuvat skenaariot.
Lisää kuvan kuvaus tähän

BERT-tila (vain enkooderi)

BERT-malli soveltuu luonnollisen kielen ymmärtämistehtäviin kaksivaiheisen kaksisuuntaisen kielimallin esikoulutuksen ja tehtävän hienosäädön (kaksisuuntaisen kielimallin esikoulutus + tehtävän hienosäätö) prosessin kautta. BERT-esikoulutus poimii yleistiedon yleisestä tiedosta, kun taas hienosäätö poimii toimialueen tiedon verkkoalueen tiedoista.
Lisää kuvan kuvaus tähän
Sopivat tehtäväskenaariot: sopivat paremmin luonnollisen kielen ymmärtämiseen, tietyt tehtävät tietyssä skenaariossa, erikoistuneet ja kevyet;

GPT-tila (vain dekooderi)

GPT-tila on kehitetty yksisuuntaisesta kielimallin esikoulutuksesta ja nolla laukaus/muutama laukaus -kehote tai ohje (yksisuuntainen kielimallin esikoulutus + nolla laukaus/muutama laukaus -kehote/Ohje) prosessista, ja se sopii luonnolliseen kielen sukupolvi. GPT-tilan mallit ovat tyypillisesti suurimpia saatavilla olevia LLM-malleja, ja ne pystyvät käsittelemään laajempia tehtäviä.
Lisää kuvan kuvaus tähän
Sovellettavat skenaariot: Soveltuvat paremmin luonnollisen kielen generointitehtäviin. Tällä hetkellä suurimmat LLM:t ovat tässä tilassa: GPT-sarja, PaLM, LaMDA..., toisto- ja pass-tila on suositeltavaa sukupolvitehtäviin/yleisiin malleihin;

T5-tila (enkooderi-dekooderi)

T5-tila yhdistää BERT:n ja GPT:n ominaisuudet ja soveltuu tehtävien luomiseen ja ymmärtämiseen. T5-tilan täyttötehtävä (Span Corruption) on tehokas esikoulutusmenetelmä, joka toimii hyvin luonnollisen kielen ymmärtämisen tehtävissä. Kaksi vaihetta (yksisuuntainen kielimallin esikoulutus + pääosin hienosäätö)
Lisää kuvan kuvaus tähän
Ominaisuudet: Näyttää GPT:ltä, näyttää Bertiltä
Sovellettavat skenaariot: Sekä sukupolvi että ymmärtäminen ovat hyväksyttäviä , on suositeltavaa käyttää T5-tilaa;

Miksi erittäin suuret LLM:t ovat GPT-tilassa?

Super LLM: Nolla laukaus/muutama laukaus/ohjetehosteiden tavoitteleminen
Ajankohtaiset tutkimuspäätelmät

(Kun mallin koko on pieni):

Luonnollisen kielen ymmärtämisen luokka: T5-tila toimii parhaiten.
Luonnollisen kielen sukupolviluokka: GPT-tila toimii parhaiten.
Nollakuva: GPT-tila toimii parhaiten.
Jos Pretrainin jälkeen otetaan käyttöön monitehtäväinen hienosäätö, T5-tila toimii paremmin (päätelmä on kyseenalainen: nykyisessä kokeellisessa Encoder-Decoderissa on kaksinkertainen määrä vain dekooderille tarkoitettuja parametreja. Onko johtopäätös luotettava?)

Nykyiset tutkimuspäätelmät (erittäin laajamittaiset):
Fakta: Lähes kaikki LLM-mallit, jotka ylittävät 100B, käyttävät GPT-tilaa

mahdollinen syy:
1. Kaksisuuntainen huomio Encoder-Dekooderissa vahingoittaa nolla laukausta (tarkista)
2. Encoder-Decoder-rakenne voi kiinnittää huomiota vain korkean tason kooderiin Tokenia luotaessa. Vain dekooderi -rakenne voi tarjota huomion kerros kerrokselta Tokenia luotaessa, ja tiedot ovat hienojakoisempia.
3. Encoder-Decoder junat "täytä tyhjät kohdat" ja luo viimeisen sanan. Vain dekooderin rakenteen koulutus ja luontimenetelmät ovat yhdenmukaisia.

Erittäin suurten LLM-yritysten haasteet ja mahdollisuudet

Mallin koon kasvaessa tutkijat kohtaavat haasteen, kuinka parametritilaa voidaan hyödyntää tehokkaasti. Chinchilla-mallin tutkimus osoittaa, että kun dataa on riittävästi, nykyinen LLM-asteikko voi olla suurempi kuin ihanteellinen mittakaava, ja parametritilaa tuhlataan. Skaalauslaki kuitenkin huomauttaa myös, että mitä suurempi mallin mittakaava, sitä enemmän tietoa , ja mitä riittävämpi koulutus, LLM-mallin vaikutus on parempi. Toteutettavampi idea on: tee siitä ensin pieni (GPT 3 ei saisi olla niin suuri) ja sitten iso (hyödynnä malliparametreja täysimääräisesti ja jatka sitten suurentamista).
Lisää kuvan kuvaus tähän

Tietenkin, koska multimodaalinen LLM vaatii rikkaampia reaalimaailman ympäristön havainnointikykyjä, se asettaa myös korkeammat vaatimukset LLM-parametreille.
Multimodaalinen LLM: visuaalinen syöttö (kuvat, videot), kuulotulo (ääni), kosketussyöttö (paine)
Lisää kuvan kuvaus tähän
kohtaamaan ongelmia: Multimodaalinen LLM näyttää melko hyvältä ja luottaa suuresti manuaalisesti järjestettyihin suuriin tietokokonaisuuksiin.

Esimerkiksi ALIGN: 1.8B grafiikka ja teksti/LAION: 5.8B grafiikka ja tekstidata (suodatettu CLIP:llä, tällä hetkellä suurin grafiikka ja tekstidata) on tällä hetkellä tekstiä kuvien kanssa?

Kuvankäsittely: Itsevalvonnan teknistä reittiä kokeillaan, mutta se ei ole vielä onnistunut (vertaileva oppiminen/MAE)/jos se voidaan saavuttaa onnistuneesti, se on toinen valtava teknologinen läpimurto tekoälyn alalla;

Jos se voidaan ratkaista, joidenkin nykyisten kuvan ymmärtämistehtävien (semanttinen segmentointi/tunnistus jne.) odotetaan integroituvan LLM:ään ja katoavan.

Lisää kuvan kuvaus tähän

Paranna LLM:n monimutkaisia päättelykykyjä

Vaikka nykyisellä LLM:llä on tiettyjä yksinkertaisia päättelykykyjä, siinä on silti puutteita monimutkaisessa päättelyssä. Esimerkiksi tehtävät, kuten moninumeroinen yhteenlasku, ovat edelleen haaste LLM:lle. Tutkijat tutkivat, kuinka monimutkaisia päättelykykyjä voidaan tislata pienempiin malleihin teknisten keinojen, kuten semanttisen hajotuksen, avulla.
Lisää kuvan kuvaus tähän
Tämä ongelma voidaan tietysti kiertää myös kapasiteetin ulkoistamisella, esimerkiksi yhdistämällä se työkaluihin: laskentateho (ulkoinen laskin), uusi tietokysely (hakukone) ja muut ominaisuudet täydennetään ulkopuolisten työkalujen avulla.

Vuorovaikutus LLM:n ja fyysisen maailman välillä

Ruumiillistuneen älyn käsite yhdistää LLM:n robotiikkaan ja käyttää vahvistusoppimista ruumiillistuneen älyn saamiseksi vuorovaikutuksessa fyysisen maailman kanssa. . Esimerkiksi Googlen PaLM-E-malli yhdistää 540B PaLM:a ja 22B ViT:tä, mikä osoittaa LLM:n potentiaalin multimodaalisessa ympäristössä.
Lisää kuvan kuvaus tähän

Muut tutkimussuunnat

Uuden tiedon hankkiminen: Tällä hetkellä on tiettyjä vaikeuksia, mutta on myös joitain menetelmiä (LLM+Retrieval)
Vanhan tiedon korjaus: Tällä hetkellä on tutkimustuloksia, jotka kaipaavat vielä optimointia
Yksityisen verkkotunnuksen tiedon integrointi: hienosäätää?
Parempi käsitys komentoista: tarvitsee edelleen optimointia (vakavaa hölynpölyä)
Koulutuspäätelmien kustannusten aleneminen: nopea kehitys seuraavan 1-2 vuoden aikana
Kiinalaisen arviointiaineiston rakentaminen: Kykyjen lakmuskoe. Tällä hetkellä on olemassa joitain englanninkielisiä arviointisarjoja, kuten HELM/BigBench jne., mutta kiinankielisistä / monitehtävällisistä, erittäin vaikeista ja monikulmaisista arviointitietosarjoista puuttuu.

Johtopäätös

Tämä artikkeli tutkii syvällisesti kehityshistoriaa, teknistä tiekarttaa ja niiden vaikutusta LLM:n tulevaan tekoälykenttään. LLM:n kehittäminen ei ole vain teknologinen edistysaskel, vaan myös syvällinen heijastus koneen ymmärtämiskyvystämme. Säännöistä tilastoihin syvälliseen oppimiseen ja esikoulutukseen jokainen vaihe tarjoaa meille uusia näkökulmia ja työkaluja. Nykyään seisomme suuren mittakaavan kielimallien uuden aikakauden kynnyksellä ja kohtaamme ennennäkemättömiä mahdollisuuksia ja haasteita.

Teknologian jakaminen