2024-07-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Tekoälyn valtavassa universumissa luonnollisen kielen käsittely (NLP) on aina ollut alue täynnä haasteita ja mahdollisuuksia. Teknologian kehittyessä olemme nähneet kehitystä perinteisistä säännöistä tilastolliseen koneoppimiseen, syväoppimiseen ja esikoulutettuihin malleihin. Nykyään seisomme suurten kielimallien (LLM) kynnyksellä, jotka määrittelevät uudelleen tapaamme kommunikoida koneiden kanssa. Tässä artikkelissa perehdytään LLM:n kehityshistoriaan, tekniseen tiekarttaan ja vaikutukseen tulevaisuuden tekoälykenttään.
Luonnollisen kielen käsittelyn (NLP) tavoitteena on antaa koneille mahdollisuus ymmärtää, tulkita ja tuottaa ihmisen kieltä. Tämän alan kehitys on käynyt läpi useita tärkeitä vaiheita, joista jokainen merkitsi harppausta kielen ymmärtämisen syvyydessä. Varhaisista sääntöpohjaisista järjestelmistä tilastollisiin oppimismenetelmiin, syväoppimismalleihin ja nykypäivän suuriin kielimalleihin (LLM) jokainen askel on edellisen vaiheen ylitys.
NLP:n alkuaikoina tutkijat luottivat käsinkirjoitettuihin sääntöihin kielen käsittelyssä. Teknologiapino tässä vaiheessa sisältää äärellisen tilan koneita ja sääntöpohjaisia järjestelmiä. Esimerkiksi Apertium on sääntöihin perustuva konekäännösjärjestelmä, joka osoittaa, kuinka varhaiset tutkijat voivat saavuttaa kielten automaattisen kääntämisen manuaalisesti järjestämällä sanakirjoja ja kirjoittamalla sääntöjä.
Ajan myötä tutkijat alkoivat siirtyä tilastollisiin oppimismenetelmiin käyttämällä työkaluja, kuten tukivektorikoneita (SVM), piilotettuja Markov-malleja (HMM), maksimientropiamalleja (MaxEnt) ja ehdollisia satunnaiskenttiä (CRF). Tälle vaiheelle on ominaista pienen määrän manuaalisesti merkittyjen verkkotunnustietojen ja manuaalisen ominaisuussuunnittelun yhdistelmä, mikä merkitsee siirtymistä käsin kirjoitetuista säännöistä koneisiin, jotka oppivat automaattisesti tietoa tiedosta.
Syväoppimisen ilmaantuminen on tuonut vallankumouksellisia muutoksia NLP:hen. Encoder-Decoder, Long Short-Term Memory Network (LSTM), Attention ja Embedding edustamat tekniikat mahdollistavat sen, että malli käsittelee suurempia tietojoukkoja lähes ilman vaivaa. Googlen hermoston konekäännösjärjestelmä (2016) on tämän vaiheen edustava työ.
Esikoulutettujen mallien ilmaantuminen merkitsee uutta harppausta NLP:n alalla. Teknologiapino, jossa on muuntaja ja huomiomekanismi ytimenä, yhdistää massiivisen nimeämättömän datan itseohjautuvaa oppimista varten, tuottaa yleistietoa ja mukautuu sitten tiettyihin tehtäviin hienosäädön avulla. Tämän vaiheen vaihtelu on erittäin suuri, koska se laajentaa saatavilla olevan tiedon valikoimaa merkityistä tiedoista merkitsemättömiin tietoihin.
LLM edustaa kielimallien viimeisintä kehitystä, joka yleensä omaksuu dekooderipohjaisen arkkitehtuurin yhdistettynä Transformer and Reforcement Learning Human Feedbackiin (RLHF). Tälle vaiheelle on ominaista kaksivaiheinen prosessi: esikoulutus ja linjautuminen ihmisten kanssa. Esikoulutusvaiheessa käytetään valtavia nimeämättömiä tietoja ja verkkotunnustietoja tiedon tuottamiseen itseohjatun oppimisen kautta. Ihmisen kohdistusvaihe mahdollistaa sen, että malli mukautuu erilaisiin tehtäviin yhdenmukaistamalla käyttötottumuksia ja arvoja.
Kun tarkastellaan eri kehitysvaiheita, voimme nähdä seuraavat suuntaukset:
Data: Datasta tietoon käytetään yhä enemmän dataa/tulevaisuutta: Enemmän tekstidataa, enemmän muita lomaketietoja→kaikki tiedot
Algoritmi: Ilmaisukyky vahvistuu ja voimistuu jatkuvasti ammatillisesta yleiseksi;tulevaisuutta:Transformer riittää tällä hetkellä, uusi malli (oppimistehokkuutta kannattaa korostaa)?→AGI?
Ihmisen ja koneen suhde: paluu, ohjaajalta ohjaajaksi/tulevaisuutta:Ihmisen ja koneen yhteistyö, koneoppiminen ihmisiltä→Ihmisoppiminen koneista?→Koneet laajentavat ihmisen tiedon rajoja
Viime vuosina LLM-teknologian kehitys on osoittanut monipuolisia polkuja, mukaan lukien BERT-tila, GPT-tila ja T5-tila jne. Jokaisella tilalla on omat ominaisuutensa ja soveltuvat skenaariot.
BERT-malli soveltuu luonnollisen kielen ymmärtämistehtäviin kaksivaiheisen kaksisuuntaisen kielimallin esikoulutuksen ja tehtävän hienosäädön (kaksisuuntaisen kielimallin esikoulutus + tehtävän hienosäätö) prosessin kautta. BERT-esikoulutus poimii yleistiedon yleisestä tiedosta, kun taas hienosäätö poimii toimialueen tiedon verkkoalueen tiedoista.
Sopivat tehtäväskenaariot: sopivat paremmin luonnollisen kielen ymmärtämiseen, tietyt tehtävät tietyssä skenaariossa, erikoistuneet ja kevyet;
GPT-tila on kehitetty yksisuuntaisesta kielimallin esikoulutuksesta ja nolla laukaus/muutama laukaus -kehote tai ohje (yksisuuntainen kielimallin esikoulutus + nolla laukaus/muutama laukaus -kehote/Ohje) prosessista, ja se sopii luonnolliseen kielen sukupolvi. GPT-tilan mallit ovat tyypillisesti suurimpia saatavilla olevia LLM-malleja, ja ne pystyvät käsittelemään laajempia tehtäviä.
Sovellettavat skenaariot: Soveltuvat paremmin luonnollisen kielen generointitehtäviin. Tällä hetkellä suurimmat LLM:t ovat tässä tilassa: GPT-sarja, PaLM, LaMDA..., toisto- ja pass-tila on suositeltavaa sukupolvitehtäviin/yleisiin malleihin;
T5-tila yhdistää BERT:n ja GPT:n ominaisuudet ja soveltuu tehtävien luomiseen ja ymmärtämiseen. T5-tilan täyttötehtävä (Span Corruption) on tehokas esikoulutusmenetelmä, joka toimii hyvin luonnollisen kielen ymmärtämisen tehtävissä. Kaksi vaihetta (yksisuuntainen kielimallin esikoulutus + pääosin hienosäätö)
Ominaisuudet: Näyttää GPT:ltä, näyttää Bertiltä
Sovellettavat skenaariot: Sekä sukupolvi että ymmärtäminen ovat hyväksyttäviä , on suositeltavaa käyttää T5-tilaa;
Super LLM: Nolla laukaus/muutama laukaus/ohjetehosteiden tavoitteleminen
Ajankohtaiset tutkimuspäätelmät
(Kun mallin koko on pieni):
Nykyiset tutkimuspäätelmät (erittäin laajamittaiset):
Fakta: Lähes kaikki LLM-mallit, jotka ylittävät 100B, käyttävät GPT-tilaa
mahdollinen syy:
1. Kaksisuuntainen huomio Encoder-Dekooderissa vahingoittaa nolla laukausta (tarkista)
2. Encoder-Decoder-rakenne voi kiinnittää huomiota vain korkean tason kooderiin Tokenia luotaessa. Vain dekooderi -rakenne voi tarjota huomion kerros kerrokselta Tokenia luotaessa, ja tiedot ovat hienojakoisempia.
3. Encoder-Decoder junat "täytä tyhjät kohdat" ja luo viimeisen sanan. Vain dekooderin rakenteen koulutus ja luontimenetelmät ovat yhdenmukaisia.
Mallin koon kasvaessa tutkijat kohtaavat haasteen, kuinka parametritilaa voidaan hyödyntää tehokkaasti. Chinchilla-mallin tutkimus osoittaa, että kun dataa on riittävästi, nykyinen LLM-asteikko voi olla suurempi kuin ihanteellinen mittakaava, ja parametritilaa tuhlataan. Skaalauslaki kuitenkin huomauttaa myös, että mitä suurempi mallin mittakaava, sitä enemmän tietoa , ja mitä riittävämpi koulutus, LLM-mallin vaikutus on parempi. Toteutettavampi idea on: tee siitä ensin pieni (GPT 3 ei saisi olla niin suuri) ja sitten iso (hyödynnä malliparametreja täysimääräisesti ja jatka sitten suurentamista).
Tietenkin, koska multimodaalinen LLM vaatii rikkaampia reaalimaailman ympäristön havainnointikykyjä, se asettaa myös korkeammat vaatimukset LLM-parametreille.
Multimodaalinen LLM: visuaalinen syöttö (kuvat, videot), kuulotulo (ääni), kosketussyöttö (paine)
kohtaamaan ongelmia: Multimodaalinen LLM näyttää melko hyvältä ja luottaa suuresti manuaalisesti järjestettyihin suuriin tietokokonaisuuksiin.
Esimerkiksi ALIGN: 1.8B grafiikka ja teksti/LAION: 5.8B grafiikka ja tekstidata (suodatettu CLIP:llä, tällä hetkellä suurin grafiikka ja tekstidata) on tällä hetkellä tekstiä kuvien kanssa?
Kuvankäsittely: Itsevalvonnan teknistä reittiä kokeillaan, mutta se ei ole vielä onnistunut (vertaileva oppiminen/MAE)/jos se voidaan saavuttaa onnistuneesti, se on toinen valtava teknologinen läpimurto tekoälyn alalla;
Jos se voidaan ratkaista, joidenkin nykyisten kuvan ymmärtämistehtävien (semanttinen segmentointi/tunnistus jne.) odotetaan integroituvan LLM:ään ja katoavan.
Vaikka nykyisellä LLM:llä on tiettyjä yksinkertaisia päättelykykyjä, siinä on silti puutteita monimutkaisessa päättelyssä. Esimerkiksi tehtävät, kuten moninumeroinen yhteenlasku, ovat edelleen haaste LLM:lle. Tutkijat tutkivat, kuinka monimutkaisia päättelykykyjä voidaan tislata pienempiin malleihin teknisten keinojen, kuten semanttisen hajotuksen, avulla.
Tämä ongelma voidaan tietysti kiertää myös kapasiteetin ulkoistamisella, esimerkiksi yhdistämällä se työkaluihin: laskentateho (ulkoinen laskin), uusi tietokysely (hakukone) ja muut ominaisuudet täydennetään ulkopuolisten työkalujen avulla.
Ruumiillistuneen älyn käsite yhdistää LLM:n robotiikkaan ja käyttää vahvistusoppimista ruumiillistuneen älyn saamiseksi vuorovaikutuksessa fyysisen maailman kanssa. . Esimerkiksi Googlen PaLM-E-malli yhdistää 540B PaLM:a ja 22B ViT:tä, mikä osoittaa LLM:n potentiaalin multimodaalisessa ympäristössä.
Tämä artikkeli tutkii syvällisesti kehityshistoriaa, teknistä tiekarttaa ja niiden vaikutusta LLM:n tulevaan tekoälykenttään. LLM:n kehittäminen ei ole vain teknologinen edistysaskel, vaan myös syvällinen heijastus koneen ymmärtämiskyvystämme. Säännöistä tilastoihin syvälliseen oppimiseen ja esikoulutukseen jokainen vaihe tarjoaa meille uusia näkökulmia ja työkaluja. Nykyään seisomme suuren mittakaavan kielimallien uuden aikakauden kynnyksellä ja kohtaamme ennennäkemättömiä mahdollisuuksia ja haasteita.