Teknologian jakaminen

"Syväanalyysi" ChatGPT2: Kielimalli valvomattomaan monitehtävään oppimiseen (2019)

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Paperin yhteenveto

Seuraava on henkilökohtainen yhteenvetoni luettuani koko artikkelin, joka sisältää ChatGPT-2-artikkelin pääsisällön. Voit lukea vain [Paper Summary] -luvun.

tietojoukko

Tein kotitekoisen indeksointirobotin. Jotkut indeksoidut verkkosivut ovat peräisin sosiaalisilta alustoilta.lopullinen luotu
WebText-tietojoukko
, joka sisältää 45 miljoonaa linkkiä. Toinen osa tulee uutissivustoilta Joulukuussa 2017 datamäärä on 8 000 000 artikkelia, joissa on yhteensä 40 Gt tekstisisältöä.Artikkelissa mainittiin myös, että tekstit, mukaan lukien Wikipedia ja muut tekstit, sisältyvät myös koulutusaineistoon, by
Miljoonat ihmiset ympäri maailmaa osallistuvat
luoda ja puhdistaa GPT-2-koulutuksessa käytettävä tietojoukko.

Tuloesitys

suunniteltu a
Hybridisyöttöesitys, joka yhdistää sanatason esityksen ja tavutason esityksen
. Aiemmista sanatason kirjastoista on poistettu suuri määrä toistuvia sanoja, ja tavutason esitys on otettu käyttöön yleistysominaisuuksien parantamiseksi.

Sanatason esityksessä on etusijalla etuja ja tavutason esittämisessä yleistysetuja.

Malli

GPT1:een on tehty joitain muutoksia:

1. Siirrä kerroksen normalisointi kunkin alilohkon tuloon.

2. Lisää kerrosten normalisointi itsetarkkailulohkon jälkeen.

3. Paranneltu alustusmenetelmää (alustusvaiheessa jäännöskerroksen paino kasvaa kerrannaisluvulla 1/√N, N on jäännöskerrosten lukumäärä).

4. Sanakirjan laajennus, sanan segmentoinnin laajennus, käskyjoukon laajennus ja eräkäsittelyn koon laajentaminen.

5.GPT sisältää 117000000 parametria,
GPT-2 sisältää 1542000000 parametria

koe

Koska harjoittelemme vain kerran, mutta haluamme tarkkailla mallin suorituskykyä eri alaryhmissä, kaikki kokeet voidaan luokitella
Nollasta oppimista

TestikohteetMikä mallin puoli on testattu?Testitulokset
LastenkirjatTunnista erityyppiset sanastoaACC parani 85,7:stä 93,3:een
LAMBADA testiKyky tunnistaa pitkät riippuvuudet tekstistäPPL99,8 alennettu arvoon 8,63
Winograd Schema Challengetervettä järkeä63,7 % nousi 70,7 %:iin
luetun ymmärtäminenMallissa on oltava tietyt muistiominaisuudet4 testiä ja 3 päivitettyä historiallista ennätystä
YhteenvetoMahdollisuus poimia tiivistelmiä uutisartikkeleistaHistoriallisten tulosten mukaisesti
KääntääSuuren mallin automaattisen oppimisen käännösominaisuudetEnglanninkielinen käännös on huono, kun taas ranskankielinen käännös saavuttaa vertailutason.
Q&AMallin kyky vastata uskottaviin kysymyksiin oikeinTarkkuus parani 5,3-kertaiseksi
Tee yhteenveto

GPT-2-paperin ydinsisältö voidaan tiivistää yhteen lauseeseen: eli
GPT-mallin perusteella kirjoittaja suurensi mallin kokoa ja koulutustietojoukon kokoa ja havaitsi, että GPT-2 pystyy automaattisesti mukautumaan ja täydentämään tehtävätavoitteiden oppimista NLP:n eri aloilla.

Esimerkiksi päivittäisen keskustelun tekstin ja uutisraporttitekstin tietojoukot syötetään samaan aikaan kiinteään kielimalliin, ja tämä tietojoukko on riittävän suuri, malli on riittävän suuri ja harjoitusaika riittävän pitkä. Lopullisessa mallissa on kyky erottaa eri skenaariot päivittäisistä keskusteluista ja uutisraporteista. Sen lisäksi mallissa on myös automaattisesti uusia ominaisuuksia, kuten mahdollisuus kirjoittaa uutistiivistelmiä.

Tämä tarkoittaa, että suurilla kielimalleilla on vahva yleistyskyky, mutta se tarkoittaa myös sitä
Suuret kielimallit ovat mahdollisesti itsenäisiä
. Tämä artikkeli esittelee sitten kokeellisia tuloksia useilla tekijän luettelemilla itsenäisillä alueilla.

Verrattuna GPT-paperiin, jossa mainittiin vain Large Dataset, LLM:n (Large Language Model) kuvaus alkoi ilmestyä GPT-2-paperiin.


Artikkelin alkuperäisen tekstin tulkinta

Alkuperäinen paperiosoite: https://cdn.openai.com/better-language-models/language_models_are_uns