2024-07-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Seuraava on henkilökohtainen yhteenvetoni luettuani koko artikkelin, joka sisältää ChatGPT-2-artikkelin pääsisällön. Voit lukea vain [Paper Summary] -luvun.
Tein kotitekoisen indeksointirobotin. Jotkut indeksoidut verkkosivut ovat peräisin sosiaalisilta alustoilta.lopullinen luotu
WebText-tietojoukko
, joka sisältää 45 miljoonaa linkkiä. Toinen osa tulee uutissivustoilta Joulukuussa 2017 datamäärä on 8 000 000 artikkelia, joissa on yhteensä 40 Gt tekstisisältöä.Artikkelissa mainittiin myös, että tekstit, mukaan lukien Wikipedia ja muut tekstit, sisältyvät myös koulutusaineistoon, by
Miljoonat ihmiset ympäri maailmaa osallistuvat
luoda ja puhdistaa GPT-2-koulutuksessa käytettävä tietojoukko.
suunniteltu a
Hybridisyöttöesitys, joka yhdistää sanatason esityksen ja tavutason esityksen
. Aiemmista sanatason kirjastoista on poistettu suuri määrä toistuvia sanoja, ja tavutason esitys on otettu käyttöön yleistysominaisuuksien parantamiseksi.
Sanatason esityksessä on etusijalla etuja ja tavutason esittämisessä yleistysetuja.
GPT1:een on tehty joitain muutoksia:
1. Siirrä kerroksen normalisointi kunkin alilohkon tuloon.
2. Lisää kerrosten normalisointi itsetarkkailulohkon jälkeen.
3. Paranneltu alustusmenetelmää (alustusvaiheessa jäännöskerroksen paino kasvaa kerrannaisluvulla 1/√N, N on jäännöskerrosten lukumäärä).
4. Sanakirjan laajennus, sanan segmentoinnin laajennus, käskyjoukon laajennus ja eräkäsittelyn koon laajentaminen.
5.GPT sisältää 117000000 parametria,
GPT-2 sisältää 1542000000 parametria
。
Koska harjoittelemme vain kerran, mutta haluamme tarkkailla mallin suorituskykyä eri alaryhmissä, kaikki kokeet voidaan luokitella
Nollasta oppimista
。
Testikohteet | Mikä mallin puoli on testattu? | Testitulokset |
---|---|---|
Lastenkirjat | Tunnista erityyppiset sanastoa | ACC parani 85,7:stä 93,3:een |
LAMBADA testi | Kyky tunnistaa pitkät riippuvuudet tekstistä | PPL99,8 alennettu arvoon 8,63 |
Winograd Schema Challenge | tervettä järkeä | 63,7 % nousi 70,7 %:iin |
luetun ymmärtäminen | Mallissa on oltava tietyt muistiominaisuudet | 4 testiä ja 3 päivitettyä historiallista ennätystä |
Yhteenveto | Mahdollisuus poimia tiivistelmiä uutisartikkeleista | Historiallisten tulosten mukaisesti |
Kääntää | Suuren mallin automaattisen oppimisen käännösominaisuudet | Englanninkielinen käännös on huono, kun taas ranskankielinen käännös saavuttaa vertailutason. |
Q&A | Mallin kyky vastata uskottaviin kysymyksiin oikein | Tarkkuus parani 5,3-kertaiseksi |
GPT-2-paperin ydinsisältö voidaan tiivistää yhteen lauseeseen: eli
GPT-mallin perusteella kirjoittaja suurensi mallin kokoa ja koulutustietojoukon kokoa ja havaitsi, että GPT-2 pystyy automaattisesti mukautumaan ja täydentämään tehtävätavoitteiden oppimista NLP:n eri aloilla.
。
Esimerkiksi päivittäisen keskustelun tekstin ja uutisraporttitekstin tietojoukot syötetään samaan aikaan kiinteään kielimalliin, ja tämä tietojoukko on riittävän suuri, malli on riittävän suuri ja harjoitusaika riittävän pitkä. Lopullisessa mallissa on kyky erottaa eri skenaariot päivittäisistä keskusteluista ja uutisraporteista. Sen lisäksi mallissa on myös automaattisesti uusia ominaisuuksia, kuten mahdollisuus kirjoittaa uutistiivistelmiä.
Tämä tarkoittaa, että suurilla kielimalleilla on vahva yleistyskyky, mutta se tarkoittaa myös sitä
Suuret kielimallit ovat mahdollisesti itsenäisiä
. Tämä artikkeli esittelee sitten kokeellisia tuloksia useilla tekijän luettelemilla itsenäisillä alueilla.
Verrattuna GPT-paperiin, jossa mainittiin vain Large Dataset, LLM:n (Large Language Model) kuvaus alkoi ilmestyä GPT-2-paperiin.
Alkuperäinen paperiosoite: https://cdn.openai.com/better-language-models/language_models_are_uns