ChatGPT2 "Analisis Mendalam": Model Bahasa untuk Pembelajaran Multi-tugas Tanpa Pengawasan (2019)

ChatGPT2 "Analisis Mendalam": Model Bahasa untuk Pembelajaran Multitugas Tanpa Pengawasan (2019)

2024-07-12

Ringkasan makalah

Berikut ringkasan pribadi saya setelah membaca keseluruhan makalah yang berisi isi utama artikel ChatGPT-2. Anda hanya dapat membaca bab [Ringkasan Makalah].

Himpunan data

Saya membuat perayap web buatan sendiri. Beberapa halaman web yang dirayapi berasal dari platform sosial.akhir yang dihasilkan
Kumpulan data WebTeks
, berisi 45 juta tautan. Sebagian lainnya berasal dari situs berita. Hingga Desember 2017, total volume data mencapai 8.000.000 artikel, dengan total konten teks sebesar 40 GB.Artikel tersebut juga menyebutkan bahwa teks termasuk Wikipedia dan teks lainnya juga disertakan dalam kumpulan data pelatihan, oleh
Jutaan orang di seluruh dunia berpartisipasi
untuk membuat dan membersihkan kumpulan data yang digunakan untuk pelatihan GPT-2.

Representasi masukan

dirancang a
Representasi input hibrid yang menggabungkan representasi tingkat kata dan representasi tingkat byte
. Untuk perpustakaan tingkat kata sebelumnya, sejumlah besar kata berulang telah dihapus, dan representasi tingkat byte telah diperkenalkan untuk meningkatkan kemampuan generalisasi.

Representasi tingkat kata memiliki keunggulan apriori, dan representasi tingkat byte memiliki keunggulan generalisasi.

Model

Beberapa modifikasi telah dilakukan untuk GPT1:

1. Pindahkan normalisasi lapisan ke input setiap subblok.

2. Tambahkan normalisasi lapisan tambahan setelah blok perhatian mandiri.

3. Memperbaiki metode inisialisasi (selama inisialisasi, bobot lapisan sisa bertambah kelipatan 1/√N, N adalah jumlah lapisan sisa).

4. Perluasan kamus, perluasan segmentasi kata, perluasan set instruksi, dan perluasan ukuran pemrosesan batch.

5.GPT berisi 11.700.000 parameter,
GPT-2 berisi 154.200.000 parameter
。

percobaan

Karena kita hanya berlatih satu kali, tetapi ingin mengamati performa model di berbagai subdivisi, semua eksperimen dapat diklasifikasikan sebagai
Pembelajaran zero-shot
。

item tes	Aspek model manakah yang diuji?	Hasil tes
buku Anak-anak	Mengidentifikasi berbagai jenis kosakata	ACC meningkat dari 85,7 menjadi 93,3
Tes LAMBADA	Kemampuan untuk mengidentifikasi ketergantungan panjang dalam teks	PPL99.8 dikurangi menjadi 8.63
Tantangan Skema Winograd	penalaran akal sehat	63,7% meningkat menjadi 70,7%
pemahaman membaca	Model harus memiliki kemampuan memori tertentu	4 tes dan 3 catatan sejarah yang disegarkan
Ringkasan	Kemampuan untuk mengekstrak ringkasan artikel berita	Sejalan dengan hasil sejarah
menerjemahkan	Kemampuan penerjemahan pembelajaran otomatis model besar	Terjemahan bahasa Inggrisnya buruk, sedangkan terjemahan bahasa Prancisnya mencapai tingkat patokan.
Tanya Jawab	Kemampuan model untuk menjawab pertanyaan yang masuk akal dengan benar	Akurasi meningkat 5,3 kali lipat

Meringkaskan

Isi inti makalah GPT-2 dapat diringkas dalam satu kalimat: yaitu
Berdasarkan model GPT, penulis meningkatkan ukuran model dan ukuran kumpulan data pelatihan, dan menemukan bahwa GPT-2 dapat secara otomatis beradaptasi dan menyelesaikan pembelajaran tujuan tugas di berbagai bidang NLP.
。

Misalnya, kami memasukkan kumpulan data teks percakapan sehari-hari dan teks laporan berita ke dalam model bahasa tetap secara bersamaan, dan kumpulan data ini cukup besar, modelnya cukup besar, dan waktu pelatihannya cukup lama. Model terakhir akan memiliki kemampuan untuk membedakan berbagai skenario percakapan sehari-hari dan laporan berita. Tidak hanya itu, model tersebut juga secara otomatis akan memiliki beberapa kemampuan baru, seperti kemampuan menulis ringkasan berita.

Ini berarti bahwa model bahasa besar memiliki kemampuan generalisasi yang kuat, tetapi itu juga berarti demikian
Model bahasa besar berpotensi otonom
. Artikel ini kemudian menyajikan hasil eksperimen untuk beberapa bidang independen yang dicantumkan oleh penulis.

Dibandingkan dengan makalah GPT yang hanya menyebutkan Large Dataset, deskripsi LLM (Large Language Model) mulai muncul di makalah GPT-2.

Interpretasi teks asli makalah

Alamat kertas asli: https://cdn.openai.com/better-bahasa-models/bahasa_models_are_uns

Berbagi teknologi