Berbagi teknologi

ChatGPT2 "Analisis Mendalam": Model Bahasa untuk Pembelajaran Multitugas Tanpa Pengawasan (2019)

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Ringkasan makalah

Berikut ringkasan pribadi saya setelah membaca keseluruhan makalah yang berisi isi utama artikel ChatGPT-2. Anda hanya dapat membaca bab [Ringkasan Makalah].

Himpunan data

Saya membuat perayap web buatan sendiri. Beberapa halaman web yang dirayapi berasal dari platform sosial.akhir yang dihasilkan
Kumpulan data WebTeks
, berisi 45 juta tautan. Sebagian lainnya berasal dari situs berita. Hingga Desember 2017, total volume data mencapai 8.000.000 artikel, dengan total konten teks sebesar 40 GB.Artikel tersebut juga menyebutkan bahwa teks termasuk Wikipedia dan teks lainnya juga disertakan dalam kumpulan data pelatihan, oleh
Jutaan orang di seluruh dunia berpartisipasi
untuk membuat dan membersihkan kumpulan data yang digunakan untuk pelatihan GPT-2.

Representasi masukan

dirancang a
Representasi input hibrid yang menggabungkan representasi tingkat kata dan representasi tingkat byte
. Untuk perpustakaan tingkat kata sebelumnya, sejumlah besar kata berulang telah dihapus, dan representasi tingkat byte telah diperkenalkan untuk meningkatkan kemampuan generalisasi.

Representasi tingkat kata memiliki keunggulan apriori, dan representasi tingkat byte memiliki keunggulan generalisasi.

Model

Beberapa modifikasi telah dilakukan untuk GPT1:

1. Pindahkan normalisasi lapisan ke input setiap subblok.

2. Tambahkan normalisasi lapisan tambahan setelah blok perhatian mandiri.

3. Memperbaiki metode inisialisasi (selama inisialisasi, bobot lapisan sisa bertambah kelipatan 1/√N, N adalah jumlah lapisan sisa).

4. Perluasan kamus, perluasan segmentasi kata, perluasan set instruksi, dan perluasan ukuran pemrosesan batch.

5.GPT berisi 11.700.000 parameter,
GPT-2 berisi 154.200.000 parameter

percobaan

Karena kita hanya berlatih satu kali, tetapi ingin mengamati performa model di berbagai subdivisi, semua eksperimen dapat diklasifikasikan sebagai
Pembelajaran zero-shot

item tesAspek model manakah yang diuji?Hasil tes
buku Anak-anakMengidentifikasi berbagai jenis kosakataACC meningkat dari 85,7 menjadi 93,3
Tes LAMBADAKemampuan untuk mengidentifikasi ketergantungan panjang dalam teksPPL99.8 dikurangi menjadi 8.63
Tantangan Skema Winogradpenalaran akal sehat63,7% meningkat menjadi 70,7%
pemahaman membacaModel harus memiliki kemampuan memori tertentu4 tes dan 3 catatan sejarah yang disegarkan
RingkasanKemampuan untuk mengekstrak ringkasan artikel beritaSejalan dengan hasil sejarah
menerjemahkanKemampuan penerjemahan pembelajaran otomatis model besarTerjemahan bahasa Inggrisnya buruk, sedangkan terjemahan bahasa Prancisnya mencapai tingkat patokan.
Tanya JawabKemampuan model untuk menjawab pertanyaan yang masuk akal dengan benarAkurasi meningkat 5,3 kali lipat
Meringkaskan

Isi inti makalah GPT-2 dapat diringkas dalam satu kalimat: yaitu
Berdasarkan model GPT, penulis meningkatkan ukuran model dan ukuran kumpulan data pelatihan, dan menemukan bahwa GPT-2 dapat secara otomatis beradaptasi dan menyelesaikan pembelajaran tujuan tugas di berbagai bidang NLP.

Misalnya, kami memasukkan kumpulan data teks percakapan sehari-hari dan teks laporan berita ke dalam model bahasa tetap secara bersamaan, dan kumpulan data ini cukup besar, modelnya cukup besar, dan waktu pelatihannya cukup lama. Model terakhir akan memiliki kemampuan untuk membedakan berbagai skenario percakapan sehari-hari dan laporan berita. Tidak hanya itu, model tersebut juga secara otomatis akan memiliki beberapa kemampuan baru, seperti kemampuan menulis ringkasan berita.

Ini berarti bahwa model bahasa besar memiliki kemampuan generalisasi yang kuat, tetapi itu juga berarti demikian
Model bahasa besar berpotensi otonom
. Artikel ini kemudian menyajikan hasil eksperimen untuk beberapa bidang independen yang dicantumkan oleh penulis.

Dibandingkan dengan makalah GPT yang hanya menyebutkan Large Dataset, deskripsi LLM (Large Language Model) mulai muncul di makalah GPT-2.


Interpretasi teks asli makalah

Alamat kertas asli: https://cdn.openai.com/better-bahasa-models/bahasa_models_are_uns