informasi kontak saya
Surat[email protected]
2024-07-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Berikut ringkasan pribadi saya setelah membaca keseluruhan makalah yang berisi isi utama artikel ChatGPT-2. Anda hanya dapat membaca bab [Ringkasan Makalah].
Saya membuat perayap web buatan sendiri. Beberapa halaman web yang dirayapi berasal dari platform sosial.akhir yang dihasilkan
Kumpulan data WebTeks
, berisi 45 juta tautan. Sebagian lainnya berasal dari situs berita. Hingga Desember 2017, total volume data mencapai 8.000.000 artikel, dengan total konten teks sebesar 40 GB.Artikel tersebut juga menyebutkan bahwa teks termasuk Wikipedia dan teks lainnya juga disertakan dalam kumpulan data pelatihan, oleh
Jutaan orang di seluruh dunia berpartisipasi
untuk membuat dan membersihkan kumpulan data yang digunakan untuk pelatihan GPT-2.
dirancang a
Representasi input hibrid yang menggabungkan representasi tingkat kata dan representasi tingkat byte
. Untuk perpustakaan tingkat kata sebelumnya, sejumlah besar kata berulang telah dihapus, dan representasi tingkat byte telah diperkenalkan untuk meningkatkan kemampuan generalisasi.
Representasi tingkat kata memiliki keunggulan apriori, dan representasi tingkat byte memiliki keunggulan generalisasi.
Beberapa modifikasi telah dilakukan untuk GPT1:
1. Pindahkan normalisasi lapisan ke input setiap subblok.
2. Tambahkan normalisasi lapisan tambahan setelah blok perhatian mandiri.
3. Memperbaiki metode inisialisasi (selama inisialisasi, bobot lapisan sisa bertambah kelipatan 1/√N, N adalah jumlah lapisan sisa).
4. Perluasan kamus, perluasan segmentasi kata, perluasan set instruksi, dan perluasan ukuran pemrosesan batch.
5.GPT berisi 11.700.000 parameter,
GPT-2 berisi 154.200.000 parameter
。
Karena kita hanya berlatih satu kali, tetapi ingin mengamati performa model di berbagai subdivisi, semua eksperimen dapat diklasifikasikan sebagai
Pembelajaran zero-shot
。
item tes | Aspek model manakah yang diuji? | Hasil tes |
---|---|---|
buku Anak-anak | Mengidentifikasi berbagai jenis kosakata | ACC meningkat dari 85,7 menjadi 93,3 |
Tes LAMBADA | Kemampuan untuk mengidentifikasi ketergantungan panjang dalam teks | PPL99.8 dikurangi menjadi 8.63 |
Tantangan Skema Winograd | penalaran akal sehat | 63,7% meningkat menjadi 70,7% |
pemahaman membaca | Model harus memiliki kemampuan memori tertentu | 4 tes dan 3 catatan sejarah yang disegarkan |
Ringkasan | Kemampuan untuk mengekstrak ringkasan artikel berita | Sejalan dengan hasil sejarah |
menerjemahkan | Kemampuan penerjemahan pembelajaran otomatis model besar | Terjemahan bahasa Inggrisnya buruk, sedangkan terjemahan bahasa Prancisnya mencapai tingkat patokan. |
Tanya Jawab | Kemampuan model untuk menjawab pertanyaan yang masuk akal dengan benar | Akurasi meningkat 5,3 kali lipat |
Isi inti makalah GPT-2 dapat diringkas dalam satu kalimat: yaitu
Berdasarkan model GPT, penulis meningkatkan ukuran model dan ukuran kumpulan data pelatihan, dan menemukan bahwa GPT-2 dapat secara otomatis beradaptasi dan menyelesaikan pembelajaran tujuan tugas di berbagai bidang NLP.
。
Misalnya, kami memasukkan kumpulan data teks percakapan sehari-hari dan teks laporan berita ke dalam model bahasa tetap secara bersamaan, dan kumpulan data ini cukup besar, modelnya cukup besar, dan waktu pelatihannya cukup lama. Model terakhir akan memiliki kemampuan untuk membedakan berbagai skenario percakapan sehari-hari dan laporan berita. Tidak hanya itu, model tersebut juga secara otomatis akan memiliki beberapa kemampuan baru, seperti kemampuan menulis ringkasan berita.
Ini berarti bahwa model bahasa besar memiliki kemampuan generalisasi yang kuat, tetapi itu juga berarti demikian
Model bahasa besar berpotensi otonom
. Artikel ini kemudian menyajikan hasil eksperimen untuk beberapa bidang independen yang dicantumkan oleh penulis.
Dibandingkan dengan makalah GPT yang hanya menyebutkan Large Dataset, deskripsi LLM (Large Language Model) mulai muncul di makalah GPT-2.
Alamat kertas asli: https://cdn.openai.com/better-bahasa-models/bahasa_models_are_uns