catatan untuk datawhale 2th summer camp NLP task1

catatan untuk tugas NLP perkemahan musim panas ke-2 datawhale 1

2024-07-12

//Saya menulis catatan ini dalam obsidian dan menyalinnya di sini. Format aneh dalam catatan ini disebabkan oleh kurangnya plugin obsidian.

tag:

Studi AI
Bahasa Inggris
status: selesai

Target: Jalankan melalui baseline, alami proses pemecahan masalah model NLP, pahami secara dasar persyaratan pertanyaan kompetisi, dan pahami skenario kompetisi
kesulitan:sangat rendah
Langkah-langkah yang disarankan:

Kirim sesuai dokumentasi dan dapatkan skor pertama
Memahami format pengajuan pertanyaan kompetisi
Format data yang terkait dengan pelatihan model
Periksa skor pertama dan coba tuliskan catatannya

Dokumen Klik Pengetahuan Tugas1 - Dokumen Feishu Cloud (feishu.cn)

sejarah singkat ML

Terjemahan Mesin (MT) adalah cabang penting dalam bidang pemrosesan bahasa alamiSecara otomatis mengonversi teks dari satu bahasa ke teks dalam bahasa lain

Metode terjemahan mesin: berbasis aturan -> berbasis statistik -> pembelajaran mendalam
Berbasis aturan->Berbasis data->Pengemudi cerdas

Terjemahan mesin berbasis aturan (1950an-1980an): Sistem terjemahan mesin awal sebagian besar mengadopsi metode berbasis aturan, yaitu menggunakanAturan tata bahasa dan kamus yang ditulis oleh ahli bahasa untuk diterjemahkan .Metode ini memerlukan pemahaman mendalam tentang tata bahasa dan kosa kata bahasa sumber dan bahasa sasaran, namun kurang fleksibel dan mudah beradaptasi, sehingga sulit menangani struktur bahasa yang kompleks dan permasalahan polisemi.

Terjemahan mesin berbasis statistik (1990an-2000an) : Dengan peningkatan kinerja komputer dan munculnya korpora paralel berskala besar, terjemahan mesin statistik mulai meningkat.metode iniSecara otomatis mempelajari korespondensi antara bahasa sumber dan bahasa target dengan menganalisis teks bilingual dalam jumlah besar , sehingga mewujudkan terjemahan. Terjemahan mesin statistik telah menunjukkan hasil yang lebih baik dalam menangani polisemi dan variasi bahasa, namun karena ketergantungannya pada data pelatihan dalam jumlah besar, dukungannya tidak memadai untuk bahasa yang miskin sumber daya.

Terjemahan mesin berdasarkan jaringan saraf (2010-an-sekarang) : Penerapan metode jaringan saraf dalam tugas terjemahan mesin dapat ditelusuri kembali ke tahun 1980an dan 1990an. Namun karena keterbatasan sumber daya komputasi dan skala data pada saat itu, kinerja metode jaringan saraf kurang memuaskan, sehingga pengembangannya mengalami stagnasi selama bertahun-tahun. Dalam beberapa tahun terakhir, pesatnya perkembangan teknologi pembelajaran mendalam telah mendorong munculnya Neural Machine Translation (NMT). NMT menggunakan model jaringan saraf dalam sepertiJaringan memori jangka pendek panjang (LSTM) dan Transformer , dapat secara otomatis mempelajari hubungan pemetaan kompleks antara bahasa sumber dan bahasa target tanpa merancang fitur atau aturan secara manual. NMT telah membuat kemajuan signifikan dalam kualitas terjemahan, kecepatan dan kemampuan beradaptasi, dan telah menjadi metode utama di bidang terjemahan mesin saat ini.

Partisi data

Dalam proyek pembelajaran mesin dan pembelajaran mendalam, kumpulan data biasanya dibagi menjadi tiga bagian: set pelatihan (Training Set), set pengembangan (Development Set, juga sering disebut set validasi, Set Validasi) dan set pengujian (Test Set)

set pelatihan, model pelatihan
Set pengembangan untuk mencegah model overfitting ke set pelatihan
Set pengujian, simulasikan data nyata, periksa efeknya

Analisis pertanyaan kompetisi

Latar belakang acara

saat sekarangterjemahan mesin sarafTeknologi telah membuat terobosan besar, namunDi bidang atau industri tertentu, efek penerjemahan tidak ideal karena terjemahan mesin sulit memastikan konsistensi terminologi. .Untuk hasil terjemahan mesin yang tidak akurat seperti terminologi, nama orang dan tempat, dll, Anda bisaBenar melalui kamus terminologi, menghindari kebingungan atau ambiguitas dan memaksimalkan kualitas terjemahan.

Tugas acara

Tantangan Terjemahan Mesin Berdasarkan Intervensi Kamus Terminologi Pilih terjemahan mesin dengan bahasa Inggris sebagai bahasa sumber dan bahasa Mandarin sebagai bahasa target. Selain data bilingual dari Bahasa Inggris ke Bahasa Mandarin, kompetisi ini juga menyediakan kamus terminologi Bahasa Inggris-Mandarin.Tim yang berpartisipasi harus memulai dari sampel data pelatihan yang diberikan berdasarkanKonstruksi dan pelatihan model terjemahan mesin multibahasa, dan memberikan hasil terjemahan akhir berdasarkan set tes dan kamus istilah

//RAG🤗

Data kompetisi

Set pelatihan: data bilingual - lebih dari 140.000 pasangan kalimat bilingual dalam bahasa Mandarin dan Inggris
Set pengembangan: 1000 pasangan kalimat bilingual Inggris-Cina
Set tes: 1000 pasangan kalimat bilingual Inggris-Mandarin
Kamus terminologi: 2226 istilah dalam bahasa Inggris dan Cina

[!info] 🐵

**set pelatihan** digunakan untuk menjalankan algoritme pembelajaran Anda.
set pengembangan Digunakan untuk menyesuaikan parameter, memilih fitur, dan membuat keputusan lain tentang algoritma pembelajaran.kadang-kadang dipanggilset validasi silang tahan。
**Set pengujian** digunakan untuk mengevaluasi kinerja algoritme, namun tidak mengubah algoritme pembelajaran atau parameternya.

Indikator evaluasi

Untuk file hasil terjemahan set tes yang diserahkan oleh tim peserta, digunakan indikator evaluasi otomatis BIRU-4 Lakukan evaluasi dan gunakan alat khususversi open source sakral。

[!info] 📘
apaBIRU-4 ？

BLEU, nama lengkapBilingual Evaluation Understudy(pengganti penilaian bilingual), adalah a生成语句mengadakan评估的指标 . Skor BLEU adalah makalah tahun 2002 oleh Kishore Papineni dkk.《BLEU: Metode Evaluasi Otomatis Terjemahan Mesin》diusulkan di.

Di bidang terjemahan mesin, BLEU (Bilingual Evaluation Understudy) adalah indikator evaluasi otomatis yang umum digunakan untuk mengukurKesamaan antara terjemahan yang dihasilkan komputer dan serangkaian terjemahan referensi .Indikator ini memberikan perhatian khususn-gram Pencocokan tepat (n kata berturut-turut) dapat dianggap sebagai perkiraan statistik keakuratan dan kelancaran terjemahan. Saat menghitung skor BIRU, frekuensi n-gram dalam teks yang dihasilkan dihitung terlebih dahulu, kemudian frekuensi tersebut dibandingkan dengan n-gram dalam teks referensi. Jika terjemahan yang dihasilkan mengandung n-gram yang sama dengan yang muncul pada terjemahan referensi, maka dianggap cocok. Skor akhir BIRU adalah nilai antara 0 dan 1, dimana 1 mewakili kecocokan sempurna dengan terjemahan referensi dan 0 mewakili tidak ada kecocokan sama sekali.

BIRU-4 Secara khusus, ini mengacu pada memperhitungkan pencocokan empat kali lipat (yaitu, empat kata berturut-turut) saat menghitung.

BIRU Ciri-ciri indikator evaluasi:

Keuntungan: kecepatan penghitungan yang cepat, biaya penghitungan yang rendah, mudah dipahami, tidak bergantung pada bahasa tertentu, dan sangat berkorelasi dengan evaluasi manusia.
Kekurangan: Keakuratan ekspresi bahasa (tata bahasa) tidak dipertimbangkan; keakuratan evaluasi akan terganggu oleh kata-kata yang umum digunakan; keakuratan evaluasi kalimat terjemahan pendek terkadang lebih tinggi; terjemahan yang masuk akal.

Selain penerjemahan, penilaian BLEU yang dipadukan dengan metode pembelajaran mendalam dapat diterapkan pada masalah pembangkitan bahasa lainnya, seperti: pembuatan bahasa, pembuatan judul gambar, peringkasan teks, dan pengenalan ucapan.

Pikiran setelah kelas

Saya akan menggunakan Magic Tower mulai sekarang, laptop 8GB tidak akan mampu mengatasinya.
Saya melihat sekilas kode dan datanya, tetapi saya kurang memahaminya.
Coba tebak, selama proses penerjemahan, apakah beberapa opsi diambil dari kamus untuk setiap kata, dan yang memiliki kemungkinan kombinasi tertinggi adalah hasil terjemahan?

Berbagi teknologi