informasi kontak saya
Surat[email protected]
2024-07-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
//Saya menulis catatan ini dalam obsidian dan menyalinnya di sini. Format aneh dalam catatan ini disebabkan oleh kurangnya plugin obsidian.
tag:
Target: Jalankan melalui baseline, alami proses pemecahan masalah model NLP, pahami secara dasar persyaratan pertanyaan kompetisi, dan pahami skenario kompetisi
kesulitan:sangat rendah
Langkah-langkah yang disarankan:
Dokumen Klik Pengetahuan Tugas1 - Dokumen Feishu Cloud (feishu.cn)
Terjemahan Mesin (MT) adalah cabang penting dalam bidang pemrosesan bahasa alamiSecara otomatis mengonversi teks dari satu bahasa ke teks dalam bahasa lain
Metode terjemahan mesin: berbasis aturan -> berbasis statistik -> pembelajaran mendalam
Berbasis aturan->Berbasis data->Pengemudi cerdas
Terjemahan mesin berbasis aturan (1950an-1980an): Sistem terjemahan mesin awal sebagian besar mengadopsi metode berbasis aturan, yaitu menggunakanAturan tata bahasa dan kamus yang ditulis oleh ahli bahasa untuk diterjemahkan .Metode ini memerlukan pemahaman mendalam tentang tata bahasa dan kosa kata bahasa sumber dan bahasa sasaran, namun kurang fleksibel dan mudah beradaptasi, sehingga sulit menangani struktur bahasa yang kompleks dan permasalahan polisemi.
Terjemahan mesin berbasis statistik (1990an-2000an) : Dengan peningkatan kinerja komputer dan munculnya korpora paralel berskala besar, terjemahan mesin statistik mulai meningkat.metode iniSecara otomatis mempelajari korespondensi antara bahasa sumber dan bahasa target dengan menganalisis teks bilingual dalam jumlah besar , sehingga mewujudkan terjemahan. Terjemahan mesin statistik telah menunjukkan hasil yang lebih baik dalam menangani polisemi dan variasi bahasa, namun karena ketergantungannya pada data pelatihan dalam jumlah besar, dukungannya tidak memadai untuk bahasa yang miskin sumber daya.
Terjemahan mesin berdasarkan jaringan saraf (2010-an-sekarang) : Penerapan metode jaringan saraf dalam tugas terjemahan mesin dapat ditelusuri kembali ke tahun 1980an dan 1990an. Namun karena keterbatasan sumber daya komputasi dan skala data pada saat itu, kinerja metode jaringan saraf kurang memuaskan, sehingga pengembangannya mengalami stagnasi selama bertahun-tahun. Dalam beberapa tahun terakhir, pesatnya perkembangan teknologi pembelajaran mendalam telah mendorong munculnya Neural Machine Translation (NMT). NMT menggunakan model jaringan saraf dalam sepertiJaringan memori jangka pendek panjang (LSTM) dan Transformer , dapat secara otomatis mempelajari hubungan pemetaan kompleks antara bahasa sumber dan bahasa target tanpa merancang fitur atau aturan secara manual. NMT telah membuat kemajuan signifikan dalam kualitas terjemahan, kecepatan dan kemampuan beradaptasi, dan telah menjadi metode utama di bidang terjemahan mesin saat ini.
Dalam proyek pembelajaran mesin dan pembelajaran mendalam, kumpulan data biasanya dibagi menjadi tiga bagian: set pelatihan (Training Set), set pengembangan (Development Set, juga sering disebut set validasi, Set Validasi) dan set pengujian (Test Set)
set pelatihan, model pelatihan
Set pengembangan untuk mencegah model overfitting ke set pelatihan
Set pengujian, simulasikan data nyata, periksa efeknya
saat sekarangterjemahan mesin sarafTeknologi telah membuat terobosan besar, namunDi bidang atau industri tertentu, efek penerjemahan tidak ideal karena terjemahan mesin sulit memastikan konsistensi terminologi. .Untuk hasil terjemahan mesin yang tidak akurat seperti terminologi, nama orang dan tempat, dll, Anda bisaBenar melalui kamus terminologi, menghindari kebingungan atau ambiguitas dan memaksimalkan kualitas terjemahan.
Tantangan Terjemahan Mesin Berdasarkan Intervensi Kamus Terminologi Pilih terjemahan mesin dengan bahasa Inggris sebagai bahasa sumber dan bahasa Mandarin sebagai bahasa target. Selain data bilingual dari Bahasa Inggris ke Bahasa Mandarin, kompetisi ini juga menyediakan kamus terminologi Bahasa Inggris-Mandarin.Tim yang berpartisipasi harus memulai dari sampel data pelatihan yang diberikan berdasarkanKonstruksi dan pelatihan model terjemahan mesin multibahasa, dan memberikan hasil terjemahan akhir berdasarkan set tes dan kamus istilah
//RAG🤗
[!info] 🐵
- **set pelatihan** digunakan untuk menjalankan algoritme pembelajaran Anda.
- set pengembangan Digunakan untuk menyesuaikan parameter, memilih fitur, dan membuat keputusan lain tentang algoritma pembelajaran.kadang-kadang dipanggilset validasi silang tahan。
- **Set pengujian** digunakan untuk mengevaluasi kinerja algoritme, namun tidak mengubah algoritme pembelajaran atau parameternya.
Untuk file hasil terjemahan set tes yang diserahkan oleh tim peserta, digunakan indikator evaluasi otomatis BIRU-4 Lakukan evaluasi dan gunakan alat khususversi open source sakral。
[!info] 📘
apaBIRU-4 ?
BLEU
, nama lengkapBilingual Evaluation Understudy
(pengganti penilaian bilingual), adalah a生成语句
mengadakan评估的指标
. Skor BLEU adalah makalah tahun 2002 oleh Kishore Papineni dkk.《BLEU: Metode Evaluasi Otomatis Terjemahan Mesin》diusulkan di.
Di bidang terjemahan mesin, BLEU (Bilingual Evaluation Understudy) adalah indikator evaluasi otomatis yang umum digunakan untuk mengukurKesamaan antara terjemahan yang dihasilkan komputer dan serangkaian terjemahan referensi .Indikator ini memberikan perhatian khususn-gram Pencocokan tepat (n kata berturut-turut) dapat dianggap sebagai perkiraan statistik keakuratan dan kelancaran terjemahan. Saat menghitung skor BIRU, frekuensi n-gram dalam teks yang dihasilkan dihitung terlebih dahulu, kemudian frekuensi tersebut dibandingkan dengan n-gram dalam teks referensi. Jika terjemahan yang dihasilkan mengandung n-gram yang sama dengan yang muncul pada terjemahan referensi, maka dianggap cocok. Skor akhir BIRU adalah nilai antara 0 dan 1, dimana 1 mewakili kecocokan sempurna dengan terjemahan referensi dan 0 mewakili tidak ada kecocokan sama sekali.
BIRU-4 Secara khusus, ini mengacu pada memperhitungkan pencocokan empat kali lipat (yaitu, empat kata berturut-turut) saat menghitung.
BIRU Ciri-ciri indikator evaluasi:
Selain penerjemahan, penilaian BLEU yang dipadukan dengan metode pembelajaran mendalam dapat diterapkan pada masalah pembangkitan bahasa lainnya, seperti: pembuatan bahasa, pembuatan judul gambar, peringkasan teks, dan pengenalan ucapan.
Saya akan menggunakan Magic Tower mulai sekarang, laptop 8GB tidak akan mampu mengatasinya.
Saya melihat sekilas kode dan datanya, tetapi saya kurang memahaminya.
Coba tebak, selama proses penerjemahan, apakah beberapa opsi diambil dari kamus untuk setiap kata, dan yang memiliki kemungkinan kombinasi tertinggi adalah hasil terjemahan?