Dengan pesatnya perkembangan pembelajaran mendalam, kinerja dan kemampuan generalisasi model telah menjadi fokus para peneliti. Namun, data dalam aplikasi praktis sering kali disertai dengan berbagai gangguan. Gangguan ini tidak hanya berasal dari keterbatasan perangkat keras dalam proses akuisisi data, namun juga dapat disebabkan oleh faktor-faktor seperti gangguan lingkungan dan kesalahan transmisi. Keberadaan kebisingan sangat mempengaruhi efek pelatihan dan akurasi prediksi model pembelajaran mendalam, terutama dalam tugas-tugas seperti pengenalan suara dan klasifikasi gambar. Oleh karena itu, meningkatkan ketahanan kebisingan model pembelajaran mendalam, yaitu meningkatkan performa stabil dan kemampuan pengenalan model di lingkungan bising, telah menjadi arah penting penelitian saat ini. Dengan merancang algoritme pemrosesan awal data yang lebih efektif, mengoptimalkan struktur model, dan memperkenalkan pelatihan yang meningkatkan kebisingan serta sarana teknis lainnya, ketahanan model pembelajaran mendalam terhadap kebisingan dapat ditingkatkan secara signifikan, sehingga mendorong penerapannya dalam skenario yang lebih kompleks.
Ketahanan kebisingan
adaTeknologi regularisasi dalam peningkatan kumpulan data pembelajaran mendalam telah menginspirasi penerapan noise pada input sebagai strategi augmentasi kumpulan data. Untuk beberapa model, menambahkan noise dengan varian minimal pada masukan model sama dengan menambahkan penalti norma pada bobot (Bishop, 1995a,b). Secara umum, injeksi kebisingan jauh lebih kuat daripada sekadar mengecilkan parameter, terutama ketika kebisingan ditambahkan ke unit tersembunyi.Menambahkan kebisingan ke unit tersembunyi adalah topik penting yang layak untuk didiskusikan sendiri。
lainKebisingan digunakan dalam model yang diatur dengan menambahkannya ke bobot . Teknik ini terutama digunakan dalam jaringan saraf berulang (Jim et al., 1996; Graves, 2011). Hal ini dapat diartikan sebagai implementasi stokastik dari inferensi Bayesian tentang bobot. Penggunaan pendekatan Bayesian dalam proses pembelajaran memperlakukan bobot sebagai sesuatu yang tidak pasti, dan ketidakpastian ini dapat direpresentasikan dengan distribusi probabilitas. Menambahkan noise pada bobot adalah cara stokastik praktis untuk mencerminkan ketidakpastian ini.
Berdasarkan asumsi tertentu, noise yang diterapkan pada bobot dapat ditafsirkan setara dengan bentuk regularisasi yang lebih tradisional, sehingga mendorong stabilitas fungsi yang akan dipelajari.
Kami mempelajari kasus regresi, yaitu melatih serangkaian fitur x simbol tebal{x}Xfungsi dipetakan ke skalar y ^ ( x ) topi{y}(simbol tebal{x})kamu^(X), dan gunakan fungsi biaya kuadrat terkecil untuk mengukur nilai prediksi model y ^ topi{y}kamu^dengan nilai sebenarnya Y ykamukesalahan: J = E p ( x , y ) [ ( y ^ ( x ) − y ) 2 ] —Rumus 1 J=mathbb{E}_{p(x,y)}[(hat{y}(simbol tebal{x} )-y)^2]quadtextbf{ukuran catatan kaki{---Rumus 1}}J=Bahasa InggrisP(X,kamu)[(kamu^(X)−kamu)2]—rumus1
Set pelatihan berisi satuanMContoh anotasi { ( x ( i ) , y ( i ) ) , … , ( x ( m ) , y ( m ) ) } {(simbol tebal{x}^{(i)},y^{(i)}),titik,(simbol tebal{x}^{(m)},y^{(m)})}{(X(Saya),kamu(Saya)),…,(X(M),kamu(M))}
Sekarang kita berasumsi bahwa menambahkan gangguan acak dari bobot jaringan pada setiap representasi masukan ϵ w ∼ N ( ϵ ; 0 , η I ) epsilon_wsimmathcal{N}(simbol tebal{epsilon};0,simbol etabold{I})ϵaku∼N(ϵ;0,ηSAYA)Bayangkan kita punya standar IIakulapisan Teks MLP{MLP}Bahasa Inggris MLP .Kami menyatakan model gangguan sebagai y ^ ϵ W ( x ) topi{y}_{epsilon_{simbol tebal{W}}}(simbol tebal{x})kamu^ϵKami(X)。
Kami tertarik untuk mengurangi kuadrat kesalahan keluaran jaringan meskipun terjadi injeksi derau. Oleh karena itu fungsi tujuannya adalah: { J ^ W = E p ( x , y , ϵ W ) [ ( y ^ ϵ W ( x ) − y ) 2 ] —Rumus 2 = E p ( x , y , ϵ W ) [ y ^ ϵ W 2 ( x ) − 2 yy ^ ϵ W ( x ) + y 2 ] —Rumus 3
{J^Kami=Bahasa InggrisP(X,kamu,ϵKami)[(kamu^ϵKami(X)−kamu)2]—rumus2=Bahasa InggrisP(X,kamu,ϵKami)[kamu^ϵKami2(X)−2kamukamu^ϵKami(X)+kamu2]—rumus3
untuk kecil aku etaη, meminimalkan kebisingan tertimbang (variansnya adalah η Saya menetapkan simbol{I}ηSAYA)dari JJJSetara dengan meminimalkan jangka waktu regularisasi tambahan J: η E p ( x , y ) [ ∥ ∇ W y ^ ( x ) ∥ 2 ] J:etamathbb{E}_{p(x,y)}kiri[Lambang_{tebal{W}}atas{y}(lambang_tebal{x})Lambang_^2kanan]J:ηBahasa InggrisP(X,kamu)[∥∇Kamikamu^(X)∥2]。
Bentuk regularisasi ini mendorong parameter untuk memasuki wilayah ruang parameter di mana gangguan kecil pada bobot mempunyai dampak yang relatif kecil terhadap keluaran. Dengan kata lain, mendorong model ke wilayah yang relatif tidak sensitif terhadap perubahan bobot yang kecil, dan titik yang ditemukan bukan sekedar titik minimum, melainkan titik minimum yang dikelilingi oleh bidang datar (Hochreiter dan Schmidhuber, 1995).
Dalam regresi linier yang disederhanakan (misalnya, y ^ ( x ) = w ⊤ x + b topi{y}(simbol tebal{x})=simbol tebal{w}^simbol tebal atas{x}+bkamu^(X)=aku⊤X+B, istilah reguler berubah menjadi: η E p ( x ) [ ∥ x ∥ 2 ] etamathbb{E}_{p(x)}[Simbol tebal{x}Vert^2]ηBahasa InggrisP(X)[∥X∥2], yang tidak ada hubungannya dengan parameter fungsi, jadi tidak akan ada hubungannya J ^ apa itu{J}_wJ^akuBerkontribusi pada gradien parameter model.
Menyuntikkan kebisingan ke target keluaran
Sebagian besar kumpulan data Y ykamu Ada beberapa kesalahan pada labelnya.Kapan Y ykamusalah untuk memaksimalkan log p ( y ∣ x ) log p(ysimbol tengah tebal{x})lihatGP(kamu∣X)akan berbahaya.
Salah satu cara untuk mencegah hal ini adalah dengan memodelkan noise pada label secara eksplisit.
Misalnya, kita dapat berasumsi bahwa untuk suatu konstanta kecil ϵ epsilonϵ, label set pelatihan Y ykamuKemungkinan benar adalah 1 − ϵ 1-epsilon1−ϵ, kemungkinan label lainnya mungkin benar.
Asumsi ini dapat dengan mudah digabungkan secara analitis dengan fungsi biaya tanpa mengambil sampel yang berisik secara eksplisit.
Misalnya,penghalusan label(label smoothing) berdasarkan kkaakuusebuah keluaran teks softmax{softmax}softmaxfungsi, yang mengacu pada klasifikasi yang jelas
0
0
0Dan
1
1
1Ubah dengan ϵ k − 1 gaya tampilan frac{epsilon}{k-1}aakuu−1ϵDan 1 − ϵ 1-epsilon1−ϵ, untuk mengatur model.
Kerugian cross-entropy standar dapat digunakan pada output dari target yang tidak tepat ini.menggunakan teks softmax{softmax}softmaxKemungkinan maksimum pembelajaran fungsi dan tujuan eksplisit mungkin tidak akan pernah bertemu - teks softmax{softmax}softmaxFungsi tidak pernah bisa benar-benar diprediksi
0
0
0probabilitas atau
1
1
1 probabilitasnya, sehingga ia terus mempelajari bobot yang semakin besar, membuat prediksinya semakin ekstrem. Menggunakan strategi regularisasi lain seperti penurunan berat badan dapat mencegah hal ini. Penghalusan label memiliki keuntungan dalam mencegah model mengejar probabilitas yang tidak ambigu tanpa menghambat klasifikasi yang benar. Strategi ini telah digunakan sejak tahun 1980an dan terus menonjol dalam jaringan saraf modern (Szegedy et al., 2015).
Meringkaskan
Meningkatkan ketahanan terhadap kebisingan dalam pembelajaran mendalam adalah kunci untuk memastikan bahwa model bekerja secara stabil di lingkungan dunia nyata. Melalui serangkaian cara teknis yang inovatif, seperti peningkatan data, pelatihan injeksi kebisingan, pengoptimalan struktur model, dll., kami dapat secara efektif meningkatkan toleransi model terhadap kebisingan dan akurasi pengenalan. Upaya-upaya ini tidak hanya mendorong pengembangan lebih lanjut teknologi pembelajaran mendalam, namun juga menghadirkan solusi yang lebih andal dan efisien untuk aplikasi praktis dalam pengenalan suara, pengenalan gambar, pemrosesan bahasa alami, dan bidang lainnya.
Di masa depan, dengan pendalaman penelitian dan kemajuan teknologi yang berkelanjutan, kami memiliki alasan untuk percaya bahwa ketahanan kebisingan model pembelajaran mendalam akan semakin ditingkatkan, membawa perubahan revolusioner di lebih banyak bidang.