Artikel ini mengulas secara komprehensif pengembangan fungsi aktivasi dalam pembelajaran mendalam, mulai dari fungsi awal Sigmoid dan Tanh, hingga seri ReLU yang banyak digunakan, hingga fungsi aktivasi baru yang baru-baru ini diusulkan seperti Swish, Mish, dan GeLU. Analisis mendalam terhadap ekspresi matematika, karakteristik, kelebihan, keterbatasan dan penerapan berbagai fungsi aktivasi dalam model tipikal dilakukan. Melalui analisis komparatif sistematis, artikel ini membahas prinsip desain, standar evaluasi kinerja, dan kemungkinan arah pengembangan fungsi aktivasi di masa depan, memberikan panduan teoretis untuk optimalisasi dan desain model pembelajaran mendalam.
1. Perkenalan
Fungsi aktivasi adalah komponen kunci dalam jaringan saraf, yang memperkenalkan karakteristik nonlinier pada keluaran neuron, memungkinkan jaringan saraf mempelajari dan merepresentasikan pemetaan nonlinier yang kompleks. Tanpa fungsi aktivasi, tidak peduli seberapa dalam jaringan saraf, pada dasarnya fungsi tersebut hanya dapat mewakili transformasi linier, yang sangat membatasi kemampuan ekspresif jaringan. Dengan pesatnya perkembangan pembelajaran mendalam, desain dan pemilihan fungsi aktivasi telah menjadi faktor penting yang mempengaruhi performa model. Fungsi aktivasi yang berbeda memiliki karakteristik yang berbeda, seperti fluiditas gradien, kompleksitas komputasi, derajat nonlinier, dll. Karakteristik ini secara langsung memengaruhi efisiensi pelatihan, kecepatan konvergensi, dan kinerja akhir jaringan saraf. Artikel ini bertujuan untuk meninjau secara komprehensif evolusi fungsi aktivasi, menganalisis secara mendalam karakteristik berbagai fungsi aktivasi, dan mengeksplorasi penerapannya dalam model pembelajaran mendalam modern. Kami akan membahas aspek-aspek berikut:
Fungsi aktivasi klasik: termasuk fungsi aktivasi awal yang umum digunakan seperti Sigmoid dan Tanh.
ReLU dan variannya: antara lain ReLU, Leaky ReLU, PReLU, ELU, dll.
Fungsi aktivasi baru: fungsi yang baru-baru ini diusulkan seperti Swish, Mish, dan GeLU.
Fungsi aktivasi tujuan khusus: seperti Softmax, Maxout, dll.
Perbandingan dan pemilihan fungsi aktivasi: Diskusikan strategi pemilihan fungsi aktivasi dalam berbagai skenario.
Pandangan Masa Depan: Jelajahi kemungkinan arah pengembangan penelitian fungsi aktivasi.
Melalui tinjauan dan analisis sistematis ini, kami berharap dapat memberikan referensi komprehensif bagi para peneliti dan praktisi untuk membantu mereka memilih dan menggunakan fungsi aktivasi dengan lebih baik dalam desain model pembelajaran mendalam.
2. Fungsi aktivasi klasik
2.1 Fungsi sigmoid
Fungsi Sigmoid adalah salah satu fungsi aktivasi paling awal yang banyak digunakan, dan ekspresi matematisnya adalah: σ ( x ) = 1 1 + e − x sigma(x) = pecahan{1}{1 + e^{-x}}σ(X)=1+Bahasa Inggris:−X1
Fitur dan keuntungan:
Kisaran keluaran dibatasi: Rentang keluaran fungsi Sigmoid adalah antara (0, 1), sehingga sangat cocok untuk menangani masalah probabilitas.
Halus dan Dapat Dibedakan: Fungsinya halus dan dapat dibedakan di seluruh domain, yang bermanfaat untuk penerapan algoritma penurunan gradien.
Penjelasan: Keluaran dapat diartikan sebagai probabilitas, terutama cocok untuk lapisan keluaran masalah klasifikasi biner.
Kekurangan dan keterbatasan:
masalah gradien menghilang: Ketika nilai masukan besar atau kecil, gradiennya mendekati nol, yang dapat menyebabkan masalah gradien hilang di jaringan dalam.
Keluaran pusat bukan nol: Keluaran Sigmoid semuanya positif, yang dapat menyebabkan masukan neuron di lapisan berikutnya selalu positif, sehingga mempengaruhi kecepatan konvergensi model.
Kompleksitas komputasi: Melibatkan operasi eksponensial, dan kompleksitas komputasinya relatif tinggi.
Adegan yang berlaku:
Jaringan saraf dangkal awal.
Lapisan keluaran untuk masalah klasifikasi biner.
Skenario yang outputnya perlu dibatasi pada rentang (0, 1).
Perbandingan dengan fungsi lainnya:
Dibandingkan dengan fungsi seperti ReLU yang muncul kemudian, penerapan Sigmoid di jaringan dalam sangat terbatas, terutama karena masalah hilangnya gradien. Namun, dalam beberapa tugas tertentu (seperti klasifikasi biner), sigmoid masih merupakan pilihan yang efektif.
2.2 Fungsi Tanh
Fungsi Tanh (tangen hiperbolik) dapat dianggap sebagai versi perbaikan dari fungsi Sigmoid, dan ekspresi matematisnya adalah: tanh ( x ) = ex − e − xex + e − x tanh(x) = pecahan{e^x - e^{-x}}{e^x + e^{-x}}tanh(X)=Bahasa Inggris:X+Bahasa Inggris:−XBahasa Inggris:X−Bahasa Inggris:−X
Fitur dan keuntungan:
keluaran pusat nol: Rentang keluaran fungsi Tanh adalah antara (-1, 1), yang memecahkan masalah pusat Sigmoid yang bukan nol.
Gradien yang lebih kuat: Di area yang inputnya mendekati nol, gradien fungsi Tanh lebih besar daripada fungsi Sigmoid, sehingga membantu mempercepat pembelajaran.
Halus dan Dapat Dibedakan: Mirip dengan Sigmoid, Tanh juga mulus dan terdiferensiasi.
Kekurangan dan keterbatasan:
masalah gradien menghilang: Meskipun ditingkatkan dibandingkan Sigmoid, Tanh masih memiliki masalah hilangnya gradien ketika nilai inputnya besar atau kecil.
Kompleksitas komputasi: Mirip dengan Sigmoid, Tanh juga melibatkan operasi eksponensial dan memiliki kompleksitas komputasi yang tinggi.
Adegan yang berlaku:
Lebih baik daripada Sigmoid dalam skenario yang memerlukan keluaran terpusat nol.
Sering digunakan dalam Recurrent Neural Networks (RNN) dan Long Short-Term Memory Networks (LSTM).
Digunakan dalam beberapa skenario di mana keluaran yang dinormalisasi itu penting.
Perbaikan dan perbandingan:
Fungsi Tanh dapat dianggap sebagai versi perbaikan dari fungsi Sigmoid. Peningkatan utama terletak pada keluaran yang terpusat pada nol. Fitur ini membuat kinerja Tanh lebih baik daripada Sigmoid dalam banyak situasi, terutama di jaringan dalam. Namun, dibandingkan dengan fungsi seperti ReLU yang muncul kemudian, Tanh masih memiliki masalah hilangnya gradien, yang dapat mempengaruhi performa model di jaringan yang sangat dalam. Dua fungsi aktivasi klasik, Sigmoid dan Tanh, memainkan peran penting pada masa-masa awal pembelajaran mendalam, dan karakteristik serta keterbatasannya juga mendorong pengembangan fungsi aktivasi selanjutnya. Meskipun fungsi tersebut telah digantikan oleh fungsi aktivasi yang diperbarui dalam banyak skenario, fungsi tersebut masih memiliki nilai penerapan unik dalam tugas dan struktur jaringan tertentu.
3. ReLU dan variannya
3.1 ReLU (Unit Linier Terarah)
Usulan fungsi ULT merupakan tonggak penting dalam pengembangan fungsi aktivasi. Ekspresi matematikanya sederhana: ReLU ( x ) = maks ( 0 , x ) teks{ReLU}(x) = maks(0, x)Ulang LU(X)=maks(0,X)
Fitur dan keuntungan:
Perhitungannya sederhana: Kompleksitas komputasi ReLU jauh lebih rendah dibandingkan Sigmoid dan Tanh, sehingga bermanfaat untuk mempercepat pelatihan jaringan.
Gradien mitigasi menghilang: Untuk masukan positif, gradien ReLU selalu 1, yang secara efektif mengatasi masalah gradien hilang di jaringan dalam.
aktivasi yang jarang: ReLU dapat membuat keluaran dari sebagian neuron menjadi 0, sehingga menghasilkan ekspresi jaringan yang jarang, yang bermanfaat dalam tugas-tugas tertentu.
penjelasan biologis: Sifat penghambatan unilateral ReLU mirip dengan perilaku neuron biologis.
Kekurangan dan keterbatasan:
Masalah "ReLU Mati".: Jika masukannya negatif, gradiennya nol, yang dapat mengakibatkan penonaktifan neuron secara permanen.
keluaran pusat bukan nol: Keluaran ReLU semuanya merupakan nilai non-negatif, yang mungkin mempengaruhi proses pembelajaran lapisan berikutnya.
Adegan yang berlaku:
Banyak digunakan di jaringan neural konvolusional dalam (seperti ResNet, VGG).
Cocok untuk sebagian besar jaringan neural feedforward.
Perbandingan dengan fungsi lainnya:
Dibandingkan dengan Sigmoid dan Tanh, ReLU menunjukkan keunggulan signifikan dalam jaringan dalam, terutama dalam hal kecepatan pelatihan dan mitigasi hilangnya gradien. Namun, masalah “ReLU yang mati” telah mendorong para peneliti untuk mengusulkan berbagai versi perbaikan.
3.2 ReLU yang Bocor
Untuk mengatasi masalah "kematian" ReLU, Leaky ReLU diusulkan: Leaky ReLU ( x ) = { x , jika x > 0 α x , jika x ≤ 0 text{Leaky ReLU}(x) ={X,jikaX>0αX,jikaX≤0ReLU yang bocor(X)={
X,sebuah kapak,jikaX>0jikaX≤0 di dalam, α alfaα adalah konstanta positif kecil, biasanya 0,01.
Fitur dan keuntungan:
Mengurangi masalah “ReLU mati”.: Tetap mempertahankan gradien kecil ketika inputnya negatif untuk menghindari penonaktifan neuron sepenuhnya.
Jaga keunggulan ReLU: Mempertahankan linearitas pada semi-sumbu positif, penghitungannya sederhana, dan membantu mengurangi hilangnya gradien.
Kekurangan dan keterbatasan:
Memperkenalkan hyperparameter: α alfaαPemilihan nilai memerlukan penyesuaian, yang meningkatkan kompleksitas model.
keluaran pusat bukan nol: Mirip dengan ReLU, outputnya masih belum terpusat pada nol.
Adegan yang berlaku:
Sebagai alternatif dalam skenario dimana kinerja ReLU buruk.
Digunakan dalam tugas-tugas di mana beberapa informasi bernilai negatif perlu dipertahankan.
3.3 PRELU (Parametric ReLU)
PReLU adalah varian dari Leaky ReLU, yang kemiringan sumbu semi negatifnya merupakan parameter yang dapat dipelajari: PReLU ( x ) = { x , jika x > 0 α x , jika x ≤ 0 text{PReLU}(x) ={X,jikaX>0αX,jikaX≤0Pra-Lu(X)={
X,sebuah kapak,jikaX>0jikaX≤0 Di Sini α alfaα adalah parameter yang dipelajari melalui propagasi mundur.
Fitur dan keuntungan:
pembelajaran adaptif: Kemiringan semi-sumbu negatif yang paling sesuai dapat dipelajari secara otomatis berdasarkan data.
potensi kinerja: Dalam beberapa tugas, PReLU dapat mencapai kinerja yang lebih baik dibandingkan ReLU dan Leaky ReLU.
Kekurangan dan keterbatasan:
Meningkatkan kompleksitas model: Memperkenalkan parameter tambahan yang dapat dipelajari akan meningkatkan kompleksitas model.
Kemungkinan overfitting: Dalam beberapa kasus, dapat menyebabkan overfitting, terutama pada kumpulan data kecil.
Adegan yang berlaku:
Tugas pembelajaran mendalam pada kumpulan data berskala besar.
Skenario yang memerlukan fungsi aktivasi adaptif.
3.4 ELU (Unit Linier Eksponensial)
ELU mencoba menggabungkan keunggulan ReLU dan pemrosesan masukan negatif. ELU ( x ) = { x , jika x > 0 α ( ex − 1 ) , jika x ≤ 0 text{ELU}(x) ={X,jikaX>0α(Bahasa Inggris:X−1),jikaX≤0ELU(X)=