[Pembelajaran Mendalam] Dasar-dasar Model Grafis (7): Metode Pengurangan Varians dalam Optimasi Pembelajaran Mesin (1)

[Pembelajaran Mendalam] Dasar-dasar Model Grafis (7): Metode Reduksi Varians dalam Optimasi Pembelajaran Mesin (1)

2024-07-12

Ringkasan

Pengoptimalan stokastik adalah komponen penting dalam pembelajaran mesin, dan intinya adalah algoritma penurunan gradien stokastik (SGD), sebuah metode yang telah banyak digunakan sejak pertama kali diusulkan lebih dari 60 tahun yang lalu. Selama delapan tahun terakhir, kita telah menyaksikan perkembangan baru yang menarik: teknik pengurangan varians untuk metode optimasi stokastik. Metode pengurangan varians (metode VR) ini bekerja dengan baik dalam skenario yang memungkinkan beberapa iterasi data pelatihan, menunjukkan konvergensi yang lebih cepat daripada SGD, baik secara teori maupun praktik. Peningkatan kecepatan ini menyoroti meningkatnya minat terhadap metode VR dan pesatnya akumulasi hasil penelitian di bidang ini. Artikel ini mengulas prinsip-prinsip utama dan kemajuan besar dalam metode VR untuk pengoptimalan kumpulan data terbatas, yang bertujuan untuk memberi informasi kepada pembaca non-ahli. Kami fokus terutama pada lingkungan optimasi cembung dan memberikan referensi bagi pembaca yang tertarik pada ekstensi untuk meminimalkan fungsi non-cembung.

Kata-kata kunci |. Pembelajaran mesin; optimasi;

1. Perkenalan

Dalam bidang penelitian pembelajaran mesin, masalah mendasar dan penting adalah bagaimana mengadaptasi model ke kumpulan data yang sangat besar. Misalnya, kita dapat mempertimbangkan kasus umum model kuadrat terkecil linier:

$x^* dalam argmin_{x dalam mathbb{R}^d} frac{1}{n} jumlah_{i=1}^{n} (a_i^T x - b_i)^2$

Dalam model ini yang kita miliki $D$ parameter, yang diwakili oleh vektor $mathbb{R}^d$ diberikan.Sementara itu, kami sudah siap $N$ titik data, termasuk vektor fitur $a_i dalam mathbb{R}^d$ dan nilai sasaran $b_i dalam mathbb{R}$ .Proses adaptasi model adalah menyesuaikan parameter-parameter tersebut sehingga menghasilkan keluaran model yang dapat diprediksi $ai^T x$ rata-rata sedekat mungkin dengan nilai target $b_i$ 。

Secara lebih luas, kita mungkin menggunakan fungsi kerugian $F_{Saya} (X)$ Untuk mengukur prediksi model dan $Saya$ Seberapa dekat titik datanya:

$x^* dalam argmin_{x dalam mathbb{R}^d} f(x) := frac{1}{n} jumlah_{i=1}^{n} f_i(x)$

fungsi kerugian $F_{Saya} (X)$ Jika lebih besar, hal ini menunjukkan bahwa prediksi model sangat menyimpang dari data jika $F_{Saya} (X)$ Sama dengan nol, model ini cocok dengan titik data dengan sempurna.fungsi $F (X)$ Mencerminkan kerugian rata-rata model di seluruh kumpulan data.

Soal seperti bentuk (2) di atas tidak hanya berlaku untuk soal kuadrat terkecil linier, tetapi juga untuk banyak model lain yang dipelajari dalam pembelajaran mesin. Misalnya, dalam model regresi logistik kita menyelesaikan:

$x^* dalam argmin_{x dalam mathbb{R}^d} frac{1}{n} jumlah_{i=1}^{n} log(1 + e^{-b_i a_i^T x}) + frac{lambda}{2} |x|_2^2$

Di sini, kita berurusan dengan $b_i dalam {-1, +1}$ Untuk masalah klasifikasi biner, prediksinya didasarkan pada $ai^T x$ simbol.Istilah regularisasi juga diperkenalkan dalam rumus $|x|_2^2$ untuk menghindari overfitting data, di mana $|x|_2^2$ cepat $X$ Kuadrat norma Euclidean.

Di sebagian besar model pembelajaran yang diawasi, proses pelatihan dapat dinyatakan dalam bentuk (2), termasuk kuadrat terkecil yang diatur L1, mesin vektor dukungan (SVM), analisis komponen utama, bidang acak bersyarat, dan jaringan saraf dalam, dll.

Tantangan utama dalam permasalahan modern adalah jumlah titik data $N$ Mungkin sangat besar. Kita sering kali berurusan dengan kumpulan data yang jauh melampaui kisaran terabyte dan dapat berasal dari berbagai sumber seperti internet, satelit, sensor jarak jauh, pasar keuangan, dan eksperimen ilmiah. Untuk menangani kumpulan data sebesar itu, pendekatan yang umum dilakukan adalah dengan menggunakan algoritma stochastic gradien descending (SGD), yang hanya menggunakan sejumlah kecil titik data yang dipilih secara acak di setiap iterasi. Selain itu, baru-baru ini terdapat peningkatan tajam dalam minat terhadap metode gradien stokastik pengurangan varians (VR), yang memiliki tingkat konvergensi lebih cepat dibandingkan metode gradien stokastik tradisional.
Masukkan deskripsi gambar di sini
Gambar 1. Pada masalah regresi logistik berdasarkan dataset jamur [7], metode penurunan gradien (GD), penurunan gradien yang dipercepat (AGD, akselerasi GD di [50]), penurunan gradien stokastik (SGD) dan ADAM [30] dibandingkan dengan metode varianceduction (VR) SAG dan SVRG, dimana n = 8124, d = 112.

1.1. Metode penurunan gradien gradien dan stokastik

Penurunan gradien (GD) adalah algoritma klasik yang digunakan untuk menyelesaikan masalah di atas (2), dan rumus pembaruan berulangnya adalah sebagai berikut:
$x_{k+1} = x_k - gamma pecahan{1}{n} jumlah_{i=1}^{n} nabla f_i(x_k)$

Di Sini, $γ$ adalah nilai langkah tetap yang lebih besar dari nol.Selama setiap iterasi algoritma GD, setiap titik data harus berada $Saya$ Hitung gradien $f_i(x_k)$ , yang berarti GD membutuhkan semua $N$ melakukan traversal lengkap titik data.Ketika ukuran kumpulan data $N$ Ketika ukurannya menjadi sangat besar, biaya setiap iterasi algoritma GD menjadi sangat tinggi, sehingga membatasi penerapannya.

Sebagai alternatif, kita dapat mempertimbangkan metode penurunan gradien stokastik (SGD), yang pertama kali diusulkan oleh Robbins dan Monro, dan rumus pembaruan berulangnya adalah sebagai berikut:
$x_{k+1} = x_k - gamma f_{i_k}(x_k)$

Algoritma SGD bekerja dengan hanya menggunakan gradien dari satu titik data yang dipilih secara acak di setiap iterasi. $f_{i_k}(x_k)$ untuk mengurangi biaya setiap iterasi. Pada Gambar 1, kita dapat melihat bahwa SGD mencapai kemajuan yang lebih signifikan dibandingkan GD (termasuk metode GD yang dipercepat) pada tahap awal proses optimasi.Grafik menunjukkan kemajuan optimasi dalam jangka waktu, yang didefinisikan sebagai perhitungan semua $N$ Jumlah gradien untuk sampel pelatihan. Algoritma GD melakukan satu iterasi pada setiap putaran, sedangkan algoritma SGD melakukan satu iterasi pada setiap putaran $N$ iterasi.Kami menggunakan putaran sebagai dasar untuk membandingkan SGD dan GD, karena berdasarkan asumsi $N$ Dalam kasus yang sangat besar, biaya utama kedua metode terkonsentrasi pada gradien $f_i(x_k)$ perhitungan.

1.2. Masalah varians

Mari kita pertimbangkan pengindeksan acak $Saya_{aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu}$ dari koleksi ${1, \dots, N}$ Dalam kasus pemilihan acak seragam, ini berarti untuk semua $Saya$ ,memilih $i_k = saya$ Kemungkinannya $P[i_k = i]$ setara $\frac{1}{N}$ . pada kasus ini, $f_{i_k}(x_k)$ sebagai $f(x_k)$ Penduga dari tidak bias karena, berdasarkan definisi ekspektasi, kita mempunyai:
$f_{i_k}(x_k) | x_k] = frak{1}{n} jumlah_{i=1}^{n} nabla f_i(x_k) = nabla f(x_k) kuadrat (6)$

Meskipun metode SGD (Stochastic Gradient Descent) tidak menjamin fungsi pada setiap iterasinya $F$ Nilai akan menurun, namun rata-rata bergerak menuju gradien penuh negatif, yang mewakili arah ke bawah.

Namun, memiliki penduga gradien yang tidak bias tidak cukup untuk memastikan konvergensi iterasi SGD. Untuk mengilustrasikan hal ini, Gambar 2 (kiri) menunjukkan lintasan berulang SGD ketika menerapkan fungsi regresi logistik menggunakan ukuran langkah konstan pada kumpulan data empat kategori yang disediakan oleh LIBSVM [7].Elips konsentris pada gambar mewakili kontur fungsi, yaitu nilai fungsi $F (X) = C$ titik yang sesuai $X$ mengumpulkan, $C$ adalah konstanta spesifik dalam himpunan bilangan real.nilai konstanta yang berbeda $C$ Sesuai dengan elips yang berbeda.

Lintasan berulang SGD tidak konvergen ke solusi optimal (ditunjukkan dengan tanda bintang hijau pada gambar), tetapi membentuk titik awan di sekitar solusi optimal. Sebaliknya, kami menunjukkan pada Gambar 2 lintasan berulang dari metode pengurangan varians (VR), gradien rata-rata stokastik (SAG), menggunakan ukuran langkah konstan yang sama, yang akan kami perkenalkan nanti. Alasan SGD gagal konvergen dalam contoh ini adalah karena gradien stokastik itu sendiri tidak konvergen ke nol, dan oleh karena itu, metode SGD langkah konstan (5) tidak pernah berhenti.Hal ini sangat kontras dengan metode penurunan gradien (GD), yang secara alami berhenti sebagai $x_k_k$ Pendekatan $x∗x^*$ , gradien $f(x_k)$ akan cenderung nol.
Masukkan deskripsi gambar di sini
Gambar 2. Plot set level untuk regresi logistik dua dimensi menggunakan metode iteratif langkah tetap SGD (kiri) dan SAG (kanan). Tanda bintang hijau menunjukkan xmembuka.

1.3.Metode pengurangan varians klasik

pemrosesan karena $f_i(x_k)$ Ada beberapa teknik klasik untuk masalah non-konvergensi yang disebabkan oleh varians nilai.Misalnya, Robbins dan Monro [64] menggunakan serangkaian langkah menurun $gamma_k$ untuk memecahkan masalah varians, memastikan bahwa produk $gamma_k adalah f_{i_k}(x_k)$ dapat konvergen ke nol. Namun, menyesuaikan urutan langkah-langkah penurunan ini untuk menghindari penghentian algoritma terlalu dini atau terlambat adalah masalah yang sulit.

Teknik klasik lainnya untuk mengurangi varians adalah dengan menggunakan kelipatan $f_i(x_k)$ rata-rata untuk mendapatkan gradien penuh $\nabla F (X)$ perkiraan yang lebih akurat. Pendekatan ini disebut minibatch dan sangat berguna ketika beberapa gradien dapat dievaluasi secara paralel. Ini menghasilkan iterasi bentuk:
$x_{k+1} = x_k - gamma frac{1}{|B_k|} sum_{i dalam B_k} nabla f_i(x_k) quad (7)$
di dalam $B_k$ adalah kumpulan indeks acak, $B_k|$ cepat $B_k$ ukuran dari.jika $B_k$ Pengambilan sampel dilakukan secara seragam dengan penggantian, maka varians estimasi gradien ini terkait dengan "ukuran batch" $B_k|$ berbanding terbalik, sehingga varians dapat dikurangi dengan meningkatkan ukuran batch.

Namun, biaya iterasi tersebut sebanding dengan ukuran batch, sehingga bentuk pengurangan varians ini mengakibatkan peningkatan biaya komputasi.

Strategi umum lainnya untuk mengurangi varians dan meningkatkan kinerja empiris SGD adalah dengan menambahkan "momentum", istilah tambahan berdasarkan arah yang digunakan pada langkah-langkah sebelumnya. Secara khusus bentuk SGD dengan momentum adalah sebagai berikut:
$x_{k+1} = x_k - gamma m_k quad (9)$
dimana parameter momentum $β$ Terletak di kisaran (0, 1).Jika momentum awal $m_0 = 0$ , dan perluas di (8) $mk_k$ Untuk pembaruan, kami dapatkan $mk_k$ adalah rata-rata tertimbang dari gradien sebelumnya:
$m_k = jumlah_{t=0}^{k} beta^{kt} nabla f_{i_t}(x_t) quad (10)$
Karena itu, $mk_k$ adalah jumlah tertimbang dari gradien stokastik.Karena $jumlah_{t=0}^{k} beta^{kt} = pecahan{1 - beta^{k+1}}{1 - beta}$ , kita dapat mengkonversi $beta^k} m_k$ Dianggap sebagai rata-rata tertimbang dari gradien stokastik.Jika kita membandingkannya dengan ekspresi gradien lengkap $f(x_k) = frac{1}{n} jumlah_{i=1}^{n} nabla f_i(x_k)$ Sebagai perbandingan, kita bisa $beta^k} m_k$ (sebaik $mk_k$ ) ditafsirkan sebagai perkiraan gradien lengkap. Meskipun jumlah tertimbang ini mengurangi varians, hal ini juga menimbulkan permasalahan utama.Karena jumlah tertimbang (10) memberi bobot lebih pada gradien yang diambil sampelnya baru-baru ini, maka jumlah tersebut tidak akan konvergen ke gradien penuh $f(x_k)$ , yang terakhir adalah rata-rata sederhana. Metode reduksi varians pertama yang akan kita lihat di Bagian II-A memecahkan masalah ini dengan menggunakan rata-rata sederhana dan bukan rata-rata tertimbang.

1.4. Metode pengurangan varians modern

Berbeda dengan metode klasik, metode ini menggunakan satu atau lebih secara langsung $f_i(x_k)$ sebagai $f(x_k)$ Sebagai perkiraan, metode pengurangan varians (VR) modern menggunakan strategi yang berbeda.Metode-metode ini digunakan $f_i(x_k)$ untuk memperbarui estimasi gradien $g_k$ , yang tujuannya adalah untuk membuat $g_k$ mendekati $f(x_k)$ .Secara khusus, kami berharap $g_k$ mampu memuaskan $g_k kira-kira nabla f(x_k)$ . Berdasarkan perkiraan gradien tersebut, kami kemudian melakukan perkiraan langkah gradien dalam bentuk:
$x_{k+1} = x_k - gamma g_k quad (11)$
Di Sini $γ > 0$ adalah parameter ukuran langkah.

Untuk memastikan bahwa ukuran langkah yang konstan digunakan $γ$ Ketika iterasi (11) dapat menyatu, kita perlu memastikan estimasi gradien $g_k$ Variansnya cenderung nol. Secara matematis, hal ini dapat dinyatakan sebagai:
$g_k - nabla f(x_k) |^2 right] rightarrow 0 quad text{as } k rightarrow infty quad (12)$
harapan di sini $Bahasa Inggris$ didasarkan pada algoritma hingga $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ Semua variabel acak dihitung untuk iterasi. Properti (12) memastikan bahwa metode VR dapat dihentikan ketika solusi optimal tercapai. Kami menganggap properti ini sebagai ciri khas pendekatan VR dan karenanya menyebutnya sebagai properti VR. Perlu dicatat bahwa ungkapan varians yang "berkurang" bisa menyesatkan, karena sebenarnya variansnya cenderung nol. Properti (12) adalah faktor kunci yang memungkinkan metode VR mencapai konvergensi lebih cepat dalam teori (dengan asumsi yang tepat) dan dalam praktik (seperti yang ditunjukkan pada Gambar 1).

1.5. Contoh pertama metode pengurangan varians: SGD²

Metode perbaikan sederhana dapat membuat rumus rekursif SGD (5) mencapai konvergensi tanpa mengurangi ukuran langkah, yaitu menerjemahkan setiap gradien. Metode spesifiknya adalah dengan mengurangi $f_i(x^*)$ , metode ini didefinisikan sebagai berikut:
$x_{k+1} = x_k - gamma (misalkan f_{i_k}(x_k) - misalkan f_{i_k}(x^*)) quad (13)$
Metode ini disebut SGD² [22].Meski biasanya kita tidak bisa mengetahui secara pasti semuanya $f_i(x^*)$ , tetapi SGD², sebagai contoh, dapat menggambarkan dengan baik karakteristik dasar metode pengurangan varians.Selain itu, banyak metode reduksi varians yang dapat dipandang sebagai bentuk perkiraan dari metode SGD²; metode ini tidak bergantung pada metode yang diketahui $f_i(x^*)$ , namun gunakan metode yang dapat memperkirakan $f_i(x^*)$ nilai perkiraan.

Perlu dicatat bahwa SGD² menggunakan perkiraan gradien lengkap yang tidak bias.Karena $f(x^*) = 0$ ,F:
$f_{i_k}(x_k) - bentuk f_{i_k}(x^*)] = bentuk f(x_k) - bentuk f(x^*) = bentuk f(x_k)$
Selain itu, ketika SGD² mencapai solusi optimal, maka secara alami akan berhenti karena apa pun $Saya$ ,memiliki:
$f_i(x) - misalkan f_i(x^*)) bigg|_{x=x^*} = 0$

Setelah diamati lebih lanjut, dengan $x_k_k$ di dekat $x∗x^*$ (untuk berturut-turut $f_i$ ), SGD² memenuhi properti reduksi varians (12) karena:
$g_k - nabla f(x_k) |^2 kanan] = \Kekiri[ | nabla f_{i_k}(x_k) - nabla f_{i_k}(x^*) - nabla f(x_k) |^2 kanan] leq Eleft[ | nabla f_{i_k}(x_k) - nabla f_{i_k}(x^*) |^2 kanan]$
Disini kita menggunakan Lemma 2, misalkan $f_{i_k}(x_k) - jumlah f_{i_k}(x^*)$ , dan memanfaatkan $f_{i_k}(x_k) - bentuk f_{i_k}(x^*)] = bentuk f(x_k)$ alam. Properti ini menunjukkan bahwa SGD² memiliki kecepatan konvergensi yang lebih cepat dibandingkan metode SGD tradisional, yang telah kami jelaskan secara rinci di Lampiran B.

1.6.Konvergensi cepat metode pengurangan varians

Pada bagian ini kami akan memperkenalkan dua asumsi standar yang digunakan untuk menganalisis metode pengurangan varians (VR), dan membahas efek percepatan yang dapat dicapai berdasarkan asumsi ini dibandingkan dengan metode SGD tradisional. Pertama, kita asumsikan bahwa gradien memiliki kontinuitas Lipschitz, yang berarti laju perubahan gradien berhingga.

Asumsi 1 (kontinuitas Lipschitz)

Kami berasumsi bahwa fungsinya $F$ dapat dibedakan dan adalah $Saya$ - halus, untuk semua $X$ Dan $kamu$ dan seseorang $0 < Saya < \infty$ ,Kondisi berikut:
$∥\nabla F (X) - \nabla F (kamu) ∥ \leq Saya ∥ X - kamu ∥ (14)$
Artinya setiap $mathbb{R}^d panah kanan mathbb{R}$ dapat dibedakan, $L_i$ - halus, kami tentukan $L_{teks{maks}}$ untuk $maks{L_1, . . . , Bahasa Indonesia$ 。

Meskipun hal ini secara umum dianggap sebagai asumsi yang lemah, pada bab selanjutnya kita akan membahas metode VR yang cocok untuk permasalahan non-smooth. Untuk fungsi univariat yang terdiferensiasi dua kali, $Saya$ -Kelancaran dapat dipahami secara intuitif sebagai: setara dengan asumsi bahwa turunan kedua adalah $Saya$ batas atas, yaitu $∣ F^{''} (X) ∣ \leq Saya$ untuk semua $mathbb{R}^d$ .Untuk fungsi terdiferensiasi dua kali dari beberapa variabel, hal ini setara dengan asumsi matriks Hessian $\nabla^{2} F (X)$ Nilai tunggal dari $Saya$ batas atas.

Asumsi 2 (cembung kuat)

Hipotesis kedua yang kami pertimbangkan adalah fungsi (f) adalah $μ$ -Sangat cembung, artinya pasti $μ > 0$ ,fungsi $frak{mu}{2}|x|^2$ Itu cembung.Selanjutnya, untuk masing-masing $Saya = 1, ..., N$ ， $mathbb{R}^d panah kanan mathbb{R}$ Itu cembung.

Ini adalah asumsi yang kuat.Dalam soal kuadrat terkecil, masing-masing (fi$ cembung, tetapi fungsi keseluruhan (f) hanya ada pada matriks desain $[a_1, . . . , sebuah_n]$ Ini sangat cembung hanya jika memiliki peringkat baris yang sempurna. Masalah regresi logistik teregulasi L2 memenuhi asumsi ini karena adanya istilah regularisasi, dimana $μ \geq λ$ 。

Kelompok permasalahan penting yang memenuhi asumsi ini adalah permasalahan optimasi dalam bentuk:
$x^* dalam argmin_{x dalam mathbb{R}^d} f(x) = frac{1}{n} jumlah_{i=1}^{n} ell_i(a_i^Tx) + frac{lambda}{2}|x|^2 quad (15)$
di mana setiap "kerugian" berfungsi $ell_i: mathbb{R} panah kanan mathbb{R}$ terdiferensiasi dua kali, dan turunan keduanya $ell_i''$ dibatasi hingga 0 dan beberapa batas atas $M$ di antara. Ini mencakup berbagai fungsi kerugian dengan regularisasi L2 dalam pembelajaran mesin, seperti kuadrat terkecil, regresi logistik, regresi probit, regresi kuat Huber, dll.Dalam hal ini, untuk semua $Saya$ ,Kita punya $L_i leq M|a_i|^2 + lambda$ Dan $μ \geq λ$ 。

Berdasarkan asumsi ini, tingkat konvergensi metode penurunan gradien (GD) ditentukan oleh nomor kondisi $κ := Saya / μ$ Memutuskan. Angka kondisi selalu lebih besar dari atau sama dengan 1, dan bila angka tersebut secara signifikan lebih besar dari 1, kontur fungsi menjadi sangat elips, menyebabkan iterasi metode GD berosilasi.Sebaliknya, kapan $κ$ Ketika mendekati 1, metode GD konvergen lebih cepat.

Berdasarkan Asumsi 1 dan 2, metode VR menyatu pada laju linier.Kita katakan bahwa nilai fungsi dari metode acak ({f(x_k)}) diberikan oleh $0 < ρ \leq 1$ Laju konvergensi linier (di bawah ekspektasi), jika terdapat konstanta $C > 0$ Membuat:
$E[f(x_k)] - f(x^*) leq (1 - rho)^k C = O(exp(-krho)) kuadran untuk semua k kuadran (16)$
Hal ini berbeda dengan metode SGD klasik yang hanya mengandalkan estimasi gradien yang tidak bias pada setiap iterasi, yang hanya memperoleh laju sublinear berdasarkan asumsi berikut:
$F(x_k) dan F(x^*).$
Nilai minimum yang memenuhi ketimpangan ini $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ Ini disebut kompleksitas berulang dari algoritma. Berikut kompleksitas iteratif dan biaya satu iterasi untuk varian dasar metode GD, SGD dan VR:

algoritma	Jumlah iterasi	biaya iterasi
GD	$HAI (κ lihat G (1/ ϵ))$	$HAI (N)$
SGD	$O(kappa_{teks{maks}} maks(1/epsilon))$	$HAI (1)$
realitas virtual	$O((kappa_{teks{maks}} + n) log(1/epsilon))$	$HAI (1)$

Total waktu berjalan suatu algoritma ditentukan oleh produk dari kompleksitas iterasi dan waktu berjalan iterasi.digunakan di sini $kappa_{teks{maks}} := maks_i L_i/mu$ .Melihat $kappa_{teks{maks}} geq kappa$ ; Oleh karena itu, kompleksitas iterasi GD lebih kecil dibandingkan metode VR.

Namun, karena biaya per iterasi GD sama dengan biaya metode VR $N$ kali, metode VR lebih unggul dalam hal total waktu berjalan.

Keuntungan metode SGD klasik adalah waktu berjalan dan laju konvergensinya tidak bergantung pada satu sama lain $N$ , tetapi memiliki toleransi $ϵ$ Ketergantungan jauh lebih buruk, yang menjelaskan buruknya kinerja SGD ketika toleransinya kecil.

Pada Lampiran B, kami memberikan bukti sederhana yang menunjukkan bahwa metode SGD² memiliki kompleksitas iteratif yang sama dengan metode VR.

2. Metode reduksi varians dasar

Pengembangan metode pengurangan varians (VR) telah melalui beberapa tahap, dan metode awal menghasilkan peningkatan tingkat konvergensi secara signifikan. Awal dari rangkaian metode ini adalah algoritma SAG. Selanjutnya, algoritma stochastic dual coordinat ascent (SDCA), algoritma MISO, algoritma stochastic variance reduksi gradien (SVRG/S2GD), dan algoritma SAGA (artinya SAG yang "ditingkatkan") keluar satu demi satu.

Dalam bab ini, kami akan merinci metode VR perintis ini. Pada Bab 4, kita akan mengeksplorasi beberapa metode baru yang menunjukkan karakteristik lebih unggul dibandingkan metode dasar dalam skenario aplikasi tertentu.

2.1. Metode gradien rata-rata stokastik (SAG)

Eksplorasi kami terhadap metode reduksi varians (VR) pertama dimulai dengan peniruan struktur gradien penuh.Sejak gradien lengkap $\nabla F (X)$ semua $f_i(x)$ Rata-rata gradien sederhana, lalu perkiraan gradien penuh kami $g_k$ Ini juga harus menjadi rata-rata dari perkiraan gradien ini. Ide ini memunculkan metode VR pertama kami: metode stochastic average gradien (SAG).

Metode SAG [37], [65] adalah versi acak dari metode gradien agregat inkremental awal (IAG) [4]. Ide inti SAG adalah untuk setiap titik data $Saya$ mempertahankan perkiraan $v_{ik} kira-kira nabla f_i(x_k)$ .Lalu, gunakan ini $v_{ik}$ Nilai rata-rata digunakan sebagai perkiraan gradien lengkap, yaitu:
$bar{g}_k = frac{1}{n} jumlah_{j=1}^{n} v_{jk} kira-kira frac{1}{n} jumlah_{j=1}^{n} nabla f_j(x_k) = nabla f(x_k) quad (18)$

Di setiap iterasi SAG, dari himpunan ${1, \dots, N}$ Ekstrak indeks dari $Saya_{aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu}$ , dan kemudian diperbarui sesuai dengan aturan berikut $v_{bercanda}$ ：
$begin{cases} nabla f_{i_k}(x_k), & text{if } j = i_k \ v_{jk}^k, & text{if } j neq i_k end{cases}$
Diantaranya, masing-masing $v_{0i}$ Dapat diinisialisasi ke nol atau $f_i(x_0)$ nilai perkiraan.Dengan solusinya $x∗x^*$ perkiraan, masing-masing $v_{ik}$ secara bertahap akan menyatu ke $f_i(x^*)$ , sehingga memenuhi properti VR (12).

Untuk mengimplementasikan SAG secara efisien, kita perlu memperhatikan perhitungan $batang{g}_k$ untuk menghindari memulai penjumlahan dari awal setiap saat $N$ vektor, karena ini $N$ Biayanya tinggi bila ukurannya besar.Untungnya, karena setiap iterasi hanya memiliki satu $v_{ik}$ Persyaratannya akan berubah dan kita tidak perlu menghitung ulang seluruh jumlah setiap saat.Secara khusus, asumsikan hal itu saat melakukan iterasi $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ Indeks diambil dari $Saya_{aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu}$ , lalu ada:
$bar{g}_k = fraksi{1}{n} jumlah_{subtumpukan{j=1 \ j neq i_k}}^{n} v_{jk} + fraksi{1}{n} v_{i_k}^k = bar{g}_{k-1} - fraksi{1}{n} v_{i_k}^{k-1} + fraksi{1}{n} v_{i_k}^{k kuad (20)$

Karena selain $v_{i_k}$ semuanya kecuali $v_{bercanda}$ Nilainya semua tetap sama, kita simpan saja masing-masing $J$ Sebuah vektor yang sesuai dengan $v_j$ . Algoritma 1 menunjukkan implementasi spesifik dari metode SAG.

SAG adalah metode stokastik pertama yang mencapai konvergensi linier, dan kompleksitas iterasinya adalah $O((kappa_{teks{maks}} + n) log(1/epsilon))$ , menggunakan ukuran langkah $O(1/L_{teks{maks}})$ . Konvergensi linier ini dapat diamati pada Gambar 1.Perlu dicatat bahwa karena $L_{teks{maks}}$ -Fungsi halus untuk apa pun $L_{teks{maks}}$ Juga $Saya^{'}$ - Halus, metode SAG mencapai tingkat konvergensi linier untuk ukuran langkah yang cukup kecil, berbeda dengan metode SGD klasik, yang hanya mencapai tingkat sublinier dengan urutan penurunan ukuran langkah yang sulit disesuaikan dalam praktiknya.

Pada saat itu, konvergensi linier SAG merupakan kemajuan yang signifikan karena hanya menghitung satu gradien stokastik (memproses satu titik data) dalam setiap iterasi. Namun, bukti konvergensi yang diberikan oleh Schmidt et al [65] sangat kompleks dan bergantung pada langkah-langkah yang diverifikasi komputer. Alasan utama mengapa SAG sulit dianalisis adalah karena itu $g_k$ adalah perkiraan gradien yang bias.

Selanjutnya, kami memperkenalkan metode SAGA, varian SAG yang memanfaatkan konsep kovariat untuk membuat varian metode SAG yang tidak bias dan memiliki performa serupa namun lebih mudah dianalisis.

Algoritma 1: Metode SAG

Parameter: ukuran langkah $γ > 0$
inisialisasi: $x_0 ...$ ， $v_i = 0 dalam mathbb{R}^d$ untuk $Saya = 1, \dots, N$
Kanan $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu = 1, \dots, T - 1$ melaksanakan:
a.seleksi acak $i_k dalam {1, ldots, n}$
b.Hitung $bar{g}_k = bar{g}_{k-1} - pecahan{1}{n} v_{i_k}^{k-1}$
c.Pembaruan $v_{i_k}^k = fik f_{i_k}(x_k)$
d.Perbarui perkiraan gradien $bar{g}_k = bar{g}_k + frac{1}{n} v_{i_k}^k$
e.Pembaruan $x_{k+1} = x_k - gamma batang{g}_k$
Keluaran: $x_T (Bahasa Indonesia)$

2.2.Metode SAGA

Estimasi gradien dasar tak bias yang dikurangi $f_{i_k}(x_k)$ Pendekatan varians dilakukan melalui penggunaan apa yang disebut kovariat, atau variabel kontrol.untuk $Saya = 1, \dots, N$ ,mempersiapkan $v_i dalam mathbb{R}^d$ adalah vektor.Dengan menggunakan vektor-vektor ini, kita dapat mengonversi gradien penuh $\nabla F (X)$ Ditulis ulang sebagai:
$jumlah_{i=1}^{n}(nabla f_i(x) - v_i + v_i) = fraksi{1}{n} jumlah_{i=1}^{n} nabla f_i(x) - v_i + fraksi{1}{n} jumlah_{j=1}^{n} v_j$
$jumlah_{i=1}^{n} nabla f_i(x, v) quad (21)$
yang mendefinisikan $f_i(x, v) := nabla f_i(x) - v_i + frac{1}{n} jumlah_{j=1}^{n} v_j$ .Sekarang, kita dapat mengambil sampel secara acak a $f_i(x, v)$ untuk membangun gradien lengkap $\nabla F (X)$ Perkiraan yang tidak bias $Saya \in {1, \dots, N}$ , Anda dapat menerapkan metode SGD dan menggunakan estimasi gradien:
$g_k = nabla f_{i_k}(x_k, v) = nabla f_{i_k}(x_k) - v_{i_k} + frac{1}{n} jumlah_{j=1}^{n} v_j kuadran (22)$

untuk observasi $kita_{Saya}$ Perbedaan pasangan seleksi $g_k$ pengaruhnya, kita bisa $g_k = tentukan f_{i_k}(x_k, v)$ Gantikan dan gunakan $E_i sim pecahan{1}{n}[v_i] = pecahan{1}{n} jumlah_{j=1}^{n} v_j$ Untuk menghitung ekspektasi, kita peroleh:
$f_i(x_k) - v_i + E_i sim frac{1}{n}[v_i - nabla f_i(x_k)]|^2 kanan] leq E kiri[ |nabla f_i(x_k) - v_i|^2 kanan] quad (23)$
Lemma 2 digunakan di sini, di mana $f_i(x_k) - v_i$ .Batasan ini (23) menunjukkan bahwa jika $kita_{Saya}$ bersama $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu$ Peningkatannya sudah dekat $f_i(x_k)$ , kita dapat memperoleh atribut VR (12).Itu sebabnya kami menelepon $kita_{Saya}$ adalah kovariat, dan kita dapat memilihnya untuk mengurangi varians.

Misalnya pendekatan ini juga diterapkan dengan metode SGD² (13), dimana $v_i = tentukan f_i(x^*)$ .Namun, hal ini tidak umum digunakan dalam praktik karena biasanya kita tidak mengetahuinya $f_i(x^*)$ .Pilihan yang lebih praktis adalah $kita_{Saya}$ seperti yang kita tahu $bar{x}_i dalam matematika R^d$ gradien terdekat $f_i(bar{x}_i)$ . SAGA untuk setiap fungsi $F_{Saya}$ menggunakan titik referensi $bar{x}_i dalam matematika R^d$ , dan gunakan kovariat $v_i = hitung f_i(bar{x}_i)$ , yang masing-masing $batang{x}_i$ akan menjadi penilaian terakhir kami $F_{Saya}$ titik. Dengan menggunakan kovariat ini, kita dapat membuat estimasi gradien, mengikuti (22), memberikan:
$g_k = nabla f_{i_k}(x_k) - nabla f_{i_k}(bar{x}_{i_k}) + frac{1}{n} jumlah_{j=1}^{n} nabla f_j(bar{x}_j) quad (24)$

Untuk mengimplementasikan SAGA kita dapat menyimpan gradien $f_i(bar{x}_i)$ alih-alih $N$ titik acuan $batang{x}_i$ .Artinya, misalkan $v_j = hitung f_j(bar{x}_j)$ untuk $J \in {1, \dots, N}$ , di setiap iterasi, kami memperbarui gradien stokastik seperti SAG $v_j$ 。

Algoritma 2 SAGA

Parameter: ukuran langkah $γ > 0$
inisialisasi: $x_0 ...$ ， $v_i = 0 dalam mathbb{R}^d$ untuk $Saya = 1, \dots, N$
mengadakan $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu = 1, \dots, T - 1$ iterasi:
a.seleksi acak $i_k dalam {1, ldots, n}$
b. Simpan nilai lama $v_{teks{lama}} = v_{i_k}$
c.Pembaruan $v_{i_k} = fik f_{i_k}(x_k)$
d.Pembaruan $x_{k+1} = x_k - gamma (v_{i_k} - v_{teks{lama}} + bar{g}_k)$
e.Perbarui perkiraan gradien $bar{g}_k = bar{g}_{k-1} + frac{1}{n} (v_{i_k} - v_{teks{lama}})$
Keluaran: $x_T (Bahasa Indonesia)$

Metode SAGA memiliki kompleksitas iterasi yang sama dengan SAG $O((kappa_{teks{maks}} + n) log(1/epsilon))$ , menggunakan ukuran langkah $O(1/L_{teks{maks}})$ , tapi buktinya jauh lebih sederhana.Namun, seperti SAG, metode SAGA memerlukan penyimpanan $N$ vektor bantu $v_i dalam mathbb{R}^d$ untuk $Saya = 1, \dots, N$ , yang berarti kebutuhan $HAI (N D)$ ruang penyimpanan.Kapan $D$ Dan $N$ Jika keduanya berukuran besar, hal ini mungkin tidak dapat dilakukan. Di bagian selanjutnya, kami merinci cara mengurangi kebutuhan memori ini untuk model umum seperti model linier terregulasi.

bila mampu $N$ Ketika dua vektor tambahan disimpan dalam memori, SAG dan SAGA cenderung berperilaku serupa. Jika kebutuhan memori ini terlalu tinggi, metode SVRG, yang akan kita ulas di bagian selanjutnya, merupakan alternatif yang baik. Metode SVRG mencapai tingkat konvergensi yang sama dan seringkali hampir sama cepatnya dalam praktiknya, namun hanya membutuhkan $HAI (D)$ memori, untuk masalah umum.

2.3.Metode SVRG

Sebelum munculnya metode SAGA, beberapa karya awal memperkenalkan kovariat untuk pertama kalinya untuk menyelesaikan masalah memori tinggi yang dibutuhkan oleh metode SAG.Studi-studi ini didasarkan pada titik acuan yang tetap $mathbb{R}^d$ kovariat, kita telah menghitung gradien penuh pada titik itu $\nabla F (\overset{X}{ˉ})$ .dengan menyimpan titik referensi $\overset{X}{ˉ}$ dan gradien lengkap yang sesuai $\nabla F (\overset{X}{ˉ})$ , kita dapat melakukan ini tanpa menyimpan masing-masing $f_j(bar{x})$ Dalam hal ini, gunakan $batang{x}_j = batang{x}$ untuk semua $J$ untuk mengimplementasikan pembaruan(24).Secara khusus, alih-alih menyimpan vektor-vektor ini, kami memanfaatkan titik referensi yang disimpan di setiap iterasi $\overset{X}{ˉ}$ menghitung $f_{i_k}(bar{x})$ . Metode ini awalnya diusulkan oleh penulis yang berbeda dengan nama yang berbeda, namun kemudian disatukan sebagai metode SVRG, mengikuti nomenklatur [28] dan [84].

Kami memformalkan metode SVRG dalam Algoritma 3.

Dengan menggunakan (23), kita dapat memperoleh estimasi gradien $g_k$ Variansnya dibatasi:
$g_k - nabla f(x_k) |^2 kanan] leq Ekiri[ | nabla f_i(x_k) - nabla f_i(bar{x}) |^2 kanan] leq L_{teks{maks}}^2 | x_k - bar{x} |^2$
dimana pertidaksamaan kedua menggunakan masing-masing $F_{Saya}$ dari $L_i$ -Kelancaran.

Perlu dicatat bahwa titik referensi $\overset{X}{ˉ}$ Semakin dekat ke titik saat ini $x_k_k$ , semakin kecil varians estimasi gradien.

Agar metode SVRG efektif, kita perlu memperbarui titik referensi secara berkala $\overset{X}{ˉ}$ (sehingga memerlukan perhitungan gradien penuh) dibandingkan dengan manfaat varians yang dikurangi.Untuk alasan ini, kita masing-masing $T$ Perbarui titik referensi setiap iterasi sekali agar mendekatinya $x_k_k$ (Lihat baris 11 Algoritma II-C).Artinya, metode SVRG berisi dua loop: loop luar $S$ , tempat gradien referensi dihitung $f(bar{x}_{s-1})$ (Baris 4), dan loop dalam di mana titik referensi ditetapkan dan iterasi dalam diperbarui berdasarkan langkah gradien stokastik (22) $x_k_k$ (Baris 10).

Berbeda dengan SAG dan SAGA, SVRG hanya membutuhkan $HAI (D)$ memori. Kekurangan SVRG meliputi: 1) Kami memiliki parameter tambahan $T$ , yaitu panjang loop dalam, perlu disesuaikan; 2) Dua gradien perlu dihitung untuk setiap iterasi, dan gradien lengkap perlu dihitung setiap kali titik referensi diubah.

Johnson dan Zhang [28] menunjukkan bahwa SVRG memiliki kompleksitas berulang $O((kappa_{teks{maks}} + n) log(1/epsilon))$ , mirip dengan SAG dan SAGA.Ini adalah jumlah perulangan dalam hipotesis $T$ dari koleksi ${1, \dots, M}$ Diperoleh dengan syarat pengambilan sampel seragam, dimana $L_{teks{maks}}$ ， $μ$ , ukuran langkah $γ$ Dan $T$ Ketergantungan tertentu harus dipenuhi di antara mereka.Dalam praktiknya, dengan menggunakan $O(1/L_{teks{maks}})$ dan panjang lingkaran dalam $T = N$ , SVRG cenderung berkinerja baik, persis seperti pengaturan yang kami gunakan pada Gambar 1.

Sekarang, terdapat banyak variasi dari metode SVRG yang asli.Misalnya, beberapa variasi digunakan $T$ distribusi alternatif [32], beberapa varian mengizinkan bentuk tersebut $O(1/L_{teks{maks}})$ Ukuran langkah [27], [33], [35].Ada juga beberapa variasi penggunaan $\nabla F (\overset{X}{ˉ})$ perkiraan mini-batch untuk mengurangi biaya evaluasi gradien penuh ini, dan meningkatkan ukuran mini-batch untuk mempertahankan properti VR.Ada juga beberapa varian di mana pembaruan diulangi di loop dalam menurut [54] $g_k$ ：
[ g_k = tentukan f_{i_k}(x_k) - tentukan f_{i_k}(x_{k-1}) + g_{k-1} kuadrat (25) ]
Ini memberikan perkiraan yang lebih lokal. Penggunaan varian pembaruan berkelanjutan (25) ini menunjukkan keuntungan unik dalam meminimalkan fungsi non-cembung, seperti yang kita bahas secara singkat di Bagian IV.Terakhir, perhatikan bahwa SVRG dapat memanfaatkannya $f(bar{x}_s)$ nilai untuk membantu memutuskan kapan harus menghentikan algoritma.

Algoritma 3 Metode SVRG

Parameter: ukuran langkah $γ > 0$
Inisialisasi titik referensi $bar{x}_0 = x_0 dalam matematika R^d$
Melakukan sirkulasi luar $S = 1, 2, \dots$ ：
a.Menghitung dan menyimpannya $f(bar{x}_{s-1})$
B. Asumsikan $x_0 = batang{x}_{s-1}$
c.Pilih jumlah iterasi loop dalam $T$
d.Melakukan sirkulasi internal $aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaakuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu = 0, 1, \dots, T - 1$ ：
i.Pilihan acak $i_k dalam {1, ldots, n}$
ii.Perhitungan $g_k = tentukan f_{i_k}(x_k) - tentukan f_{i_k}(bar{x}_{s-1}) + tentukan f(bar{x}_{s-1})$
aku aku aku. Pembaruan $x_{k+1} = x_k - gamma g_k$
e.Perbarui titik referensi $batang{x}_s = x_t$

2.4.SDCA dan variannya

Salah satu kelemahan metode SAG dan SVRG adalah ukuran langkahnya bergantung pada nilai yang tidak diketahui yang mungkin tidak diketahui dalam beberapa masalah. $L_{teks{maks}}$ . Sebelum SVRG, metode SDCA [70], sebagai salah satu metode VR paling awal, memperluas penelitian tentang metode penurunan koordinat ke masalah jumlah hingga. Ide di balik SDCA dan variannya adalah bahwa koordinat gradien memberikan estimasi gradien alami yang mengurangi varians.Secara khusus, misalkan $J \in {1, \dots, D}$ , dan tentukan $nabla_j f(x) := kiri( frac{sebagian f(x)}{sebagian x_j} kanan) e_j$ adalah ke-th dari (f(x)) $J$ turunan dalam arah koordinat, dimana $e_j dalam mathbb{R}^d$ Ini yang pertama $J$ vektor satuan.Sifat utama dari turunan koordinat adalah $nabla_j f(x^*) = 0$ , karena kita tahu $f(x^*) = 0$ .Turunannya dengan setiap titik data $f_j$ berbeda, yang terakhir adalah $x∗x^*$ mungkin tidak nol. Oleh karena itu kami memiliki:
$nabla_j f(x) |^2 rightarrow 0 quad text{masuk} quad x rightarrow x^* quad (26)$
Artinya turunan koordinat memenuhi sifat reduksi varians (12).Selain itu, kita bisa menggunakan $\nabla_{J} F (X)$ untuk membangun $\nabla F (X)$ perkiraan yang tidak bias.Misalnya saja $J$ berasal dari koleksi ${1, \dots, D}$ Indeks yang dipilih secara acak dan seragam dalam .Oleh karena itu, untuk siapa pun $Saya \in {1, \dots, D}$ ,Kita punya $P [J = Saya] = \frac{1}{D}$ . Karena itu, $nabla_j f(x)$ Ya $\nabla F (X)$ Estimasi yang tidak bias karena:
$nabla_j f(x) kanan] = d jumlah_{i=1}^{d} P[j = i] frac{sebagian f(x)}{sebagian x_i} e_i = jumlah_{i=1}^{d} frac{sebagian f(x)}{sebagian x_i} e_i = nabla f(x)$

Karena itu, $\nabla_{J} F (X)$ Memiliki semua properti ideal yang kami harapkan untuk VR memperkirakan gradien penuh, tanpa perlu menggunakan kovariat. Salah satu kelemahan penggunaan gradien koordinat ini adalah biaya komputasinya mahal untuk masalah penjumlahan kita (2).Hal ini karena perhitungannya $\nabla_{J} F (X)$ Perlu melintasi seluruh kumpulan data karena $nabla_j f(x) = pecahan{1}{n} jumlah_{i=1}^{n} nabla_j f_i(x)$ . Oleh karena itu, penggunaan turunan koordinat tampaknya tidak sesuai dengan struktur soal penjumlahan kita. Namun, kita sering kali dapat menulis ulang permasalahan awal (2) menjadi apa yang disebut formulasi ganda, dimana turunan koordinat dapat mengeksploitasi struktur yang melekat.

Misalnya, rumus ganda model linier terregulasi L2 (15) adalah:
$v^* dalam argmax_{v dalam mathbb{R}^n} frac{1}{n} jumlah_{i=1}^{n} -ell_i^*(-v_i) - frac{lambda}{2} kiri| frac{1}{lambda} jumlah_{i=1}^{n} v_i a_i kanan|^2 quad (27)$
di dalam $ell_i^*(v)$ Ya $ell_i$ konjugat cembung.Kita bisa menggunakan pemetaan $jumlah_{i=1}^{n} v_i a_i$ untuk mengembalikan masalah awal (15) $X$ variabel.akan memecahkan $v∗v^*$ Substitusikan ke sisi kanan pemetaan di atas, kita dapat memperoleh solusi (15) $x∗x^*$ 。

Perhatikan bahwa masalah ganda ini ada $N$ variabel nyata $v_i dalam mathbb{R}$ , sesuai dengan satu untuk setiap sampel pelatihan.Selanjutnya, masing-masing fungsi kerugian ganda $ell_i^*$ hanya $kita_{Saya}$ Fungsinya. Artinya, suku pertama dalam fungsi kerugian dapat dipisahkan secara koordinatif. Keterpisahan koordinat ini, ditambah dengan bentuk suku kedua yang sederhana, memungkinkan kita menerapkan metode pendakian koordinat secara efisien.Memang benar, Shalev-Shwartz dan Zhang menunjukkan bahwa pendakian koordinat pada masalah ini memiliki kompleksitas berulang yang serupa dengan SAG, SAGA, dan SVRG $O((kappa_{teks{maks}} + n) log(1/epsilon))$ 。

Biaya iterasi dan struktur algoritme juga sangat mirip: penjumlahan dengan pelacakan $jumlah_{i=1}^{n} v_i a_i$ Untuk menangani suku kedua pada (27), setiap iterasi pendakian koordinat ganda hanya perlu mempertimbangkan satu sampel pelatihan, dan biaya setiap iterasi sama dengan $N$ Tidak ada hubungannya.Selain itu, kita dapat menggunakan pencarian garis 1D untuk menghitung ukuran langkah secara efisien untuk memaksimalkan as $kita_{Saya}$ Tujuan ganda dari fungsi tersebut.Artinya bahkan tanpa $L_{teks{maks}}$ Atau pengetahuan tentang kuantitas yang relevan, juga memungkinkan untuk mencapai waktu berjalan terburuk yang cepat untuk metode VR.

3. Masalah praktis pengurangan varians

Untuk menerapkan metode pengurangan varians dasar (VR) dan mencapai kinerja yang wajar, beberapa masalah implementasi harus diatasi. Pada bagian ini, kita membahas beberapa masalah yang tidak dibahas di atas.

3.1.SAG/SAGA/SVRG mengatur ukuran langkah

Di bidang algoritma optimasi, khususnya dalam metode pengurangan variasi seperti stochastic average gradien (SAG), algoritma stochastic average gradien (SAGA) dan stokastik gradien (SVRG), pengaturan ukuran langkah merupakan masalah utama.Meskipun untuk metode pendakian koordinat ganda stokastik (SDCA), kita dapat menggunakan tujuan ganda untuk menentukan ukuran langkah, dasar teori untuk metode variabel asli SAG, SAGA dan SVRG adalah bahwa ukuran langkah harus sama dengan $(frac{1}{L_{teks{maks}}} kanan)$ membentuk.Namun dalam penerapan praktisnya, kita sering tidak mengetahuinya $L_{teks{maks}}$ nilai yang tepat, dan menggunakan ukuran langkah lain dapat memberikan kinerja yang lebih baik.

Strategi klasik untuk mengatur ukuran langkah dalam metode penurunan gradien penuh (full-GD) adalah pencarian garis Armijo.titik saat ini yang diberikan $x_k_k$ dan arah pencarian $g_k$ , Pencarian garis Armijo masuk $gamma_k$ dilakukan pada garis, yang didefinisikan sebagai $gamma_k dalam {gamma : x_k + gamma g_k}$ , dan fungsinya perlu dikurangi secukupnya, yaitu:
$f(x_k + gamma_k g_k) < f(x_k) - c gamma_k |nabla f(x_k)|^2$
Namun, pendekatan ini memerlukan beberapa langkah kandidat $gamma_k$ Perhitungan $f(x_k + γ_kg_k) f(x_k + gamma_k g_k)$ , yang mengevaluasi $F (X)$ Biayanya mahal jika harus melintasi seluruh kumpulan data.

Untuk mengatasi masalah ini, metode variasi acak dapat digunakan untuk mencari yang memenuhi kondisi berikut $gamma_k$ ：
$f_{ik}(x_k + gamma_k g_k) < f_{ik}(x_k) - c gamma_k |nabla f_{ik}(x_k)|^2$
Pendekatan ini biasanya berhasil dengan baik dalam praktiknya, terutama ketika $f_{ik}(x_k)|$ tidak mendekati nol, meskipun saat ini tidak ada teori yang mendukung pendekatan ini.

Selain itu, Mairal mengusulkan "teknik Bottou" untuk mengatur ukuran langkah dalam praktiknya. Metode ini melakukan pencarian biner dengan mengambil sebagian kecil dari kumpulan data (misalnya 5%) untuk mencoba menemukan ukuran langkah optimal dalam sekali melewati sampel ini. Mirip dengan pencarian garis Armijo, metode ini sering kali bekerja dengan baik dalam praktiknya, namun sekali lagi tidak memiliki landasan teoritis.

Perlu diketahui bahwa konten di atas merupakan pernyataan ulang dari teks aslinya, menggunakan format Markdown untuk merepresentasikan rumus dan variabel matematika.

Namun metode SDCA juga mempunyai beberapa kelemahan.Pertama, memerlukan komputasi konjugat cembung $ell_i^*$ daripada gradien sederhana. Kami tidak memiliki persamaan diferensial otomatis untuk konjugat cembung, sehingga hal ini dapat meningkatkan upaya implementasi. Penelitian terbaru telah mengusulkan metode SDCA "bebas ganda" yang tidak memerlukan konjugasi dan malah menggunakan gradien secara langsung. Namun, dalam metode ini tidak mungkin lagi melacak target ganda untuk menetapkan ukuran langkah.Kedua, meskipun SDCA hanya membutuhkan $HAI (N + D)$ memori untuk menyelesaikan masalah (15), tetapi untuk kategori masalah ini, SAG/SAGA hanya membutuhkan $HAI (N + D)$ memori (lihat Bagian 3).Varian SDCA yang cocok untuk masalah yang lebih umum dengan SAG/SAGA $HAI (N D)$ memori karena $kita_{Saya}$ menjadi memiliki $D$ vektor elemen. Kelemahan terakhir SDCA adalah bahwa SDCA secara implisit mengasumsikan konstanta konveksitas yang kuat $μ$ setara $λ$ .untuk $μ$ lebih dari itu $λ$ masalahnya, metode VR asli biasanya mengungguli SDCA secara signifikan.

3.2.Penentuan kondisi penghentian

Di bidang optimasi algoritma, kita sering mengandalkan hasil teoritis dari kompleksitas iteratif untuk memprediksi jumlah iterasi terburuk yang diperlukan suatu algoritma untuk mencapai akurasi tertentu. Namun, batasan teoretis ini sering kali bergantung pada beberapa konstanta yang tidak dapat kita prediksi, dan dalam penerapan praktis, algoritme sering kali dapat mencapai akurasi yang diharapkan dalam iterasi yang lebih sedikit. Oleh karena itu, kita perlu menyiapkan beberapa kriteria pengujian untuk menentukan kapan algoritma harus dihentikan.

Dalam metode penurunan gradien penuh (full-GD) tradisional, kita biasanya menggunakan norma gradien $f(x_k) |$ Atau kuantitas lain yang terkait dengan ini untuk memutuskan kapan harus menghentikan iterasi.Untuk metode SVRG kita bisa mengadopsi kriteria yang sama tetapi menggunakan $f(bar{x}_s) |$ sebagai dasar penilaian.Untuk metode SAG/SAGA, meskipun kami tidak menghitung gradien lengkap secara eksplisit, besaran $g_{bar{k}} $ akan diperkirakan secara bertahap $f(x_k)$ , oleh karena itu, gunakan $g_{bar{k}} |$ sebagai kondisi berhenti adalah heuristik yang masuk akal.

Dalam metode SDCA, dengan beberapa pekerjaan pencatatan tambahan, kita dapat melacak gradien tujuan ganda tanpa menambahkan biaya asimtotik tambahan.Selain itu, pendekatan yang lebih sistematis adalah dengan melacak kesenjangan ganda, meskipun hal ini akan meningkatkan kesenjangan tersebut $HAI (N)$ biaya, tetapi mampu memberikan kondisi terminasi dengan bukti kesenjangan ganda. Selain itu, berdasarkan kondisi optimalitas target yang sangat cembung, metode MISO mengadopsi metode berprinsip berdasarkan batas bawah kuadrat [41].

Berikut rumus matematika dan variabel yang dinyatakan dalam format Markdown:

Norma gradien: $f(x_k) |$
Norma gradien dalam metode SVRG: $f(bar{x}_s) |$
Besarnya gradien aproksimasi pada metode SAG/SAGA: $g_{bar{k}} $
Peningkatan biaya per iterasi: $HAI (N)$
metode MISO
batas bawah kuadrat

Perlu diketahui bahwa konten di atas merupakan pernyataan ulang dari teks aslinya, menggunakan format Markdown untuk merepresentasikan rumus dan variabel matematika.

3.3. Mengurangi kebutuhan memori

Meskipun algoritma Stochastic Variational Reduction of Gradient (SVRG) menghilangkan kebutuhan memori dari metode pengurangan variasi sebelumnya, dalam aplikasi praktis, algoritma SAG (Stochastic Average Gradient Descent) dan SAGA (Stochastic Average Gradient Descent with Gradient Accumulation) digunakan dalam banyak masalah . cenderung membutuhkan lebih sedikit iterasi dibandingkan algoritma SVRG.Hal ini memicu pemikiran: Apakah ada beberapa masalah yang memungkinkan SAG/SAGA melakukan hal tersebut $HAI (N D)$ Persyaratan memori diterapkan di bawah ini. Bagian ini mengeksplorasi kelas model linier yang kebutuhan memorinya dapat dikurangi secara signifikan.

Pertimbangkan model linier di mana setiap fungsi $F_{Saya} (X)$ Hal ini dapat dinyatakan sebagai $xi_i(mathbf{a}_i^atas x)$ .Kanan $X$ Derivatif memberikan bentuk gradien:
$f_i(x) = xi'(mathbf{a}_i^atas x) mathbf{a}_i$
Di Sini, $ξ^{'}$ cepat $ξ$ turunan dari.Dengan asumsi kita memiliki akses langsung ke vektor eigen $A_{Saya}$ , maka untuk mengimplementasikan metode SAG/SAGA kita hanya perlu menyimpan skalarnya saja $xi(mathbf{a}_i^atas x)$ .Dengan cara ini, kebutuhan memori bervariasi $HAI (N D)$ dikurangi menjadi $HAI (N)$ . Algoritme SVRG juga dapat memanfaatkan struktur gradien ini: dengan menyimpannya $N$ skalar, kita dapat mengurangi jumlah evaluasi gradien yang diperlukan per iterasi "dalam" SVRG menjadi 1 untuk kelas masalah ini.

Ada jenis masalah lain, seperti model grafis probabilistik, yang juga menawarkan kemungkinan mengurangi kebutuhan memori [66]. Melalui struktur data tertentu dan optimasi algoritma, sumber daya memori yang dibutuhkan oleh algoritma pada saat runtime dapat dikurangi lebih lanjut.

Berikut rumus matematika dan variabel yang dinyatakan dalam format Markdown:

Fungsi model linier: $f_i(x) = xi_i(mathbf{a}_i^atas x)$
Ekspresi gradien: $f_i(x) = xi'(mathbf{a}_i^atas x) mathbf{a}_i$
Vektor fitur: $A_{Saya}$
Persyaratan memori berkisar dari $HAI (N D)$ Kurangi menjadi $HAI (N)$ 。

3.4. Pemrosesan gradien jarang

Dalam beberapa soal, gradien $f_i(x)$ Mungkin berisi sejumlah besar nilai nol, seperti model linier dengan fitur renggang.Dalam hal ini, algoritme penurunan gradien stokastik (SGD) tradisional dapat diimplementasikan secara efisien, dengan kompleksitas komputasi linier dalam jumlah elemen bukan nol dalam gradien, yang biasanya jauh lebih kecil daripada dimensi masalah. $D$ . Namun, dalam metode reduksi variasional standar (VR), keunggulan ini tidak dimanfaatkan. Untungnya, ada dua cara yang diketahui untuk memperbaikinya.

Perbaikan pertama diusulkan oleh Schmidt et al., yang memanfaatkan kesederhanaan proses pembaruan dan menerapkan varian komputasi "on-the-fly" sehingga biaya setiap iterasi sebanding dengan jumlah bukan nol. elemen.Mengambil SAG sebagai contoh (tetapi pendekatan ini berfungsi untuk semua varian), hal ini dilakukan dengan tidak menyimpan vektor lengkap setelah setiap iterasi $v_{ik}$ , tetapi hanya menghitung elemen yang berkorespondensi dengan elemen bukan nol $v_{ik_j}$ , dengan memperbarui setiap variabel sejak terakhir kali elemen tersebut bernilai bukan nol $v_{ik_j}$ 。

Metode perbaikan kedua diusulkan oleh Leblond et al $x_{k+1} = x_k - gamma(x_k) - x_k (bar{x}_{ik}) + bar{g}_k)$ Keacakan tambahan diperkenalkan. Di Sini, $f_{ik}(x_k)$ Dan $f_{ik}(bar{x}_{ik})$ jarang, dan $batang{g}_k$ padat.Dalam metode ini, istilah padat $(bar{g}_k)_j$ Setiap komponen digantikan oleh $w_j (bar{g}_k)_j$ ,di dalam $mathbb{R}^d$ adalah vektor renggang acak yang berisi kumpulan dukungan $f_{ik}(x_k)$ , dan diharapkan berupa vektor konstan dengan semua elemen sama dengan 1. Dengan cara ini, proses pembaruan tetap tidak bias (meskipun sekarang jarang), dan peningkatan varians tidak mempengaruhi tingkat konvergensi algoritma. Rincian lebih lanjut disediakan oleh Leblond dkk.

Berikut rumus matematika dan variabel yang dinyatakan dalam format Markdown:

gradien: $f_i(x)$
Pembaruan SGD: $x_{k+1} = x_k - gamma(x_k) - x_k (bar{x}_{ik}) + bar{g}_k)$
Gradien jarang: $f_{ik}(x_k)$ Dan $f_{ik}(bar{x}_{ik})$
Gradien padat: $batang{g}_k$
Vektor jarang acak: $aku$
Mengharapkan vektor konstan: vektor dengan semua elemen sama dengan 1.

Berbagi teknologi

[Pembelajaran Mendalam] Dasar-dasar Model Grafis (7): Metode Reduksi Varians dalam Optimasi Pembelajaran Mesin (1)

1. Perkenalan

1.1. Metode penurunan gradien gradien dan stokastik

1.2. Masalah varians

1.3.Metode pengurangan varians klasik

1.4. Metode pengurangan varians modern

1.5. Contoh pertama metode pengurangan varians: SGD²

1.6.Konvergensi cepat metode pengurangan varians

Asumsi 1 (kontinuitas Lipschitz)

Asumsi 2 (cembung kuat)

2. Metode reduksi varians dasar

2.1. Metode gradien rata-rata stokastik (SAG)

2.2.Metode SAGA

2.3.Metode SVRG

2.4.SDCA dan variannya

3. Masalah praktis pengurangan varians

3.1.SAG/SAGA/SVRG mengatur ukuran langkah

3.2.Penentuan kondisi penghentian

3.3. Mengurangi kebutuhan memori

3.4. Pemrosesan gradien jarang

Profil pribadi

informasi kontak saya