回帰のケース、つまり一連の特徴のトレーニングを研究します。 x 太字記号{x}バツスカラーにマップされた関数 y ^ ( x ) ハット{y}(太字の記号{x})ええ^(バツ)、最小二乗コスト関数を使用してモデルの予測値を測定します。 y ^ 帽子{y}ええ^真の価値を持って ええええエラー: J = E p ( x , y ) [ ( y ^ ( x ) − y ) 2 ] —式 1 J=mathbb{E}_{p(x,y)}[(hat{y}(boldsymbol{x}) )-y)^2]quadtextbf{脚注サイズ{---式 1}}J=えp(バツ,ええ)[(ええ^(バツ)−ええ)2]—式1
トレーニングセットの内容は、 んんメートル注釈の例 { ( x ( i ) , y ( i ) ) , … , ( x ( m ) , y ( m ) ) } {(太字記号{x}^{(i)},y^{(i)}),ドット,(太字記号{x}^{(m)},y^{(m)})}{(バツ(私),ええ(私)),…,(バツ(メートル),ええ(メートル))}
ここで、各入力表現にネットワーク重みのランダムな摂動が追加されると仮定します。 ϵ w ∼ N ( ϵ ; 0 , η I ) epsilon_wsimmathcal{N}(太字の記号{epsilon};0,etaboldsymbol{I})ϵわ∼いいえ(ϵ;0,η私)標準があると想像してください lll層 MLP テキスト{MLP}マルチレベル 。摂動モデルを次のように表します。 y ^ ϵ W ( x ) ハット{y}_{エプシロン_{太字記号{W}}}(太字記号{x})ええ^ϵわ(バツ)。
私たちは、ノイズ注入にもかかわらず、ネットワーク出力誤差の二乗を削減することに興味があります。したがって、目的関数は次のようになります。 { J ^ W = E p ( x , y , ϵ W ) [ ( y ^ ϵ W ( x ) − y ) 2 ] —式 2 = E p ( x , y , ϵ W ) [ y ^ ϵ W 2 ( x ) − 2 yy ^ ϵ W ( x ) + y 2 ] —式 3
{J^わ=えp(バツ,ええ,ϵわ)[(ええ^ϵわ(バツ)−ええ)2]—式2=えp(バツ,ええ,ϵわ)[ええ^ϵわ2(バツ)−2ええええ^ϵわ(バツ)+ええ2]—式3
小さいもの用 η エータη、重み付けされたノイズを最小限に抑えます (分散は η I 太字の記号{I}η私)の ジェイジェイJ追加の正則化項を最小限に抑えるのと同じ J : η E p ( x , y ) [ ∇ W y ^ ( x ) ∇ 2 ] J:etamathbb{E}_{p(x,y)}left[Vertnabla_{boldsymbol{W}}hat{y}(boldsymbol{x})Vert^2right]J:ηえp(バツ,ええ)[∥∇わええ^(バツ)∥2]。
単純化された線形回帰では (例: y ^ ( x ) = w ⊤ x + b ハット{y}(太字の記号{x})=太字の記号{w}^top太字の記号{x}+bええ^(バツ)=わ⊤バツ+b、正規用語は次のように縮退します。 η E p ( x ) [ ∠ x ∠ 2 ] etamathbb{E}_{p(x)}[Vertboldsymbol{x}Vert^2]ηえp(バツ)[∥バツ∥2]、これは関数のパラメータとは何の関係もないので、 J ^ w 帽子{J}_wJ^わモデルパラメータの勾配に寄与します。
出力ターゲットにノイズを注入する
ほとんどのデータセット ええええラベルに一部誤りがあります。いつ ええええ最大化するのは間違っています log p ( y ∣ x ) log p(ymidboldsymbol{x})見よグp(ええ∣バツ)有害でしょう。