기술나눔

딥러닝의 정규화 기술 - 잡음 견고성

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

머리말

딥러닝의 활발한 발전으로 인해 모델의 성능과 일반화 능력이 연구자들의 초점이 되었습니다. 그러나 실제 응용 분야의 데이터에는 다양한 잡음이 수반되는 경우가 많습니다. 이러한 잡음은 데이터 수집 과정의 하드웨어 제한으로 인해 발생할 뿐만 아니라 환경 간섭 및 전송 오류와 같은 요인으로 인해 발생할 수도 있습니다. 노이즈의 존재는 특히 음성 인식, 이미지 분류 등의 작업에서 딥러닝 모델의 훈련 효과와 예측 정확도에 심각한 영향을 미칩니다. 따라서 딥러닝 모델의 잡음 견고성을 향상시키는 것, 즉 잡음이 많은 환경에서 모델의 안정적인 성능과 인식 능력을 향상시키는 것이 현재 연구의 중요한 방향이 되었습니다. 보다 효과적인 데이터 전처리 알고리즘을 설계하고, 모델 구조를 최적화하고, 잡음 강화 교육 및 기타 기술적 수단을 도입함으로써 잡음에 대한 딥 러닝 모델의 저항력을 크게 향상시켜 보다 복잡한 시나리오에서의 적용을 촉진할 수 있습니다.

소음 견고성

  • 존재하다딥러닝 데이터셋 강화를 위한 정규화 기술 데이터 세트 확대 전략으로 입력에 노이즈를 적용하는 데 영감을 주었습니다. 일부 모델의 경우 모델 입력에 최소 분산으로 노이즈를 추가하는 것은 가중치에 표준 페널티를 추가하는 것과 동일합니다(Bishop, 1995a,b). 일반적으로 노이즈 주입은 단순히 매개변수를 축소하는 것보다 훨씬 강력하며, 특히 숨겨진 유닛에 노이즈가 추가되는 경우 더욱 그렇습니다.숨겨진 유닛에 노이즈를 추가하는 것은 자체적으로 논의할 가치가 있는 중요한 주제입니다.
  • 또 다른노이즈는 가중치에 추가하여 정규화된 모델에 사용됩니다. . 이 기술은 주로 순환 신경망에서 사용됩니다(Jim et al., 1996; Graves, 2011). 이는 가중치에 대한 베이지안 추론을 확률적으로 구현한 것으로 해석할 수 있습니다. 학습 프로세스에 베이지안 접근 방식을 사용하면 가중치가 불확실한 것으로 처리되며 이 불확실성은 확률 분포로 표시될 수 있습니다. 가중치에 노이즈를 추가하는 것은 이러한 불확실성을 반영하는 실용적인 확률론적 방법입니다.
  • 특정 가정 하에서 가중치에 적용되는 노이즈는 보다 전통적인 형태의 정규화와 동일하게 해석되어 학습할 함수의 안정성을 장려할 수 있습니다.
  • 회귀 사례, 즉 일련의 특성을 학습하는 사례를 연구합니다. x 굵은 기호{x}엑스스칼라에 매핑된 함수 y ^ ( x ) hat{y}(굵은 기호{x})와이^(엑스), 최소 제곱 비용 함수를 사용하여 모델 예측 값을 측정합니다. y ^ 모자{y}와이^진정한 가치를 지닌와이오류
    J = E p ( x , y ) [ ( y ^ ( x ) − y ) 2 ] —공식 1 J=mathbb{E}_{p(x,y)}[(hat{y}(boldsymbol{x} )-y)^2]quadtextbf{각주 크기{---공식 1}}제이=이자형(엑스,와이)[(와이^(엑스)와이)2]공식1
  • 훈련 세트에는 다음이 포함됩니다. mm주석 예 { ( x ( i ) , y ( i ) ) , … , ( x ( m ) , y ( m ) ) } {(굵은 기호 {x}^{(i)}, y^{(i)}, 점, (굵은 기호 {x}^{(m)}, y^{(m)})}{(엑스(),와이()),,(엑스(),와이())}
  • 이제 각 입력 표현에 네트워크 가중치의 무작위 섭동이 추가된다고 가정합니다. ϵ w ∼ N ( ϵ ; 0 , η I ) epsilon_wsimmathcal{N}(boldsymbol{epsilon};0,etaboldsymbol{I})ϵN(ϵ;0,η)우리에게 표준이 있다고 상상해보십시오. 나는 MLP 텍스트{MLP}영어: .우리는 섭동 모델을 다음과 같이 나타냅니다. y ^ ϵ W ( x )는 y_epsilon_{굵은 기호 W}}}(굵은 기호 x)입니다.와이^ϵ(엑스)
  • 우리는 노이즈 주입에도 불구하고 네트워크 출력 오류의 제곱을 줄이는 데 관심이 있습니다. 따라서 목적 함수는 다음과 같습니다. { J ^ W = E p ( x , y , ϵ W ) [ ( y ^ ϵ W ( x ) − y ) 2 ] —공식 2 = E p ( x , y , ϵ W ) [ y ^ ϵ W 2 ( x ) − 2 yy ^ ϵ W ( x ) + y 2 ] - 공식 3 {제이^=이자형(엑스,와이,ϵ)[(와이^ϵ(엑스)와이)2]공식2=이자형(엑스,와이,ϵ)[와이^ϵ2(엑스)2와이와이^ϵ(엑스)+와이2]공식3
  • 작은 에타η, 가중 노이즈를 최소화합니다(분산은 η I etaboldsymbol{I}η)의 제이제이제이추가 정규화 기간을 최소화하는 것과 같습니다. J : η E p ( x , y ) [ ∥ ∇ W y ^ ( x ) ∥ 2 ] J:etamathbb{E}_{p(x,y)}왼쪽[Vertnabla_{굵은 기호{W}}모{y}(굵은 기호{x})Vert^2오른쪽]제이:η이자형(엑스,와이)[와이^(엑스)2]
  • 이러한 형태의 정규화는 매개변수가 가중치의 작은 변동이 출력에 상대적으로 거의 영향을 미치지 않는 매개변수 공간 영역으로 들어가도록 장려합니다. 즉, 가중치의 작은 변화에 상대적으로 둔감한 영역으로 모델을 밀어넣고, 발견된 점은 단순한 최소점이 아니라 평평한 영역으로 둘러싸인 최소점입니다(Hochreiter and Schmidhuber, 1995).
  • 단순화된 선형 회귀(예: y ^ ( x ) = w ⊤ x + b y (굵은 기호 x) = 굵은 기호 w ^ 위쪽 굵은 기호 x + b와이^(엑스)=엑스+, 정규 용어는 다음과 같이 변질됩니다. η E p ( x ) [ ∥ x ∥ 2 ] etamathbb{E}_{p(x)}[정사각형 기호{x}정사각형^2]η이자형(엑스)[엑스2], 이는 함수의 매개변수와 관련이 없으므로 J ^ 뭐 {J}_w제이^모델 매개변수의 기울기에 기여합니다.

출력 대상에 노이즈 주입

  • 대부분의 데이터 세트와이 라벨에 일부 오류가 있습니다.언제와이최대화하는 것이 잘못되었습니다 log ⁡ p ( y ∣ x ) log p(ymidboldsymbol{x})봐라g(와이엑스)해로울 것입니다.
  • 이를 방지하는 한 가지 방법은 레이블의 노이즈를 명시적으로 모델링하는 것입니다.
    • 예를 들어, 어떤 작은 상수에 대해 다음과 같이 가정할 수 있습니다. ϵ 엡실론ϵ, 트레이닝 세트 라벨와이정답일 확률은 1 − ϵ 1-엡실론1ϵ, 다른 가능한 라벨은 모두 정확할 수 있습니다.
    • 이 가정은 명시적으로 잡음이 있는 샘플을 취하지 않고도 비용 함수와 분석적으로 쉽게 결합할 수 있습니다.
    • 예를 들어,라벨 스무딩(라벨 평활화) 기반 kk케이출력 소프트맥스 텍스트{소프트맥스}소프트맥스명확한 분류를 나타내는 기능 0 0 0그리고 1 1 1다음으로 교체 ϵ k − 1 디스플레이 스타일 분수 {엡실론}{k-1}케이1ϵ그리고 1 − ϵ 1-엡실론1ϵ, 모델을 정규화합니다.
  • 표준 교차 엔트로피 손실은 정확하지 않은 목표의 출력에 사용될 수 있습니다.사용 소프트맥스 텍스트{소프트맥스}소프트맥스함수와 명시적 목표에 대한 최대 가능성 학습은 결코 수렴되지 않을 수 있습니다. 소프트맥스 텍스트{소프트맥스}소프트맥스함수는 절대 예측할 수 없습니다 0 0 0확률 또는 1 1 1 그래서 계속해서 더 큰 가중치를 학습하여 예측을 더욱 극단적으로 만듭니다. 가중치 감소와 같은 다른 정규화 전략을 사용하면 이를 방지할 수 있습니다. 레이블 평활화는 모델이 올바른 분류를 방해하지 않고 명확한 확률을 추구하는 것을 방지하는 장점이 있습니다. 이 전략은 1980년대부터 사용되었으며 현대 신경망에서 계속해서 두드러지게 특징을 이루고 있습니다(Szegedy et al., 2015).

요약하다

  • 딥 러닝에서 노이즈 견고성을 향상시키는 것은 모델이 실제 환경에서 안정적으로 작동하도록 보장하는 데 중요합니다. 데이터 향상, 노이즈 주입 훈련, 모델 구조 최적화 등과 같은 일련의 혁신적인 기술 수단을 통해 모델의 노이즈 내성 및 인식 정확도를 효과적으로 향상시킬 수 있습니다. 이러한 노력은 딥 러닝 기술의 발전을 촉진할 뿐만 아니라 음성 인식, 이미지 인식, 자연어 처리 및 기타 분야의 실제 응용 프로그램에 보다 안정적이고 효율적인 솔루션을 제공합니다.
  • 앞으로는 연구가 심화되고 기술이 지속적으로 발전함에 따라 딥 러닝 모델의 노이즈 견고성이 더욱 향상되어 더 많은 분야에 혁명적인 변화를 가져올 것이라고 믿을 이유가 있습니다.

과거 콘텐츠의 복귀

딥러닝 데이터셋 강화를 위한 정규화 기술