기술나눔

딥러닝에서 활성화 함수의 진화와 적용: 검토

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

요약

이 글에서는 초기 Sigmoid 및 Tanh 함수부터 널리 사용되는 ReLU 시리즈, 그리고 최근 제안된 Swish, Mish 및 GeLU와 같은 새로운 활성화 함수에 이르기까지 딥러닝에서의 활성화 함수 개발을 종합적으로 검토합니다. 일반적인 모델의 다양한 활성화 함수의 수학적 표현, 특성, 장점, 한계 및 적용에 대한 심층 분석을 수행합니다. 이 기사에서는 체계적인 비교 분석을 통해 활성화 함수의 설계 원리, 성능 평가 표준 및 가능한 향후 개발 방향을 논의하고 딥 러닝 모델의 최적화 및 설계를 위한 이론적 지침을 제공합니다.

1. 소개

활성화 함수는 신경망의 핵심 구성 요소로, 뉴런의 출력에 비선형 특성을 도입하여 신경망이 복잡한 비선형 매핑을 학습하고 표현할 수 있도록 합니다. 활성화 함수가 없으면 신경망의 깊이에 관계없이 본질적으로 선형 변환만 나타낼 수 있으므로 네트워크의 표현 능력이 크게 제한됩니다.
딥러닝의 급속한 발전으로 활성화 함수의 설계와 선택은 모델 성능에 영향을 미치는 중요한 요소가 되었습니다. 다양한 활성화 함수는 기울기 유동성, 계산 복잡성, 비선형성 정도 등과 같은 다양한 특성을 갖습니다. 이러한 특성은 훈련 효율성, 수렴 속도 및 신경망의 최종 성능에 직접적인 영향을 미칩니다.
이 글의 목적은 활성화 함수의 진화를 종합적으로 검토하고, 다양한 활성화 함수의 특성을 심층적으로 분석하며, 최신 딥러닝 모델에서의 적용을 탐색하는 것입니다. 우리는 다음과 같은 측면을 논의할 것입니다:

  1. 클래식 활성화 함수: Sigmoid 및 Tanh와 같이 초기에 일반적으로 사용되는 활성화 함수를 포함합니다.
  2. ReLU 및 그 변형: ReLU, Leaky ReLU, PReLU, ELU 등 포함
  3. 새로운 활성화 함수: Swish, Mish, GeLU 등 최근 제안된 함수.
  4. 특수 목적 활성화 기능: Softmax, Maxout 등
  5. 활성화 함수 비교 및 ​​선택: 다양한 시나리오에서 활성화 함수 선택 전략을 논의합니다.
  6. 향후 전망: 활성화 함수 연구의 가능한 개발 방향을 탐색합니다.

이러한 체계적인 검토 및 분석을 통해 연구자와 실무자가 딥러닝 모델 설계에서 활성화 함수를 더 잘 선택하고 사용하는 데 도움이 되는 포괄적인 참고 자료를 제공할 수 있기를 바랍니다.

2. 클래식 활성화 기능

2.1 시그모이드 함수

시그모이드 함수는 가장 먼저 널리 사용되는 활성화 함수 중 하나이며 수학적 표현은 다음과 같습니다.
σ(x) = 1 1 + e − x 시그마(x) = frac{1}{1 + e^{-x}}σ(엑스)=1+이자형엑스1
이미지.png

특징 및 이점:
  1. 출력 범위는 제한되어 있습니다.: 시그모이드 함수의 출력 범위는 (0, 1) 사이이므로 확률 문제를 다루는 데 특히 적합합니다.
  2. 부드럽고 미분 가능: 함수는 영역 전체에 걸쳐 매끄럽고 미분 가능하므로 경사하강법 알고리즘을 적용하는 데 유리합니다.
  3. 설명: 출력은 확률로 해석될 수 있으며, 특히 이진 분류 문제의 출력 레이어에 적합합니다.
단점과 한계:
  1. 사라지는 그래디언트 문제: 입력값이 크거나 작을 경우 그래디언트가 0에 가까워 딥 네트워크에서 그래디언트 소실 문제가 발생할 수 있습니다.
  2. 0이 아닌 중심 출력: Sigmoid의 출력은 모두 양수이므로 다음 레이어의 뉴런 입력이 항상 양수로 나타나 모델의 수렴 속도에 영향을 줄 수 있습니다.
  3. 계산 복잡성: 지수 연산을 포함하며 계산 복잡도가 상대적으로 높습니다.
적용 가능한 장면:
  1. 초기의 얕은 신경망.
  2. 이진 분류 문제에 대한 출력 레이어입니다.
  3. 출력을 (0, 1) 범위로 제한해야 하는 시나리오.
다른 기능과의 비교:

나중에 등장한 ReLU와 같은 기능과 비교할 때 Sigmoid를 딥 네트워크에 적용하는 것은 주로 Vanishing Gradient 문제로 인해 크게 제한되었습니다. 그러나 일부 특정 작업(예: 이진 분류)에서는 시그모이드가 여전히 효과적인 선택입니다.

2.2 Tanh 함수

Tanh(하이퍼볼릭 탄젠트) 함수는 Sigmoid 함수의 향상된 버전으로 간주할 수 있으며 수학적 표현은 다음과 같습니다.
tanh ⁡ ( x ) = ex − e − xex + e − x tanh(x) = frac{e^x - e^{-x}}{e^x + e^{-x}}(엑스)=이자형엑스+이자형엑스이자형엑스이자형엑스
이미지.png

특징 및 이점:
  1. 제로 센터 출력: Tanh 함수의 출력 범위는 (-1, 1) 사이이며, 이는 Sigmoid의 0이 아닌 중심 문제를 해결합니다.
  2. 더 강한 그라데이션: 입력이 0에 가까운 영역에서는 Sigmoid 함수보다 Tanh 함수의 기울기가 커 학습 속도 향상에 도움이 됩니다.
  3. 부드럽고 미분 가능: Sigmoid와 마찬가지로 Tanh도 매끄럽고 미분 가능합니다.
단점과 한계:
  1. 사라지는 그래디언트 문제: Sigmoid에 비해 개선되었음에도 불구하고, Tanh는 여전히 입력값이 크거나 작을 때 기울기가 사라지는 문제를 가지고 있습니다.
  2. 계산 복잡성: Sigmoid와 유사하게 Tanh도 지수 연산을 포함하며 계산 복잡도가 높습니다.
적용 가능한 장면:
  1. 0 중심 출력이 필요한 시나리오에서는 Sigmoid보다 낫습니다.
  2. RNN(반복 신경망) 및 LSTM(장단기 기억 네트워크)에서 자주 사용됩니다.
  3. 정규화된 출력이 중요한 일부 시나리오에서 사용됩니다.
개선 및 비교:

Tanh 함수는 Sigmoid 함수의 개선된 버전으로 간주될 수 있습니다. 주요 개선 사항은 출력의 0 중심화에 있습니다. 이 기능을 사용하면 특히 심층 네트워크에서 Tanh가 Sigmoid보다 더 나은 성능을 발휘할 수 있습니다. 그러나 나중에 등장한 ReLU와 같은 기능과 비교할 때 Tanh는 여전히 그래디언트 소멸 문제가 있으며 이는 매우 깊은 네트워크에서 모델 성능에 영향을 미칠 수 있습니다.
두 가지 고전적인 활성화 함수인 Sigmoid와 Tanh는 딥러닝 초기에 중요한 역할을 했으며, 이들의 특성과 한계로 인해 후속 활성화 함수의 개발도 촉진되었습니다. 많은 시나리오에서 업데이트된 활성화 기능으로 대체되었지만 특정 작업 및 네트워크 구조에서는 여전히 고유한 적용 가치를 가지고 있습니다.

3. ReLU와 그 변형

3.1 ReLU(정류선형유닛)

ReLU 함수의 제안은 활성화 함수 개발에 있어서 중요한 이정표입니다. 수학적 표현은 간단합니다.
ReLU(x) = max⁡(0, x) 텍스트{ReLU}(x) = max(0, x)렐루(엑스)=최대(0,엑스)
이미지.png

특징 및 이점:
  1. 계산은 간단하다: ReLU의 계산 복잡도는 Sigmoid 및 Tanh보다 훨씬 낮아 네트워크 훈련 가속화에 유리합니다.
  2. 완화 그라데이션이 사라집니다.: 양수 입력의 경우 ReLU의 기울기는 항상 1이므로 심층 네트워크의 기울기 소실 문제를 효과적으로 완화합니다.
  3. 희박한 활성화: ReLU는 뉴런의 일부를 0으로 출력하여 네트워크의 희박한 표현을 유도할 수 있으며 이는 특정 작업에 유리합니다.
  4. 생물학적 설명: ReLU의 일방적인 억제 특성은 생물학적 뉴런의 행동과 유사합니다.
단점과 한계:
  1. "죽은 ReLU" 문제: 입력이 음수이면 기울기가 0이 되어 뉴런이 영구적으로 비활성화될 수 있습니다.
  2. 0이 아닌 중심 출력: ReLU의 출력은 모두 음수가 아닌 값이므로 다음 레이어의 학습 과정에 영향을 미칠 수 있습니다.
적용 가능한 장면:
  1. 심층 컨벌루션 신경망(예: ResNet, VGG)에서 널리 사용됩니다.
  2. 대부분의 피드포워드 신경망에 적합합니다.
다른 기능과의 비교:

Sigmoid 및 Tanh과 비교하여 ReLU는 주로 훈련 속도 및 기울기 소멸 완화 측면에서 심층 네트워크에서 상당한 이점을 보여줍니다. 그러나 "dead ReLU" 문제로 인해 연구자들은 다양한 개선된 버전을 제안하게 되었습니다.

3.2 누수 ReLU

ReLU의 "죽음" 문제를 해결하기 위해 Leaky ReLU가 제안되었습니다.
누설 ReLU(x) = { x , x > 0이면 α x , x ≤ 0이면 text{누설 ReLU}(x) ={엑스,만약에엑스>0α엑스,만약에엑스0 누수 ReLU(엑스)={ 엑스,알파엑스,만약에엑스>0만약에엑스0
안에, 알파 알파α 작은 양의 상수(보통 0.01)입니다.
이미지.png

특징 및 이점:
  1. "죽은 ReLU" 문제 완화: 뉴런이 완전히 비활성화되는 것을 방지하기 위해 입력이 음수일 때에도 작은 기울기를 유지합니다.
  2. ReLU의 장점을 그대로 유지: 양의 반축에서 선형성을 유지하며 계산이 간단하고 기울기 소멸 완화에 도움이 됩니다.
단점과 한계:
  1. 하이퍼파라미터 소개 알파 알파α값을 선택하려면 조정이 필요하므로 모델 복잡성이 증가합니다.
  2. 0이 아닌 중심 출력: ReLU와 마찬가지로 출력은 여전히 ​​0 중심이 아닙니다.
적용 가능한 장면:
  1. ReLU가 제대로 작동하지 않는 시나리오의 대안입니다.
  2. 일부 음수 값 정보를 유지해야 하는 작업에 사용됩니다.

3.3 PReLU(매개변수 ReLU)

PReLU는 음의 반축의 기울기가 학습 가능한 매개변수인 Leaky ReLU의 변형입니다.
PReLU(x) = { x , x > 0이면 α x , x ≤ 0이면 text{PReLU}(x) ={엑스,만약에엑스>0α엑스,만약에엑스0 프리루(엑스)={ 엑스,알파엑스,만약에엑스>0만약에엑스0
여기 알파 알파α 역전파를 통해 학습된 매개변수입니다.
이미지.png

특징 및 이점:
  1. 적응형 학습: 데이터를 기반으로 가장 적합한 음의 반축 기울기를 자동으로 학습합니다.
  2. 성능 잠재력: 일부 작업에서는 PReLU가 ReLU 및 Leaky ReLU보다 더 나은 성능을 얻을 수 있습니다.
단점과 한계:
  1. 모델 복잡성 증가: 학습 가능한 추가 매개변수를 도입하면 모델이 복잡해집니다.
  2. 과적합 가능성: 어떤 경우에는 특히 작은 데이터 세트에서 과적합이 발생할 수 있습니다.
적용 가능한 장면:
  1. 대규모 데이터 세트에 대한 딥 러닝 작업.
  2. 적응형 활성화 기능이 필요한 시나리오.

3.4 ELU(지수선형단위)

ELU는 ReLU의 장점과 음수 입력 처리를 결합하려고 시도합니다. 수학적 표현은 다음과 같습니다.
ELU(x) = { x , x > 0이면 α(ex−1) , x ≤ 0이면 text{ELU}(x) ={엑스,만약에엑스>0α(이자형엑스1),만약에엑스0 엘루(엑스)=