언어 모델 진화: NLP에서 LLM_developdoc로의 여정

언어 모델의 진화: NLP에서 LLM으로의 여정

2024-07-12

광대한 인공지능의 세계에서 자연어 처리(NLP)는 언제나 도전과 기회로 가득 찬 분야였습니다. 기술이 발전함에 따라 우리는 전통적인 규칙에서 통계적 기계 학습, 딥 러닝 및 사전 훈련된 모델로의 진화를 목격했습니다. 오늘날 우리는 기계와 통신하는 방식을 재정의하는 LLM(대형 언어 모델)의 문턱에 서 있습니다. 이 기사에서는 개발 역사, 기술 로드맵, LLM이 미래 AI 분야에 미치는 영향을 자세히 살펴보겠습니다.

소개

자연어 처리(NLP)의 목표는 기계가 인간의 언어를 이해하고 해석하고 생성할 수 있도록 하는 것입니다. 이 분야의 발전은 여러 가지 중요한 단계를 거쳤으며, 각 단계는 언어 이해의 깊이에 있어서 도약을 의미합니다. 초기 규칙 기반 시스템부터 통계 학습 방법, 딥 러닝 모델, 오늘날의 대규모 언어 모델(LLM)에 이르기까지 각 단계는 이전 단계를 초월합니다.
여기에 이미지 설명을 삽입하세요.

규칙에서 통계까지: NLP의 초기 탐색

규칙 단계(1956-1992)

NLP 초기에 연구자들은 언어를 처리하기 위해 손으로 쓴 규칙에 의존했습니다. 이 단계의 기술 스택에는 유한 상태 머신과 규칙 기반 시스템이 포함됩니다. 예를 들어, Apertium은 규칙 기반 기계 번역 시스템으로, 초기 연구자가 수동으로 사전을 구성하고 규칙을 작성하여 언어 자동 번역을 달성할 수 있는 방법을 보여줍니다.
여기에 이미지 설명을 삽입하세요.

통계적 머신러닝 단계(1993~2012)

시간이 지남에 따라 연구자들은 SVM(서포트 벡터 머신), HMM(은닉 마르코프 모델), MaxEnt(최대 엔트로피 모델) 및 CRF(조건부 랜덤 필드)와 같은 도구를 사용하여 통계적 학습 방법으로 전환하기 시작했습니다. 이 단계는 수동으로 레이블이 지정된 소량의 도메인 데이터와 수동 기능 엔지니어링의 조합이 특징이며, 수동으로 작성한 규칙에서 자동으로 데이터로부터 지식을 학습하는 기계로의 전환을 표시합니다.
여기에 이미지 설명을 삽입하세요.

딥 러닝의 획기적인 발전: 새로운 시대를 열다

딥러닝 단계(2013~2018)

딥러닝의 등장은 NLP에 혁명적인 변화를 가져왔습니다. 인코더-디코더, LSTM(Long Short-Term Memory Network), Attention 및 Embedding으로 대표되는 기술을 통해 모델은 수동 기능 엔지니어링이 거의 필요하지 않고 더 큰 데이터 세트를 처리할 수 있습니다. 구글의 신경기계번역시스템(2016)이 이 단계의 대표적인 작품이다.
여기에 이미지 설명을 삽입하세요.

사전 훈련된 모델의 등장: 지식의 자기 발견

사전 훈련 단계(2018-2022)

사전 훈련된 모델의 출현은 NLP 분야의 또 다른 도약을 의미합니다. Transformer와 어텐션 메커니즘을 핵심으로 하는 기술 스택은 자기 지도 학습을 위해 레이블이 지정되지 않은 대규모 데이터를 결합하고 일반 지식을 생성한 다음 미세 조정을 통해 특정 작업에 적응합니다. 이 단계의 가변성은 레이블이 있는 데이터에서 레이블이 없는 데이터로 사용 가능한 데이터 범위를 확장하기 때문에 매우 높습니다.
여기에 이미지 설명을 삽입하세요.

LLM의 새로운 시대: 지능과 다양성의 융합

LLM 단계 (2023-?)

LLM은 일반적으로 RLHF(Transformer and Reinforcement Learning Human Feedback)와 결합된 디코더 기반 아키텍처를 채택하는 언어 모델의 최신 개발을 나타냅니다. 이 단계는 사전 훈련과 인간과의 정렬이라는 2단계 프로세스가 특징입니다. 사전 훈련 단계에서는 레이블이 지정되지 않은 대규모 데이터와 도메인 데이터를 사용하여 자기 지도 학습을 통해 지식을 생성하고, 인간 정렬 단계에서는 사용 습관과 가치를 정렬하여 모델이 다양한 작업에 적응할 수 있도록 합니다.
여기에 이미지 설명을 삽입하세요.
다양한 개발 단계를 되돌아보면 다음과 같은 추세를 볼 수 있습니다.

데이터: 데이터에서 지식까지, 점점 더 많은 데이터가 사용되고 있습니다/미래:더 많은 텍스트 데이터, 더 많은 기타 양식 데이터→모든 데이터
알고리즘: 표현 능력이 점점 더 강해지고, 규모가 점점 커지고, 전문적인 학습 능력이 점점 더 강해집니다.미래:현재는 트랜스포머로 충분, 새로운 모델(학습 효율성이 강조되어야 함)?→AGI?
인간-기계 관계: 강사에서 감독자로/미래: 인간-기계 협업, 인간에게서 기계 학습→기계에서 인간 학습?→기계가 인간 지식의 경계를 확장하다

여기에 이미지 설명을 삽입하세요.

LLM 기술 개발 경로: 다양한 경로

지난 몇 년간 LLM 기술 개발은 BERT 모드, GPT 모드, T5 모드 등 다양한 경로를 보여왔습니다. 각 모드에는 고유한 특성과 적용 가능한 시나리오가 있습니다.
여기에 이미지 설명을 삽입하세요.

BERT 모드(인코더 전용)

BERT 모델은 양방향 언어 모델 사전 훈련과 작업 미세 조정(양방향 언어 모델 사전 훈련 + 작업 미세 조정)의 2단계 프로세스를 통해 자연어 이해 작업에 적합합니다. BERT 사전 학습은 일반 데이터에서 일반 지식을 추출하고, Fine-tuning은 도메인 데이터에서 도메인 지식을 추출합니다.
여기에 이미지 설명을 삽입하세요.
적합한 작업 시나리오: 자연어 이해, 특정 시나리오의 특정 작업, 전문화 및 가벼운 작업에 더 적합합니다.

GPT 모드(디코더 전용)

GPT 모드는 단방향 언어 모델 사전 훈련과 제로 샷/몇 샷 프롬프트 또는 지시(단방향 언어 모델 사전 훈련 + 제로 샷/몇 샷 프롬프트/지시) 프로세스에서 개발되었으며 자연어 학습에 적합합니다. 언어 생성. GPT 모드 모델은 일반적으로 사용 가능한 가장 큰 LLM이며 더 넓은 범위의 작업을 처리할 수 있습니다.
여기에 이미지 설명을 삽입하세요.
적용 가능한 시나리오: 자연어 생성 작업에 더 적합합니다. 현재 가장 큰 LLM은 모두 이 모드에 있습니다. GPT 시리즈, PaLM, LaMDA..., 반복 및 통과 모드는 생성 작업/일반 모델에 권장됩니다.

T5 모드(인코더-디코더)

T5 모드는 BERT와 GPT의 특성을 결합하여 작업 생성 및 이해에 적합합니다. T5 모드 빈칸 채우기 작업(Span Corruption)은 자연어 이해 작업에서 잘 수행되는 효과적인 사전 학습 방법입니다. 2단계(단방향 언어 모델 사전 학습 + 주로 Fine-tuning)
여기에 이미지 설명을 삽입하세요.
특징: GPT처럼 보이고 Bert처럼 보입니다.
적용 가능한 시나리오: 효과 관점에서 볼 때, 중국의 많은 대규모 LLM은 단일 분야의 자연어 이해 작업인 경우 이 모드를 채택합니다. , T5 모드를 사용하는 것이 좋습니다.
여기에 이미지 설명을 삽입하세요.

GPT 모드에서 LLM이 매우 큰 이유는 무엇입니까?

Super LLM : 제로샷/적은샷/지시효과 추구
현재 연구 결론

(모델 크기가 작은 경우):

자연어 이해 카테고리: T5 모드가 가장 잘 작동합니다.
자연어 생성 수업: GPT 모드가 가장 잘 작동합니다.
제로 샷: GPT 모드가 가장 잘 작동합니다.
Pretrain 후에 다중 작업 미세 조정이 도입되면 T5 모드가 더 잘 작동할 것입니다(결론은 의심스럽습니다. 현재 실험적인 Encoder-Decoder는 Decoder-only 매개 변수의 두 배를 가집니다. 결론을 신뢰할 수 있습니까?)

현재 연구 결론(매우 대규모):
사실: 100B를 초과하는 거의 모든 LLM 모델은 GPT 모드를 채택합니다.

가능한 이유:
1. 인코더-디코더의 양방향 주의로 인해 제로샷 능력이 손상됨(확인)
2. 인코더-디코더 구조는 토큰을 생성할 때 상위 수준 인코더에만 주의를 제공할 수 있습니다. 디코더 전용 구조는 토큰을 생성할 때 계층별로 주의를 제공할 수 있으며 정보가 더 세분화됩니다.
3. 인코더-디코더는 "빈칸 채우기"를 훈련하고 마지막 단어 Next Token을 생성합니다. 디코더 전용 구조의 훈련 및 생성 방법은 일관됩니다.

대규모 LLM의 과제와 기회

모델의 크기가 커짐에 따라 연구자들은 매개변수 공간을 효과적으로 활용하는 방법에 대한 과제에 직면하게 됩니다. Chinchilla 모델에 대한 연구에 따르면 데이터가 충분하면 현재 LLM 규모가 이상적인 규모보다 커질 수 있으며 매개변수 공간이 낭비될 수 있습니다. 그러나 스케일링 법칙에서는 모델 규모가 클수록 데이터가 더 많아진다고 지적합니다. , 훈련이 적절할수록 LLM 모델의 효과가 더 좋습니다. 더 실현 가능한 아이디어는 먼저 작게 만든 다음(GPT 3가 너무 크지 않아야 함) 크게 만드는 것입니다(모델 매개변수를 최대한 활용한 후 계속해서 더 크게 만듭니다).
여기에 이미지 설명을 삽입하세요.

물론 다중 모드 LLM에는 보다 풍부한 실제 환경 인식 기능이 필요하므로 LLM 매개변수에 대한 요구 사항도 더 높아집니다.
다중 모드 LLM: 시각적 입력(사진, 비디오), 청각 입력(오디오), 촉각 입력(압력)
여기에 이미지 설명을 삽입하세요.
문제에 직면하다: 다중 모드 LLM은 꽤 좋아 보이며 수동으로 정리된 대규모 데이터 세트에 크게 의존합니다.

예를 들어 ALIGN: 1.8B 그래픽 및 텍스트/LAION: 5.8B 그래픽 및 텍스트 데이터(CLIP으로 필터링, 현재 가장 큰 그래픽 및 텍스트 데이터)는 현재 이미지가 날아다니는 텍스트입니까?

이미지 처리: 자기 감독 기술 경로가 시도되고 있지만 아직 성공하지 못했습니다(비교 학습/MAE)/성공적으로 달성할 수 있다면 AI 분야에서 또 하나의 거대한 기술 혁신이 될 것입니다.

이것이 해결된다면 현재의 일부 이미지 이해 작업(의미분할/인식 등)은 LLM으로 통합되어 사라질 것으로 예상된다.

여기에 이미지 설명을 삽입하세요.

LLM의 복잡한 추론 능력 향상

현재 LLM에는 특정 단순 추론 기능이 있지만 복잡한 추론에는 여전히 단점이 있습니다. 예를 들어, 여러 자리 숫자 추가와 같은 작업은 LLM의 과제로 남아 있습니다. 연구자들은 의미론적 분해와 같은 기술적 수단을 통해 복잡한 추론 기능을 더 작은 모델로 추출하는 방법을 탐구하고 있습니다.
여기에 이미지 설명을 삽입하세요.
물론 이 문제는 도구와 결합하는 등 용량 아웃소싱을 통해 회피할 수도 있습니다. 컴퓨팅 성능(외부 계산기), 새로운 정보 쿼리(검색 엔진) 및 기타 기능은 외부 도구의 도움으로 완성됩니다.
여기에 이미지 설명을 삽입하세요.

LLM과 실제 세계 간의 상호 작용

구체화된 지능의 개념은 LLM과 로봇 공학을 결합하고 강화 학습을 사용하여 물리적 세계와의 상호 작용을 통해 구체화된 지능을 얻습니다. . 예를 들어, Google의 PaLM-E 모델은 PaLM 540B와 ViT 22B를 결합하여 다중 모드 환경에서 LLM의 잠재력을 보여줍니다.
여기에 이미지 설명을 삽입하세요.

기타 연구방향

새로운 지식 습득 : 현재로서는 어려움이 있지만 몇 가지 방법(LLM+Retrieval)도 있습니다.
기존 지식 수정: 현재 아직 최적화가 필요한 일부 연구 결과가 있습니다.
개인 도메인 지식의 통합: 미세 조정?
명령에 대한 더 나은 이해: 여전히 최적화가 필요함(심각한 넌센스)
훈련 추론 비용 절감: 향후 1~2년 내 급속한 발전
중국어 평가 데이터 세트 구축: 리트머스 능력 테스트. 현재 HELM/BigBench 등 영어로 된 평가 세트가 일부 있지만, 중국어로 된/다중 작업, 고난이도, 다각도 평가 데이터 세트가 부족합니다.

결론

이 기사에서는 개발 역사, 기술 로드맵 및 LLM의 미래 AI 분야에 미치는 영향을 깊이 탐구합니다. LLM의 개발은 기술적 진보일 뿐만 아니라 기계 이해 능력에 대한 심오한 반영이기도 합니다. 규칙부터 통계, 딥 러닝 및 사전 훈련에 이르기까지 각 단계는 우리에게 새로운 관점과 도구를 제공합니다. 오늘날 우리는 전례 없는 기회와 도전에 직면하면서 대규모 언어 모델의 새로운 시대의 문턱에 서 있습니다.

기술나눔