내 연락처 정보
우편메소피아@프로톤메일.com
2024-07-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
다음은 ChatGPT-2 기사의 주요 내용이 포함된 전체 논문을 읽은 후의 개인적인 요약입니다. [Paper Summary] 장만 읽을 수 있습니다.
저는 직접 웹 크롤러를 만들었습니다. 크롤링된 웹 페이지 중 일부는 소셜 플랫폼에서 가져온 것입니다. 이러한 웹 페이지는 수동으로 필터링됩니다.최종 생성됨
웹텍스트 데이터세트
, 4,500만 개의 링크가 포함되어 있습니다. 다른 부분은 뉴스 웹사이트에서 가져온 것입니다. 2017년 12월 현재 총 데이터 양은 8,000,000개 기사, 총 40GB의 텍스트 콘텐츠에 달합니다.기사에서는 Wikipedia 및 기타 텍스트를 포함한 텍스트도 훈련 데이터 세트에 포함되어 있다고 언급했습니다.
전 세계 수백만 명의 사람들이 참여하고 있습니다.
GPT-2 훈련에 사용되는 데이터 세트를 생성하고 정리합니다.
디자인했다
단어 수준 표현과 바이트 수준 표현을 결합한 하이브리드 입력 표현
. 기존 단어 수준 라이브러리의 경우 반복되는 단어를 대량으로 제거하고, 일반화 능력 향상을 위해 바이트 수준 표현을 도입했습니다.
단어 수준 표현에는 선험적 이점이 있고 바이트 수준 표현에는 일반화 이점이 있습니다.
GPT1에 대해 일부 수정이 이루어졌습니다.
1. 레이어 정규화를 각 하위 블록의 입력으로 이동합니다.
2. self-attention 블록 뒤에 추가 레이어 정규화를 추가합니다.
3. 초기화 방식 개선 (초기화 시 잔여 레이어의 가중치는 1/√N의 배수로 확장되며, N은 잔여 레이어 개수입니다.)
4. 사전 확장, 단어 분할 확장, 명령어 세트 확장, 일괄 처리 크기 확장.
5.GPT에는 117000000개의 매개변수가 포함되어 있습니다.
GPT-2에는 1542000000개의 매개변수가 포함되어 있습니다.
。
우리는 한 번만 훈련하지만 모델의 성능을 다양한 하위 구분에서 관찰하고 싶기 때문에 모든 실험은 다음과 같이 분류될 수 있습니다.
제로샷 학습
。
테스트 항목 | 모델의 어떤 측면이 테스트됩니까? | 시험 결과 |
---|---|---|
아동 도서 | 다양한 유형의 어휘 식별 | ACC가 85.7에서 93.3으로 향상되었습니다. |
람바다 테스트 | 텍스트에서 긴 종속성을 식별하는 기능 | PPL99.8이 8.63으로 감소 |
위노그라드 스키마 챌린지 | 상식적 추론 | 63.7%에서 70.7%로 증가 |
독해력 | 모델에는 특정 메모리 기능이 있어야 합니다. | 4개의 테스트와 3개의 새로워진 기록 기록 |
요약 | 뉴스 기사의 요약을 추출하는 기능 | 역사적 결과에 맞춰 |
번역하다 | 대형 모델 자동 학습의 번역 기능 | 영어 번역은 형편없는 반면 프랑스어 번역은 벤치마크 수준에 도달했다. |
Q&A | 그럴듯한 질문에 올바르게 대답하는 모델의 능력 | 정확도 5.3배 증가 |
GPT-2 논문의 핵심 내용은 한 문장으로 요약할 수 있습니다.
저자는 GPT 모델을 기반으로 모델 크기와 훈련 데이터 세트 크기를 늘렸고 GPT-2가 NLP의 다양한 분야에서 작업 목표 학습에 자동으로 적응하고 완료할 수 있음을 발견했습니다.
。
예를 들어 고정된 언어 모델에 일상 대화 텍스트와 뉴스 보도 텍스트의 데이터 세트를 동시에 입력하면 이 데이터 세트도 충분히 크고, 모델도 충분히 크고, 훈련 시간도 충분히 길다. 최종 모델에는 일상 대화와 뉴스 보도의 다양한 시나리오를 구별하는 기능이 있을 뿐만 아니라 뉴스 요약 작성 기능과 같은 몇 가지 새로운 기능도 자동으로 갖게 됩니다.
이는 대규모 언어 모델이 강력한 일반화 기능을 가지고 있음을 의미합니다.
대규모 언어 모델은 잠재적으로 자율적입니다.
. 그런 다음 이 기사에서는 저자가 나열한 여러 독립적 영역에 대한 실험 결과를 제시합니다.
Large Dataset만 언급한 GPT 논문에 비해 GPT-2 논문에서는 LLM(Large Language Model)에 대한 설명이 나타나기 시작했습니다.
원본 논문 주소: https://cdn.openai.com/better-언어-models/언어_models_are_uns