Beyond Transformer는 효율적인 개방형 언어 모델의 새로운 장을 엽니다

Beyond Transformer는 효율적인 개방형 언어 모델의 새로운 장을 열었습니다.

2024-07-12

오늘날 인공 지능의 급속한 발전과 함께 효율적이고 우수한 언어 모델을 추구하기 위해 Google DeepMind 팀은 획기적인 모델 RecurrentGemma를 개발하게 되었습니다. "RecurrentGemma: Transformers를 넘어서는 효율적인 개방형 언어 모델"이라는 논문에 자세히 설명된 이 새로운 모델은 선형 재귀와 로컬 어텐션 메커니즘을 결합하여 언어 처리 표준을 재정의할 것을 약속합니다.

모델 아키텍처

RecurrentGemma 모델의 아키텍처는 효율적인 성능의 핵심입니다. Google DeepMind가 제안한 Griffin 아키텍처를 기반으로 하는 이 아키텍처는 선형 재귀와 로컬 어텐션 메커니즘을 결합하여 언어 작업 처리에 대한 새로운 가능성을 제공합니다. RecurrentGemma의 모델 아키텍처를 탐구할 때 먼저 Griffin 아키텍처의 기초와 RecurrentGemma가 이를 기반으로 어떻게 혁신하고 최적화하는지 이해해야 합니다.

RecurrentGemma는 입력 임베딩 처리와 관련된 Griffin 아키텍처를 핵심적으로 수정합니다. 모델의 입력 임베딩에 모델 너비의 제곱근과 동일한 상수를 곱합니다. 이 처리는 모델의 입력 측면을 조정하지만 출력 임베딩이 이 곱셈 인자를 적용하지 않기 때문에 출력 측면을 변경하지 않습니다. 이러한 조정을 통해 모델은 모델 폭 전체에서 일관성을 유지하면서 정보를 보다 효율적으로 처리할 수 있습니다. 이러한 수정은 모델의 수학적 표현과 정보 흐름에서 중요한 역할을 합니다. 모델의 입력 데이터 초기 처리를 최적화할 뿐만 아니라 임베딩 규모를 조정하여 모델이 언어의 특성을 더 잘 포착하고 표현하는 데 도움이 됩니다.

RecurrentGemma 모델의 성능과 효율성은 주로 하이퍼파라미터에 의해 결정됩니다. 이러한 하이퍼파라미터는 모델 정의의 핵심 부분이며 다음 측면을 포함하지만 이에 국한되지는 않습니다.

총 매개변수: 모델의 복잡성과 용량을 보여주는 2억 7천만 개의 매개변수.
비포함 매개변수: 2억 개의 매개변수, 이는 임베딩 레이어를 제외한 모델의 매개변수 수입니다.
매개변수 삽입: 모델의 어휘 임베딩과 직접적으로 관련된 7천만 개의 매개변수.
어휘: 256,000 단어. 이는 모델이 이해하고 생성할 수 있는 총 단어 수입니다.
모델 폭:2560은 모델 내부 표현의 차원을 나타냅니다.
RNN 너비:2560, 이는 순환 신경망 부분의 너비입니다.
MLP 확장 인자:3은 모델에서 다층 퍼셉트론의 확장 정도에 영향을 미칩니다.
깊이: 26개의 레이어, 이는 모델의 데이터 처리 깊이를 반영하는 모델의 레이어 수입니다.
주의 헤드 수:10은 시퀀스를 처리할 때 모델이 사용하는 주의 메커니즘의 헤드 수를 나타냅니다.
지역 주의 창 크기:2048은 시퀀스에 대한 로컬 어텐션 메커니즘의 범위를 정의합니다.

RecurrentGemma 모델의 주요 하이퍼파라미터에는 총 매개변수 수, 비임베디드 매개변수 수, 내장된 매개변수 수, 어휘 크기, 모델 폭, RNN 폭, MLP 확장 인자, 깊이, 주의 헤드 수 및 로컬 주의가 포함됩니다. 창 크기.

표 1은 이러한 주요 하이퍼파라미터에 대한 요약을 제공하며 더 자세한 모델 정의는 De et al.의 Griffin 논문에서 찾을 수 있습니다. 이러한 하이퍼파라미터는 RecurrentGemma 모델의 기초를 형성하여 작은 메모리 공간을 유지하면서 긴 시퀀스를 효율적으로 처리할 수 있도록 해줍니다.

Griffin 아키텍처에 대한 세심한 수정과 하이퍼파라미터의 세심한 조정을 통해 RecurrentGemma 모델은 이론상의 발전을 보여줄 뿐만 아니라 실제 응용 프로그램에서 효율성과 강력한 언어 처리 기능을 입증합니다.

훈련 세부정보

RecurrentGemma-2B의 사전 훈련에는 2조 토큰이 사용됩니다. 이 데이터 양은 Gemma-2B에서 사용하는 3조 토큰보다 작지만 여전히 거대한 데이터 세트를 구성하며 모델에 풍부한 언어 정보를 제공합니다.

사전 훈련을 위한 데이터 소스는 주로 영어 온라인 문서, 수학 및 코드입니다. 이 데이터는 광범위한 주제와 영역을 다룰 뿐만 아니라, 원치 않거나 안전하지 않은 콘텐츠를 줄이고 개인 데이터 또는 민감한 데이터를 제외하기 위해 신중하게 필터링 및 정리됩니다. 또한 평가의 공정성을 보장하기 위해 모든 평가 세트는 사전 훈련 데이터 세트에서 제외됩니다.

RecurrentGemma-2B는 먼저 사전 훈련에서 대규모 일반 데이터 혼합을 사용한 다음 추가 훈련을 위해 더 작지만 더 높은 품질의 데이터 세트로 이동합니다. 이 단계적 학습 접근 방식은 모델이 광범위한 데이터에 대한 일반적인 언어 표현을 학습한 다음 보다 전문화된 데이터로 이를 구체화하고 최적화하는 데 도움이 됩니다.

사전 훈련 후 RecurrentGemma-2B는 명령어 튜닝과 RLHF 알고리즘을 통해 미세 조정되었습니다. 이 프로세스는 지침을 더 잘 따르고 높은 보상으로 응답을 생성할 수 있도록 모델을 최적화하는 것을 목표로 합니다.

명령어 튜닝(Instruction Tuning)은 모델이 특정 명령어 형식을 이해하고 이에 응답할 수 있도록 하는 훈련 방법입니다. RecurrentGemma-2B는 사용자 입력 및 모델 출력과 같은 특정 제어 태그에 의해 정의된 특정 대화 형식을 준수하도록 훈련되었으며 각각 다른 태그로 식별됩니다.

RLHF 알고리즘은 강화 학습 프레임워크를 통해 모델의 출력을 최적화하는 고급 미세 조정 기술입니다. RLHF에서는 인간의 피드백을 기반으로 모델의 출력을 평가하고 평가 결과에 따라 조정하여 출력 및 보상의 품질을 향상시킵니다. 이 알고리즘을 통해 모델은 다양한 상황에서 보다 적절한 응답을 생성하는 방법을 학습할 수 있습니다.

명령어 조정 및 RLHF 미세 조정을 통해 RecurrentGemma-2B는 고품질 언어 출력을 생성할 수 있을 뿐만 아니라 대화 및 지시 따르기에서도 잘 수행됩니다. 이 교육 방법은 모델에 유연성과 적응성을 제공하여 다양한 애플리케이션 시나리오에서 작동할 수 있도록 합니다.

사용자와 모델 간의 대화 형식을 정의하는 데 사용되는 Gemma 모델에 대한 명령어 조정 및 RLHF(Reinforcement Learning Human Feedback) 관련 서식 제어 태그

제어 태그를 사용하여 사용자와 모델 간의 대화 형식을 지정하는 방법을 보여주는 대화 예시

이러한 방식으로 RecurrentGemma-2B는 다양한 작업과 환경에서 효율적이고 정확한 언어 처리를 제공할 수 있는 강력한 언어 모델이 됩니다.

평가하다

자동 벤치마킹은 RecurrentGemma-2B의 성능을 평가하는 첫 번째 단계입니다. 이러한 테스트는 질문 답변, 텍스트 요약, 언어 추론 등을 포함하되 이에 국한되지 않는 다양한 인기 있는 다운스트림 작업을 다룹니다. 이러한 작업에 대한 RecurrentGemma-2B의 성능은 Gemma-2B와 비교되었으며 결과는 RecurrentGemma-2B가 더 적은 수의 토큰으로 훈련되었지만 성능은 Gemma-2B와 비슷하다는 것을 보여줍니다.

MMLU 5-shot, HellaSwag 0-shot, PIQA 0-shot 등과 같은 여러 학술 벤치마크에서 RecurrentGemma-2B의 성능은 Gemma-2B와 유사하며 다양한 작업에 대한 다양성과 효율성을 입증합니다. 이러한 테스트 결과는 모델의 언어에 대한 심층적인 이해를 보여줄 뿐만 아니라 실제 적용에서의 잠재력도 반영합니다.

두 모델의 다양한 평가 지표 및 점수를 포함하여 여러 학문적 벤치마크에서 RecurrentGemma-2B 및 Gemma-2B의 성능 비교

자동화된 벤치마크 외에도 RecurrentGemma-2B는 인간 평가에 대한 테스트를 거쳤습니다. 인간 평가는 언어 모델이 인간의 기대를 충족하는 응답을 생성할 수 있는지 여부를 평가하는 중요한 단계입니다. 이 프로세스에서는 RecurrentGemma-2B(RecurrentGemma-2B-IT)의 명령 조정 변형을 Mistral 7B v0.2 Instruct 모델과 비교했습니다.

인간 평가에서는 창의적인 글쓰기 및 코딩 작업을 위해 따라야 할 약 1,000개의 지침 모음을 사용합니다. RecurrentGemma-2B-IT는 이 세트에서 인상적인 성능을 발휘하여 43.7%의 승률을 달성했으며 이는 Gemma-1.1-2B-IT의 45.0%보다 약간 낮습니다. 이 결과는 복잡한 명령을 이해하고 실행하는 RecurrentGemma-2B의 능력이 기존 고급 모델과 비슷하다는 것을 보여줍니다.

또한 RecurrentGemma-2B-IT는 기본 보안 프로토콜을 테스트하는 약 400개의 프롬프트 모음에서 평가되었으며, 59.8%의 승률을 달성하여 보안 지침을 따르는 데 있어 모델의 우수성을 입증했습니다.

RecurrentGemma-2B-IT 모델과 Mistral 7B v0.2 모델의 승률 비교 모델 안전성 및 지시 따르기 능력을 포함한 인간 평가에서의 지시 모델

RecurrentGemma-2B의 성능은 자동화된 벤치마크와 사람의 평가를 결합하여 종합적으로 테스트되었습니다. 자동화된 테스트는 다양한 언어 작업에 대한 모델 성능에 대한 정량적 평가를 제공하는 반면, 사람의 평가는 모델 출력 품질에 대한 질적 이해를 제공합니다. 이 포괄적인 평가 접근 방식은 RecurrentGemma-2B가 이론적으로 잘 작동할 뿐만 아니라 실제 응용 프로그램에서 고품질 언어 생성 및 이해를 제공하도록 보장합니다.

추론 속도 벤치마크

추론 속도는 특히 긴 시퀀스 데이터를 처리할 때 언어 모델의 유용성을 측정하는 주요 지표 중 하나입니다. RecurrentGemma-2B의 추론 속도 최적화는 기존 Transformer 모델과 구별되는 주요 특징입니다. 기존 Transformer 모델에서는 효율적인 시퀀스 처리를 위해 모델이 키-값(KV) 캐시를 검색하여 장치 메모리에 로드해야 합니다. 시퀀스 길이가 증가함에 따라 KV 캐시의 크기도 선형적으로 증가하여 메모리 사용량이 증가할 뿐만 아니라 긴 시퀀스를 처리하는 모델의 능력도 제한됩니다. 로컬 주의 메커니즘을 통해 캐시 크기를 줄일 수 있지만 일반적으로 일부 성능이 저하됩니다.

RecurrentGemma-2B는 혁신적인 아키텍처 설계를 통해 위의 문제를 해결합니다. 시퀀스 길이에 따라 커지는 KV 캐시에 의존하지 않고 입력 시퀀스를 고정 크기 상태로 압축합니다. 이 설계는 메모리 사용량을 크게 줄이고 모델이 긴 시퀀스를 처리할 때 효율적인 추론 속도를 유지할 수 있도록 해줍니다.

벤치마크 테스트에서 RecurrentGemma-2B는 상당한 처리량 이점을 보여주었습니다. 그림 1a에 표시된 것처럼 단일 TPUv5e 장치에서 RecurrentGemma-2B는 2,000개의 토큰 힌트에서 다양한 길이의 시퀀스를 샘플링할 때 초당 최대 6,000개 토큰의 처리량을 달성할 수 있는 반면, Gemma 모델은 캐시가 증가함에 따라 증가합니다. . 처리량이 감소합니다.

RecurrentGemma-2B의 고정된 상태 크기는 효율적인 추론의 핵심입니다. Gemma 모델과 비교하여 RecurrentGemma-2B의 상태는 시퀀스 길이에 따라 커지지 않습니다. 즉, 호스트 메모리 크기에 제한을 받지 않고 어떤 길이의 시퀀스도 생성할 수 있습니다. 이는 모델이 고성능을 유지하면서 더 긴 텍스트 데이터를 처리할 수 있도록 해주기 때문에 긴 시퀀스 처리에서 특히 중요합니다.

추론 속도의 향상은 이론적으로 큰 의미를 가질 뿐만 아니라 실제 적용에서도 그 가치를 보여줍니다. 모바일 장치나 엣지 컴퓨팅 장치와 같이 리소스가 제한된 환경에서 RecurrentGemma-2B의 높은 처리량과 낮은 메모리 공간은 이상적인 선택입니다. 또한 효율적인 추론 속도를 통해 모델은 사용자 요청에 더 빠르게 응답하고 보다 원활한 대화형 경험을 제공할 수 있습니다.

(a)는 2,000개 토큰 힌트에서 서로 다른 길이의 시퀀스를 샘플링할 때 단일 TPUv5e 기기에서 초당 생성되는 최대 토큰 수를 보여줍니다. RecurrentGemma는 고려된 모든 시퀀스 길이에서 더 높은 처리량을 달성합니다.
(b)는 서로 다른 길이의 큐를 처리할 때의 처리량을 보여줍니다. 자동회귀 샘플링과 달리 큐는 병렬로 처리됩니다. Gemma와 RecurrentGemma는 프롬프트 처리 속도가 비슷합니다.

책임 있는 배포

인공지능 분야에서 모델의 배치는 기술의 구현일 뿐만 아니라 안전과 윤리적 책임의 가정이기도 합니다. RecurrentGemma-2B의 배포 전략은 이러한 핵심 요소에 대한 강조를 완전히 반영합니다.

모델 배포에 앞서 RecurrentGemma-2B는 모델에서 발생할 수 있는 위법 행위나 편견을 평가하기 위해 고안된 일련의 표준 학술 보안 벤치마크를 거쳤습니다. 이러한 테스트를 통해 개발팀은 잠재적인 위험을 식별하고 완화하여 모델이 대중이 사용하기에 안전한지 확인할 수 있습니다.

사전 훈련 체크포인트 및 명령 조정 변형에 대한 결과를 포함하여 보안 학술 벤치마크에 대한 RecurrentGemma-2B 모델의 결과

자동화된 보안 벤치마킹 외에도 RecurrentGemma-2B는 독립 팀의 윤리 및 보안 평가를 받았습니다. 이 프로세스에는 특정 그룹에 대한 공정성, 유해한 출력을 방지하는 기능, 사용자 개인 정보 보호를 포함하되 이에 국한되지 않는 모델에 대한 포괄적인 검토가 포함됩니다.

엄격한 테스트와 평가에도 불구하고 개발팀은 RecurrentGemma-2B가 다양한 시나리오에 적용될 수 있다는 점을 고려하면 가능한 모든 사용 사례를 포괄하는 것은 불가능하다고 강조합니다. 따라서 모든 사용자는 모델을 배포하기 전에 특정 사용 사례를 기반으로 추가 보안 테스트를 수행할 것을 권장합니다. 이 권장 사항은 각 배포를 신중하게 고려하고 사용자 지정해야 하는 사용자 책임에 대한 강조를 반영합니다.

책임 있는 배포에는 모델 성능 및 제한 사항에 대한 투명성도 포함됩니다. 개발팀은 사용자와 연구자가 모델의 작동 방식과 잠재적인 한계를 이해할 수 있도록 자세한 모델 아키텍처와 교육 세부 정보를 제공합니다. 또한 팀은 새로운 위험과 과제를 해결하기 위해 모델을 지속적으로 모니터링하고 개선하는 데 최선을 다하고 있습니다.

책임 있는 배포에는 더 광범위한 AI 커뮤니티 및 여러 이해관계자와의 협력도 포함됩니다. 연구 결과를 공유하고, 공개 토론에 참여하고, 외부 피드백을 수용함으로써 RecurrentGemma 개발팀은 개방형 과학 및 협업에 대한 의지를 보여줍니다.

인공 지능 분야가 계속 확장됨에 따라 RecurrentGemma는 혁신적인 아키텍처 설계 개념, 엄격한 교육 및 평가 프로세스를 결합한 모델 역할을 하며 언어 이해 및 생성에서 가능한 것의 경계를 넓힐 수 있는 잠재력을 보여줍니다.

논문 링크: https://arxiv.org/abs/2404.07839

기술나눔