기술나눔

datawhale 2th summer camp NLP task1에 대한 노트

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

//이 노트를 옵시디언으로 작성하여 여기에 복사했습니다. 이 노트의 이상한 형식은 옵시디언 플러그인이 없어서입니다.


태그:

  • AI연구
  • 미르
    상태: 완료

표적: 기준선을 실행하고, NLP 모델의 문제 해결 프로세스를 경험하고, 기본적으로 경쟁 질문의 요구 사항을 이해하고, 경쟁 시나리오를 이해합니다.
어려움:매우 낮은
권장 단계:

  1. 서류에 따라 제출하고 1차 점수 획득
  2. 경쟁 질문 제출 형식 이해
  3. 모델 훈련과 관련된 데이터 형식
  4. 첫 번째 점수를 확인하고 메모를 적어보세요

Task1 지식 클릭 문서 - Feishu Cloud Documents (feishu.cn)

ML의 간략한 역사

기계 번역(MT)은 자연어 처리 분야의 중요한 분야입니다.한 언어의 텍스트를 다른 언어의 텍스트로 자동 변환

기계번역 방식 : 규칙 기반 -> 통계 기반 -> 딥러닝
규칙 중심->데이터 중심->지능형 드라이버

규칙 기반 기계 번역(1950년대~1980년대): 초기 기계 번역 시스템은 주로 규칙 기반 방법을 채택했습니다.번역을 위해 언어학자가 작성한 문법 규칙 및 사전 .이 방법은 원어와 목적어의 문법, 어휘에 대한 심층적인 이해가 필요하지만 유연성과 적응성이 떨어져 복잡한 언어 구조와 다의어 문제를 다루기가 어렵다.

통계기반 기계번역 (1990년대~2000년대) : 컴퓨터 성능의 향상과 대규모 병렬 말뭉치의 등장으로 통계기계번역이 부각되기 시작했습니다.이 방법대량의 이중 언어 텍스트를 분석하여 소스 언어와 대상 언어 간의 대응 관계를 자동으로 학습합니다. , 이를 통해 번역을 실현합니다. 통계적 기계 번역은 다의어 및 언어 변화를 처리하는 데 더 나은 결과를 보여 주지만, 많은 양의 훈련 데이터에 의존하기 때문에 리소스가 부족한 언어에 대한 지원이 부족합니다.

신경망 기반 기계 번역(2010년대~현재) : 기계 번역 작업에 신경망 방법을 적용한 것은 1980년대와 1990년대로 거슬러 올라갑니다. 그러나 당시의 컴퓨팅 자원과 데이터 규모의 한계로 인해 신경망 방식의 성능이 만족스럽지 못해 수년간 개발이 정체되었습니다. 최근에는 딥러닝 기술의 급속한 발전으로 신경기계번역(NMT)의 등장이 가속화되었습니다. NMT는 다음과 같은 심층 신경망 모델을 사용합니다.장단기 기억 네트워크(LSTM) 및 Transformer , 기능이나 규칙을 수동으로 설계하지 않고도 소스 언어와 대상 언어 간의 복잡한 매핑 관계를 자동으로 학습할 수 있습니다. NMT는 번역 품질, 속도 및 적응성 측면에서 상당한 발전을 이루었으며 현재 기계 번역 분야의 주류 방법이 되었습니다.

데이터 파티션

기계 학습 및 딥 러닝 프로젝트에서 데이터 세트는 일반적으로 훈련 세트(Training Set), 개발 세트(개발 세트, 종종 검증 세트, 검증 세트라고도 함) 및 테스트 세트(테스트 세트)의 세 부분으로 나뉩니다.

훈련 세트, 훈련 모델
모델이 훈련 세트에 과적합되는 것을 방지하기 위한 개발 세트
테스트 세트, 실제 데이터 시뮬레이션, 효과 확인

경쟁 질문 분석

이벤트 배경

현재신경 기계 번역기술은 엄청난 발전을 이루었지만,특정 분야나 산업에서는 기계 번역이 용어의 일관성을 보장하기 어렵기 때문에 번역 효과가 이상적이지 않습니다. .용어, 사람 이름, 장소 이름 등 부정확한 기계 번역 결과에 대해 다음을 수행할 수 있습니다.용어 사전을 통해 수정, 혼란이나 모호함을 피하고 번역 품질을 극대화합니다.

이벤트 과제

용어 사전 개입을 기반으로 한 기계 번역 과제 영어를 원본 언어로, 중국어를 대상 언어로 하는 기계 번역을 선택하세요. 이번 대회에서는 영어에서 중국어까지의 이중 언어 데이터 외에도 영어-중국어 용어 사전도 제공됩니다.참여 팀은 제공된 교육 데이터 샘플에서 시작해야 합니다.다국어 기계번역 모델 구축 및 학습, 테스트셋 및 용어사전을 기반으로 최종 번역 결과 제공

//RAG🤗

경쟁 데이터

  • 훈련 세트: 이중 언어 데이터 - 중국어와 영어로 된 140,000개 이상의 이중 언어 문장 쌍
  • 개발 세트: 1000개의 영어-중국어 이중 언어 문장 쌍
  • 테스트 세트: 1000개의 영어-중국어 이중 언어 문장 쌍
  • 용어사전: 영어, 중국어 2226개 용어

[!info] 🐵

  • **훈련 세트**는 학습 알고리즘을 실행하는 데 사용됩니다.
  • 개발 세트 매개변수를 조정하고, 기능을 선택하고, 학습 알고리즘에 대한 기타 결정을 내리는 데 사용됩니다.가끔 불린다홀드아웃 교차 검증 세트
  • **테스트 세트**는 알고리즘의 성능을 평가하는 데 사용되지만 이에 따라 학습 알고리즘이나 매개변수를 변경하지는 않습니다.

평가지표

참가팀이 제출한 테스트셋 번역 결과 파일에 대해서는 자동 평가 지표를 활용 파란색-4 평가 수행 및 특정 도구 사용sacrbleu 오픈 소스 버전

[!info] 📘
무엇인가요블루-4?

BLEU, 성명Bilingual Evaluation Understudy(이중 언어 평가 대체)는生成语句지휘하다评估的指标 . BLEU 점수는 Kishore Papineni 외의 2002년 논문입니다.《BLEU: 기계 번역의 자동 평가를 위한 방법》에서 제안했습니다.

기계번역 분야에서 BLEU(Bilingual Evaluation Understudy)는 일반적으로 사용되는 자동 평가 지표입니다.컴퓨터 생성 번역과 일련의 참고 번역 간의 유사성 .이 지표는 다음에 특히주의를 기울입니다.n-그램 (n 연속 단어)의 정확한 일치는 번역 정확도와 유창성에 대한 통계적 추정으로 생각할 수 있습니다. BLUE 점수를 계산할 때 생성된 텍스트의 n-gram 빈도를 먼저 계산한 다음 이 빈도를 참조 텍스트의 n-gram 빈도와 비교합니다. 생성된 번역에 참조 번역에 나타나는 것과 동일한 n-gram이 포함되어 있으면 일치하는 것으로 간주됩니다. 최종 BLUE 점수는 0과 1 사이의 값입니다. 여기서 1은 참조 번역과 완벽하게 일치함을 나타내고 0은 전혀 일치하지 않음을 나타냅니다.

파란색-4 특히, 계산할 때 4중(즉, 연속된 4개의 단어)의 일치를 고려하는 것을 말합니다.

파란색 평가 지표의 특성:

  • 장점: 계산 속도가 빠르고, 계산 비용이 저렴하며, 이해하기 쉽고, 특정 언어에 구애받지 않으며, 사람의 평가와 높은 상관관계가 있습니다.
  • 단점: 언어 표현(문법)의 정확성을 고려하지 않으며, 일반적으로 사용되는 단어로 인해 평가 정확성이 방해를 받을 수 있습니다. 짧은 번역 문장의 경우 평가 정확성이 더 높기 때문에 거부될 수 있습니다. 합리적인 번역 .

번역 외에도 딥 러닝 방법과 결합된 BLEU 채점은 언어 생성, 이미지 제목 생성, 텍스트 요약 및 음성 인식과 같은 다른 언어 생성 문제에 적용될 수 있습니다.

수업 후 생각

앞으로는 매직타워만 쓸 예정인데 8GB 노트북은 감당이 안 될 것 같아요.
코드와 데이터를 간략히 살펴보았는데 잘 이해가 되지 않습니다.
번역 과정에서 각 단어에 대해 사전에서 여러 옵션이 검색되고, 조합 확률이 가장 높은 옵션이 번역 결과가 될까요?