Compartilhamento de tecnologia

notas para datawhale 2º acampamento de verão NLP tarefa 1

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

//Escrevi esta nota em obsidian e copiei aqui. O formato estranho nesta nota é devido à falta de plugins obsidian.


Tag:

  • Estudo de IA
  • ML
    status: concluído

Alvo: Percorrer a linha de base, experimentar o processo de resolução de problemas do modelo de PNL, compreender basicamente os requisitos das questões da competição e compreender o cenário da competição
dificuldade:muito baixo
Ações recomendadas:

  1. Envie de acordo com a documentação e obtenha a primeira pontuação
  2. Entenda o formato de envio das questões do concurso
  3. Formatos de dados relacionados ao treinamento de modelo
  4. Verifique a primeira partitura e tente fazer anotações

Documentos de clique de conhecimento da tarefa 1 - Documentos em nuvem Feishu (feishu.cn)

breve história do ML

A Tradução Automática (MT) é um ramo importante na área de processamento de linguagem natural. Seu objetivo é.Converta automaticamente texto de um idioma para texto em outro idioma

Método de tradução automática: baseado em regras -> baseado em estatísticas -> aprendizado profundo
Orientado por regras-> Orientado por dados-> Driver inteligente

Tradução automática baseada em regras (1950-1980): Os primeiros sistemas de tradução automática adotavam principalmente métodos baseados em regras, ou seja, usandoRegras gramaticais e dicionários escritos por linguistas para tradução .Este método requer uma compreensão profunda da gramática e do vocabulário da língua de origem e da língua de destino, mas é menos flexível e adaptável, dificultando o tratamento de estruturas linguísticas complexas e problemas de polissemia.

Tradução automática baseada em estatísticas (1990-2000) : Com a melhoria do desempenho do computador e o surgimento de corpora paralelos em grande escala, a tradução automática estatística começou a aumentar.este métodoAprenda automaticamente a correspondência entre os idiomas de origem e de destino, analisando grandes quantidades de texto bilíngue , realizando assim a tradução. A tradução automática estatística tem mostrado melhores resultados no tratamento da polissemia e da variação linguística, mas devido à sua dependência de grandes quantidades de dados de formação, tem suporte insuficiente para línguas com poucos recursos.

Tradução automática baseada em redes neurais (2010 até o presente) : A aplicação de métodos de redes neurais em tarefas de tradução automática remonta às décadas de 1980 e 1990. Porém, devido às limitações de recursos computacionais e escala de dados da época, o desempenho do método de rede neural era insatisfatório, de modo que seu desenvolvimento estagnou por muitos anos. Nos últimos anos, o rápido desenvolvimento da tecnologia de aprendizagem profunda promoveu o surgimento da Tradução Automática Neural (NMT). NMT usa modelos de redes neurais profundas, comoRede de memória de longo prazo (LSTM) e Transformer , pode aprender automaticamente o complexo relacionamento de mapeamento entre o idioma de origem e o idioma de destino sem projetar recursos ou regras manualmente. O NMT fez progressos significativos na qualidade, velocidade e adaptabilidade da tradução e tornou-se o método dominante no atual campo da tradução automática.

Partição de dados

Em projetos de aprendizado de máquina e aprendizado profundo, o conjunto de dados é geralmente dividido em três partes: conjunto de treinamento (Conjunto de Treinamento), conjunto de desenvolvimento (Conjunto de Desenvolvimento, também chamado de conjunto de validação, Conjunto de Validação) e conjunto de teste (Conjunto de Teste)

conjunto de treinamento, modelo de treinamento
Conjunto de desenvolvimento para evitar que o modelo se ajuste demais ao conjunto de treinamento
Conjunto de testes, simule dados reais, verifique o efeito

Análise de questões de competição

Histórico do evento

Atualmentetradução automática neuralA tecnologia fez grandes avanços, masEm certos campos ou indústrias, o efeito da tradução não é ideal porque é difícil para a tradução automática garantir a consistência da terminologia. .Para resultados de tradução automática imprecisos, como terminologia, nomes de pessoas e lugares, etc., você podeCorrigir via dicionário de terminologia, evitando confusão ou ambiguidade e maximizando a qualidade da tradução.

Tarefas de evento

Desafio de tradução automática baseado na intervenção do dicionário terminológico Selecione a tradução automática com o inglês como idioma de origem e o chinês como idioma de destino. Além de dados bilíngues de inglês para chinês, esta competição também oferece um dicionário terminológico inglês-chinês.As equipes participantes precisam começar com as amostras de dados de treinamento fornecidas com base emConstrução e treinamento de modelos de tradução automática multilíngue e fornecimento de resultados finais de tradução com base em conjuntos de testes e dicionários de termos

//RAG🤗

Dados da concorrência

  • Conjunto de treinamento: dados bilíngues - mais de 140.000 pares de frases bilíngues em chinês e inglês
  • Conjunto de desenvolvimento: 1000 pares de frases bilíngues inglês-chinês
  • Conjunto de teste: 1.000 pares de frases bilíngues inglês-chinês
  • Dicionário de terminologia: 2.226 termos em inglês e chinês

[!info] 🐵

  • O **conjunto de treinamento** é usado para executar seu algoritmo de aprendizagem.
  • conjunto de desenvolvimento Usado para ajustar parâmetros, selecionar recursos e tomar outras decisões sobre o algoritmo de aprendizagem.as vezes chamadoconjunto de validação cruzada hold-out
  • **Conjunto de testes** é usado para avaliar o desempenho do algoritmo, mas não altera o algoritmo ou os parâmetros de aprendizagem de acordo.

Indicadores de avaliação

Para os arquivos de resultados de tradução do conjunto de testes enviados pelas equipes participantes, são utilizados indicadores de avaliação automática AZUL-4 Realizar avaliação e usar ferramentas específicasversão de código aberto sacrebleu

[!info] 📘
o que éAZUL-4 ?

BLEU, nome completoBilingual Evaluation Understudy(substituição da avaliação bilíngue), é um生成语句conduta评估的指标 . A pontuação BLEU é um artigo de 2002 de Kishore Papineni et al.《BLEU: um método para avaliação automática de tradução automática》proposto em.

No campo da tradução automática, o BLEU (Bilingual Evaluation Understudy) é um indicador de avaliação automática comumente usado para medirSemelhança entre uma tradução gerada por computador e um conjunto de traduções de referência .Este indicador presta especial atençãon-gramas Uma correspondência exata de (n palavras consecutivas) pode ser considerada uma estimativa estatística da precisão e fluência da tradução. Ao calcular a pontuação BLUE, a frequência de n gramas no texto gerado é primeiro contada e, em seguida, essas frequências são comparadas com os n gramas no texto de referência. Se a tradução gerada contiver os mesmos n-gramas que aparecem na tradução de referência, ela será considerada uma correspondência. A pontuação AZUL final é um valor entre 0 e 1, onde 1 representa uma correspondência perfeita com a tradução de referência e 0 representa nenhuma correspondência.

AZUL-4 Em particular, refere-se a levar em conta a correspondência de quádruplos (ou seja, quatro palavras consecutivas) no cálculo.

AZUL Características dos indicadores de avaliação:

  • Vantagens: rapidez de cálculo, baixo custo de cálculo, fácil de entender, independente de linguagem específica e altamente correlacionado com a avaliação humana.
  • Desvantagens: A precisão da expressão da linguagem (gramática) não é considerada; a precisão da avaliação será prejudicada por palavras comumente usadas; de traduções razoáveis.

Além da tradução, a pontuação BLEU combinada com métodos de aprendizagem profunda pode ser aplicada a outros problemas de geração de linguagem, tais como: geração de linguagem, geração de títulos de imagem, resumo de texto e reconhecimento de fala.

Pensamentos depois da aula

Vou usar apenas a Magic Tower de agora em diante, um laptop de 8GB não vai aguentar.
Examinei brevemente o código e os dados, mas não entendi muito bem.
Adivinhe, durante o processo de tradução, várias opções são recuperadas do dicionário para cada palavra, e aquela com maior probabilidade de combinação é o resultado da tradução?