minhas informações de contato
Correspondência[email protected]
2024-07-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
//Escrevi esta nota em obsidian e copiei aqui. O formato estranho nesta nota é devido à falta de plugins obsidian.
Tag:
Alvo: Percorrer a linha de base, experimentar o processo de resolução de problemas do modelo de PNL, compreender basicamente os requisitos das questões da competição e compreender o cenário da competição
dificuldade:muito baixo
Ações recomendadas:
Documentos de clique de conhecimento da tarefa 1 - Documentos em nuvem Feishu (feishu.cn)
A Tradução Automática (MT) é um ramo importante na área de processamento de linguagem natural. Seu objetivo é.Converta automaticamente texto de um idioma para texto em outro idioma
Método de tradução automática: baseado em regras -> baseado em estatísticas -> aprendizado profundo
Orientado por regras-> Orientado por dados-> Driver inteligente
Tradução automática baseada em regras (1950-1980): Os primeiros sistemas de tradução automática adotavam principalmente métodos baseados em regras, ou seja, usandoRegras gramaticais e dicionários escritos por linguistas para tradução .Este método requer uma compreensão profunda da gramática e do vocabulário da língua de origem e da língua de destino, mas é menos flexível e adaptável, dificultando o tratamento de estruturas linguísticas complexas e problemas de polissemia.
Tradução automática baseada em estatísticas (1990-2000) : Com a melhoria do desempenho do computador e o surgimento de corpora paralelos em grande escala, a tradução automática estatística começou a aumentar.este métodoAprenda automaticamente a correspondência entre os idiomas de origem e de destino, analisando grandes quantidades de texto bilíngue , realizando assim a tradução. A tradução automática estatística tem mostrado melhores resultados no tratamento da polissemia e da variação linguística, mas devido à sua dependência de grandes quantidades de dados de formação, tem suporte insuficiente para línguas com poucos recursos.
Tradução automática baseada em redes neurais (2010 até o presente) : A aplicação de métodos de redes neurais em tarefas de tradução automática remonta às décadas de 1980 e 1990. Porém, devido às limitações de recursos computacionais e escala de dados da época, o desempenho do método de rede neural era insatisfatório, de modo que seu desenvolvimento estagnou por muitos anos. Nos últimos anos, o rápido desenvolvimento da tecnologia de aprendizagem profunda promoveu o surgimento da Tradução Automática Neural (NMT). NMT usa modelos de redes neurais profundas, comoRede de memória de longo prazo (LSTM) e Transformer , pode aprender automaticamente o complexo relacionamento de mapeamento entre o idioma de origem e o idioma de destino sem projetar recursos ou regras manualmente. O NMT fez progressos significativos na qualidade, velocidade e adaptabilidade da tradução e tornou-se o método dominante no atual campo da tradução automática.
Em projetos de aprendizado de máquina e aprendizado profundo, o conjunto de dados é geralmente dividido em três partes: conjunto de treinamento (Conjunto de Treinamento), conjunto de desenvolvimento (Conjunto de Desenvolvimento, também chamado de conjunto de validação, Conjunto de Validação) e conjunto de teste (Conjunto de Teste)
conjunto de treinamento, modelo de treinamento
Conjunto de desenvolvimento para evitar que o modelo se ajuste demais ao conjunto de treinamento
Conjunto de testes, simule dados reais, verifique o efeito
Atualmentetradução automática neuralA tecnologia fez grandes avanços, masEm certos campos ou indústrias, o efeito da tradução não é ideal porque é difícil para a tradução automática garantir a consistência da terminologia. .Para resultados de tradução automática imprecisos, como terminologia, nomes de pessoas e lugares, etc., você podeCorrigir via dicionário de terminologia, evitando confusão ou ambiguidade e maximizando a qualidade da tradução.
Desafio de tradução automática baseado na intervenção do dicionário terminológico Selecione a tradução automática com o inglês como idioma de origem e o chinês como idioma de destino. Além de dados bilíngues de inglês para chinês, esta competição também oferece um dicionário terminológico inglês-chinês.As equipes participantes precisam começar com as amostras de dados de treinamento fornecidas com base emConstrução e treinamento de modelos de tradução automática multilíngue e fornecimento de resultados finais de tradução com base em conjuntos de testes e dicionários de termos
//RAG🤗
[!info] 🐵
- O **conjunto de treinamento** é usado para executar seu algoritmo de aprendizagem.
- conjunto de desenvolvimento Usado para ajustar parâmetros, selecionar recursos e tomar outras decisões sobre o algoritmo de aprendizagem.as vezes chamadoconjunto de validação cruzada hold-out。
- **Conjunto de testes** é usado para avaliar o desempenho do algoritmo, mas não altera o algoritmo ou os parâmetros de aprendizagem de acordo.
Para os arquivos de resultados de tradução do conjunto de testes enviados pelas equipes participantes, são utilizados indicadores de avaliação automática AZUL-4 Realizar avaliação e usar ferramentas específicasversão de código aberto sacrebleu。
[!info] 📘
o que éAZUL-4 ?
BLEU
, nome completoBilingual Evaluation Understudy
(substituição da avaliação bilíngue), é um生成语句
conduta评估的指标
. A pontuação BLEU é um artigo de 2002 de Kishore Papineni et al.《BLEU: um método para avaliação automática de tradução automática》proposto em.
No campo da tradução automática, o BLEU (Bilingual Evaluation Understudy) é um indicador de avaliação automática comumente usado para medirSemelhança entre uma tradução gerada por computador e um conjunto de traduções de referência .Este indicador presta especial atençãon-gramas Uma correspondência exata de (n palavras consecutivas) pode ser considerada uma estimativa estatística da precisão e fluência da tradução. Ao calcular a pontuação BLUE, a frequência de n gramas no texto gerado é primeiro contada e, em seguida, essas frequências são comparadas com os n gramas no texto de referência. Se a tradução gerada contiver os mesmos n-gramas que aparecem na tradução de referência, ela será considerada uma correspondência. A pontuação AZUL final é um valor entre 0 e 1, onde 1 representa uma correspondência perfeita com a tradução de referência e 0 representa nenhuma correspondência.
AZUL-4 Em particular, refere-se a levar em conta a correspondência de quádruplos (ou seja, quatro palavras consecutivas) no cálculo.
AZUL Características dos indicadores de avaliação:
Além da tradução, a pontuação BLEU combinada com métodos de aprendizagem profunda pode ser aplicada a outros problemas de geração de linguagem, tais como: geração de linguagem, geração de títulos de imagem, resumo de texto e reconhecimento de fala.
Vou usar apenas a Magic Tower de agora em diante, um laptop de 8GB não vai aguentar.
Examinei brevemente o código e os dados, mas não entendi muito bem.
Adivinhe, durante o processo de tradução, várias opções são recuperadas do dicionário para cada palavra, e aquela com maior probabilidade de combinação é o resultado da tradução?