Partage de technologie

notes pour la tâche NLP 1 du 2e camp d'été de Datawhale

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

//J'ai écrit cette note en obsidian et je l'ai copiée ici. Le format étrange de cette note est dû au manque de plugins obsidian.


Mots clés:

  • Étude sur l'IA
  • ML
    statut : terminé

Cible: Parcourez la ligne de base, expérimentez le processus de résolution de problèmes du modèle PNL, comprenez essentiellement les exigences des questions du concours et comprenez le scénario du concours
difficulté:très lent
Étapes recommandées :

  1. Soumettez selon la documentation et obtenez le premier score
  2. Comprendre le format de soumission des questions du concours
  3. Formats de données liés à la formation du modèle
  4. Enregistrez la première partition et essayez de prendre des notes

Tâche 1 Documents Knowledge Click - Documents Feishu Cloud (feishu.cn)

brève histoire du ML

La traduction automatique (MT) est une branche importante dans le domaine du traitement du langage naturel. Son objectif est de :Convertir automatiquement le texte d'une langue en texte dans une autre langue

Méthode de traduction automatique : basée sur des règles -> basée sur des statistiques -> apprentissage profond
Piloté par des règles-> Piloté par les données-> Pilote intelligent

Traduction automatique basée sur des règles (années 1950-1980): Les premiers systèmes de traduction automatique adoptaient principalement des méthodes basées sur des règles, c'est-à-dire utilisantRègles de grammaire et dictionnaires rédigés par des linguistes pour la traduction .Cette méthode nécessite une compréhension approfondie de la grammaire et du vocabulaire de la langue source et de la langue cible, mais elle est moins flexible et adaptable, ce qui rend difficile le traitement des structures linguistiques complexes et des problèmes de polysémie.

Traduction automatique basée sur des statistiques (années 1990-2000) : Avec l'amélioration des performances informatiques et l'émergence de corpus parallèles à grande échelle, la traduction automatique statistique a commencé à se développer.cette méthodeApprenez automatiquement la correspondance entre les langues source et cible en analysant de grandes quantités de textes bilingues , réalisant ainsi la traduction. La traduction automatique statistique a montré de meilleurs résultats dans la gestion de la polysémie et des variations linguistiques, mais en raison de sa dépendance à de grandes quantités de données de formation, elle ne prend pas suffisamment en charge les langues pauvres en ressources.

Traduction automatique basée sur les réseaux de neurones (années 2010 à aujourd'hui) : L'application des méthodes de réseaux neuronaux dans les tâches de traduction automatique remonte aux années 1980 et 1990. Cependant, en raison des limites des ressources informatiques et de l'échelle des données à l'époque, les performances de la méthode des réseaux neuronaux n'étaient pas satisfaisantes, de sorte que son développement a stagné pendant de nombreuses années. Ces dernières années, le développement rapide de la technologie d’apprentissage profond a favorisé l’essor de la traduction automatique neuronale (NMT). NMT utilise des modèles de réseaux neuronaux profonds tels queRéseau de mémoire à long terme (LSTM) et Transformer , peut apprendre automatiquement la relation de mappage complexe entre la langue source et la langue cible sans concevoir manuellement de fonctionnalités ou de règles. La NMT a fait des progrès significatifs en termes de qualité, de rapidité et d’adaptabilité de la traduction, et est devenue la méthode dominante dans le domaine actuel de la traduction automatique.

Partition de données

Dans les projets d'apprentissage automatique et d'apprentissage profond, l'ensemble de données est généralement divisé en trois parties : l'ensemble d'entraînement (Training Set), l'ensemble de développement (Development Set, également souvent appelé ensemble de validation, Validation Set) et l'ensemble de test (Test Set).

ensemble de formation, modèle de formation
Ensemble de développement pour empêcher le modèle de surajuster à l'ensemble de formation
Testez l'ensemble, simulez des données réelles, vérifiez l'effet

Analyse des questions de concurrence

Contexte de l'événement

maintenanttraduction automatique neuronaleLa technologie a fait de grandes avancées, maisDans certains domaines ou industries, l’effet de traduction n’est pas idéal car il est difficile pour la traduction automatique d’assurer la cohérence de la terminologie. .Pour les résultats de traduction automatique inexacts tels que la terminologie, les noms de personnes et de lieux, etc., vous pouvezCorriger via le dictionnaire terminologique, évitant toute confusion ou ambiguïté et maximisant la qualité de la traduction.

Tâches événementielles

Défi de traduction automatique basé sur l’intervention d’un dictionnaire terminologique Sélectionnez la traduction automatique avec l'anglais comme langue source et le chinois comme langue cible. Outre les données bilingues de l'anglais vers le chinois, ce concours propose également un dictionnaire terminologique anglais-chinois.Les équipes participantes doivent partir des échantillons de données de formation fournis sur la base deConstruction et formation de modèles de traduction automatique multilingues, et fourniture des résultats de traduction finaux basés sur des ensembles de tests et des dictionnaires de termes

//RAG🤗

Données de compétition

  • Ensemble de formation : données bilingues - plus de 140 000 paires de phrases bilingues en chinois et en anglais
  • Ensemble de développement : 1000 paires de phrases bilingues anglais-chinois
  • Ensemble de tests : 1 000 paires de phrases bilingues anglais-chinois
  • Dictionnaire terminologique : 2226 termes en anglais et chinois

[!info] 🐵

  • L'**ensemble d'entraînement** est utilisé pour exécuter votre algorithme d'apprentissage.
  • ensemble de développement Utilisé pour ajuster les paramètres, sélectionner des fonctionnalités et prendre d'autres décisions concernant l'algorithme d'apprentissage.appelé quelques foisensemble de validation croisée à conserver
  • **L'ensemble de tests** est utilisé pour évaluer les performances de l'algorithme, mais ne modifie pas l'algorithme d'apprentissage ou les paramètres en conséquence.

Indicateurs d'évaluation

Pour les fichiers de résultats de traduction des ensembles de tests soumis par les équipes participantes, des indicateurs d'évaluation automatiques sont utilisés BLEU-4 Effectuer une évaluation et utiliser des outils spécifiquessacrebleu version open source

[!info] 📘
qu'est-ce queBLEU-4 ?

BLEU, nom et prénomBilingual Evaluation Understudy(remplacement d'évaluation bilingue), est un生成语句conduire评估的指标 . Le score BLEU est un article de 2002 de Kishore Papineni et al.« BLEU : une méthode d'évaluation automatique de la traduction automatique »proposé dans.

Dans le domaine de la traduction automatique, BLEU (Bilingual Evaluation Understudy) est un indicateur d'évaluation automatique couramment utilisé pour mesurerSimilarité entre une traduction générée par ordinateur et un ensemble de traductions de référence .Cet indicateur accorde une attention particulière àn-grammes Une correspondance exacte de (n mots consécutifs) peut être considérée comme une estimation statistique de l’exactitude et de la fluidité de la traduction. Lors du calcul du score BLEU, la fréquence des n-grammes dans le texte généré est d'abord comptée, puis ces fréquences sont comparées aux n-grammes dans le texte de référence. Si la traduction générée contient les mêmes n-grammes que ceux qui apparaissent dans la traduction de référence, elle est considérée comme une correspondance. Le score BLEU final est une valeur comprise entre 0 et 1, où 1 représente une correspondance parfaite avec la traduction de référence et 0 représente aucune correspondance du tout.

BLEU-4 Il s'agit notamment de prendre en compte la correspondance des quadruples (c'est-à-dire quatre mots consécutifs) lors du calcul.

BLEU Caractéristiques des indicateurs d'évaluation :

  • Avantages : vitesse de calcul rapide, faible coût de calcul, facile à comprendre, indépendant du langage spécifique et fortement corrélé à l'évaluation humaine.
  • Inconvénients : la précision de l'expression linguistique (grammaire) n'est pas prise en compte ; la précision de l'évaluation sera perturbée par les mots couramment utilisés ; la précision de l'évaluation des phrases courtes traduites n'est parfois pas prise en compte, ce qui peut conduire au refus ; de traductions raisonnables.

En plus de la traduction, la notation BLEU combinée aux méthodes d'apprentissage profond peut être appliquée à d'autres problèmes de génération de langage, tels que : la génération de langage, la génération de titres d'images, le résumé de texte et la reconnaissance vocale.

Réflexions après les cours

Je n'utiliserai plus que la Magic Tower à partir de maintenant, un ordinateur portable de 8 Go ne pourra pas le gérer.
J'ai brièvement regardé le code et les données, mais je ne les comprends pas bien.
Devinez, pendant le processus de traduction, plusieurs options sont-elles extraites du dictionnaire pour chaque mot, et celle avec la probabilité de combinaison la plus élevée est-elle le résultat de la traduction ?