Compartir tecnología

Notas para el segundo campamento de verano de Datawhale Tarea 1 de PNL

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

//Escribí esta nota en obsidian y la copié aquí. El formato extraño de esta nota se debe a la falta de complementos de obsidian.


etiquetas:

  • Estudio de IA
  • Ml
    Estado: hecho

Objetivo: Recorrer la línea de base, experimentar el proceso de resolución de problemas del modelo de PNL, comprender básicamente los requisitos de las preguntas de la competencia y comprender el escenario de la competencia.
dificultad:muy bajo
Pasos recomendados:

  1. Presentar según la documentación y obtener la primera puntuación.
  2. Comprender el formato para la presentación de preguntas del concurso.
  3. Formatos de datos relacionados con el entrenamiento de modelos.
  4. Consulta la primera partitura e intenta tomar notas.

Tarea 1 Documentos de clic de conocimiento: documentos en la nube de Feishu (feishu.cn)

Breve historia del ML

La traducción automática (MT) es una rama importante en el campo del procesamiento del lenguaje natural. Su objetivo es.Convertir automáticamente texto de un idioma a texto en otro idioma

Método de traducción automática: basado en reglas -> basado en estadísticas -> aprendizaje profundo
Basado en reglas->Basado en datos->Controlador inteligente

Traducción automática basada en reglas (décadas de 1950 a 1980): Los primeros sistemas de traducción automática adoptaron principalmente métodos basados ​​en reglas, es decir, utilizandoReglas gramaticales y diccionarios escritos por lingüistas para traducción .Este método requiere una comprensión profunda de la gramática y el vocabulario del idioma de origen y del idioma de destino, pero es menos flexible y adaptable, lo que dificulta el tratamiento de estructuras lingüísticas complejas y problemas de polisemia.

Traducción automática basada en estadísticas (décadas de 1990 a 2000) : Con la mejora del rendimiento de las computadoras y la aparición de corpus paralelos a gran escala, la traducción automática estadística ha comenzado a aumentar.este métodoAprenda automáticamente la correspondencia entre los idiomas de origen y de destino analizando grandes cantidades de texto bilingüe , realizando así la traducción. La traducción automática estadística ha mostrado mejores resultados en el manejo de la polisemia y la variación lingüística, pero debido a su dependencia de grandes cantidades de datos de entrenamiento, no tiene soporte suficiente para idiomas con pocos recursos.

Traducción automática basada en redes neuronales (década de 2010-presente) : La aplicación de métodos de redes neuronales en tareas de traducción automática se remonta a las décadas de 1980 y 1990. Sin embargo, debido a las limitaciones en los recursos informáticos y la escala de datos de la época, el rendimiento del método de red neuronal no fue satisfactorio, por lo que su desarrollo se estancó durante muchos años. En los últimos años, el rápido desarrollo de la tecnología de aprendizaje profundo ha promovido el auge de la traducción automática neuronal (NMT). NMT utiliza modelos de redes neuronales profundas comoRed de memoria a corto plazo (LSTM) y Transformer , puede aprender automáticamente la compleja relación de mapeo entre el idioma de origen y el idioma de destino sin diseñar funciones o reglas manualmente. NMT ha logrado avances significativos en la calidad, velocidad y adaptabilidad de la traducción, y se ha convertido en el método principal en el campo actual de la traducción automática.

partición de datos

En proyectos de aprendizaje automático y aprendizaje profundo, el conjunto de datos generalmente se divide en tres partes: conjunto de entrenamiento (Training Set), conjunto de desarrollo (Development Set, también llamado a menudo conjunto de validación, Validation Set) y conjunto de prueba (Test Set).

conjunto de entrenamiento, modelo de entrenamiento
Conjunto de desarrollo para evitar que el modelo se sobreajuste al conjunto de entrenamiento
Conjunto de prueba, simule datos reales, verifique el efecto

Análisis de preguntas de competencia.

Antecedentes del evento

Actualmentetraducción automática neuronalLa tecnología ha logrado grandes avances, peroEn determinados campos o industrias, el efecto de la traducción no es ideal porque a la traducción automática le resulta difícil garantizar la coherencia de la terminología. .Para obtener resultados de traducción automática inexactos, como terminología, nombres de personas y lugares, etc., puedeCorregir a través del diccionario terminológico, evitando confusiones o ambigüedades y maximizando la calidad de la traducción.

Tareas de eventos

Desafío de traducción automática basado en la intervención del diccionario terminológico Seleccione la traducción automática con inglés como idioma de origen y chino como idioma de destino. Además de datos bilingües del inglés al chino, este concurso también proporciona un diccionario de terminología inglés-chino.Los equipos participantes deben comenzar a partir de las muestras de datos de entrenamiento proporcionadas en función deConstrucción y entrenamiento de modelos de traducción automática multilingües y suministro de resultados de traducción finales basados ​​en conjuntos de pruebas y diccionarios de términos.

//RAG🤗

Datos de competencia

  • Conjunto de entrenamiento: datos bilingües: más de 140.000 pares de oraciones bilingües en chino e inglés
  • Conjunto de desarrollo: 1000 pares de oraciones bilingües inglés-chino
  • Conjunto de prueba: 1000 pares de oraciones bilingües inglés-chino
  • Diccionario terminológico: 2226 términos en inglés y chino

[!info] 🐵

  • El **conjunto de entrenamiento** se utiliza para ejecutar su algoritmo de aprendizaje.
  • conjunto de desarrollo Se utiliza para ajustar parámetros, seleccionar funciones y tomar otras decisiones sobre el algoritmo de aprendizaje.aveces llamadoconjunto de validación cruzada de reserva
  • **El conjunto de pruebas** se utiliza para evaluar el rendimiento del algoritmo, pero no cambia el algoritmo de aprendizaje ni los parámetros en consecuencia.

Indicadores de evaluación

Para los archivos de resultados de traducción del conjunto de pruebas enviados por los equipos participantes, se utilizan indicadores de evaluación automática. AZUL-4 Realizar evaluaciones y utilizar herramientas específicas.versión de código abierto sacrebleu

[!info] 📘
qué esAZUL-4 ?

BLEU, nombre completoBilingual Evaluation Understudy(reemplazo de evaluación bilingüe), es un生成语句conducta评估的指标 . La puntuación BLEU es un artículo de 2002 de Kishore Papineni et al.《BLEU: un método para la evaluación automática de la traducción automática》propuesto en.

En el campo de la traducción automática, BLEU (estudio de evaluación bilingüe) es un indicador de evaluación automática de uso común para medirSimilitud entre una traducción generada por computadora y un conjunto de traducciones de referencia .Este indicador presta especial atención an-gramas Una coincidencia exacta de (n palabras consecutivas) puede considerarse como una estimación estadística de la precisión y fluidez de la traducción. Al calcular la puntuación BLUE, primero se cuenta la frecuencia de los n-gramas en el texto generado y luego estas frecuencias se comparan con los n-gramas del texto de referencia. Si la traducción generada contiene los mismos n-gramas que aparecen en la traducción de referencia, se considera una coincidencia. La puntuación BLUE final es un valor entre 0 y 1, donde 1 representa una coincidencia perfecta con la traducción de referencia y 0 representa ninguna coincidencia.

AZUL-4 En particular, se refiere a tener en cuenta la coincidencia de cuádruples (es decir, cuatro palabras consecutivas) a la hora de realizar el cálculo.

AZUL Características de los indicadores de evaluación:

  • Ventajas: cálculo rápido, bajo costo de cálculo, fácil de entender, independiente del lenguaje específico y altamente correlacionado con la evaluación humana.
  • Desventajas: no se considera la precisión de la expresión del lenguaje (gramática); la precisión de la evaluación se verá interferida por palabras de uso común; la precisión de la evaluación de oraciones cortas traducidas a veces no se consideran sinónimos o expresiones similares, lo que puede llevar a la negación; de traducciones razonables.

Además de la traducción, la puntuación BLEU combinada con métodos de aprendizaje profundo se puede aplicar a otros problemas de generación de lenguaje, como: generación de lenguaje, generación de títulos de imágenes, resumen de texto y reconocimiento de voz.

Pensamientos después de clase

A partir de ahora usaré la Magic Tower, una computadora portátil de 8 GB no podrá manejarla.
Miré brevemente el código y los datos, pero no los entiendo del todo.
Adivina, durante el proceso de traducción, ¿recuperas varias opciones del diccionario para cada palabra y la que tiene la mayor probabilidad de combinación es el resultado de la traducción?