Evolución del modelo de lenguaje: un viaje de la PNL al LLM

2024-07-12

En el vasto universo de la inteligencia artificial, el procesamiento del lenguaje natural (PNL) siempre ha sido un área llena de desafíos y oportunidades. A medida que la tecnología evoluciona, hemos sido testigos de una evolución desde las reglas tradicionales hasta el aprendizaje automático estadístico, el aprendizaje profundo y los modelos previamente entrenados. Hoy nos encontramos en el umbral de los grandes modelos de lenguaje (LLM), que están redefiniendo la forma en que nos comunicamos con las máquinas. Este artículo profundizará en la historia del desarrollo, la hoja de ruta técnica y el impacto de LLM en el futuro campo de la IA.

introducción

El objetivo del procesamiento del lenguaje natural (PNL) es permitir que las máquinas comprendan, interpreten y generen el lenguaje humano. El desarrollo de este campo ha pasado por varias etapas importantes, cada una de las cuales marcó un salto en la profundidad de la comprensión del lenguaje. Desde los primeros sistemas basados en reglas hasta los métodos de aprendizaje estadístico, los modelos de aprendizaje profundo y los grandes modelos de lenguaje (LLM) actuales, cada paso es una trascendencia de la etapa anterior.
Insertar descripción de la imagen aquí

De las reglas a las estadísticas: primeras exploraciones en PNL

Etapa de reglas (1956-1992)

En los primeros días de la PNL, los investigadores dependían de reglas escritas a mano para procesar el lenguaje. La pila de tecnología en esta etapa incluye máquinas de estados finitos y sistemas basados en reglas. Por ejemplo, Apertium es un sistema de traducción automática basado en reglas, que muestra cómo los primeros investigadores pueden lograr la traducción automática de idiomas organizando diccionarios y escribiendo reglas manualmente.
Insertar descripción de la imagen aquí

Etapa de aprendizaje automático estadístico (1993-2012)

Con el tiempo, los investigadores comenzaron a recurrir a métodos de aprendizaje estadístico, utilizando herramientas como máquinas de vectores de soporte (SVM), modelos ocultos de Markov (HMM), modelos de máxima entropía (MaxEnt) y campos aleatorios condicionales (CRF). Esta etapa se caracteriza por la combinación de una pequeña cantidad de datos de dominio etiquetados manualmente y la ingeniería de funciones manual, lo que marca la transición de reglas escritas a mano a máquinas que aprenden automáticamente conocimientos a partir de los datos.
Insertar descripción de la imagen aquí

Avances en el aprendizaje profundo: abriendo una nueva era

Etapa de aprendizaje profundo (2013-2018)

El surgimiento del aprendizaje profundo ha traído cambios revolucionarios a la PNL. Las tecnologías representadas por codificador-decodificador, red de memoria a corto plazo (LSTM), atención e incrustación permiten que el modelo maneje conjuntos de datos más grandes casi sin esfuerzo. El sistema de traducción automática neuronal de Google (2016) es un trabajo representativo de esta etapa.
Insertar descripción de la imagen aquí

El auge de los modelos preentrenados: el autodescubrimiento del conocimiento

Fase previa a la formación (2018-2022)

La aparición de modelos previamente entrenados marca otro salto en el campo de la PNL. La pila de tecnología con Transformer y mecanismo de atención como núcleo combina datos masivos sin etiquetar para el aprendizaje autosupervisado, genera conocimiento general y luego se adapta a tareas específicas mediante ajustes. La variabilidad de esta etapa es muy alta porque amplía la gama de datos disponibles desde datos etiquetados hasta datos no etiquetados.
Insertar descripción de la imagen aquí

Una nueva era del LLM: la fusión de inteligencia y versatilidad

Etapa LLM (2023-?)

LLM representa el último desarrollo de modelos de lenguaje, que generalmente adoptan una arquitectura basada en decodificador combinada con Transformer y Reinforcement Learning Human Feedback (RLHF). Esta fase se caracteriza por un proceso de dos etapas: preentrenamiento y alineación con los humanos. La fase de preentrenamiento utiliza datos masivos sin etiquetar y datos de dominio para generar conocimiento a través del aprendizaje autosupervisado; la fase de alineación humana permite que el modelo se adapte a diversas tareas alineando hábitos y valores de uso.
Insertar descripción de la imagen aquí
Si analizamos las distintas etapas de desarrollo, podemos ver las siguientes tendencias:

Datos: De los datos al conocimiento, cada vez se utilizan más datos/futuro:Más datos de texto, más datos de otros formularios →cualquier dato
Algoritmo: la capacidad de expresión es cada vez más fuerte; la escala es cada vez mayor; la capacidad de aprendizaje independiente se hace cada vez más fuerte de profesional a general;futuro:Transformer es actualmente suficiente, ¿nuevo modelo (se debe enfatizar la eficiencia del aprendizaje)?→AGI?
Relación hombre-máquina: retroceder, de instructor a supervisor/futuro:Colaboración hombre-máquina, aprendizaje automático de humanos → ¿Aprendizaje humano de máquinas? → Las máquinas amplían los límites del conocimiento humano

Insertar descripción de la imagen aquí

Ruta de desarrollo tecnológico LLM: caminos diversos

En los últimos años, el desarrollo de la tecnología LLM ha mostrado caminos diversificados, incluido el modo BERT, el modo GPT y el modo T5, etc. Cada modo tiene sus propias características y escenarios aplicables.
Insertar descripción de la imagen aquí

Modo BERT (solo codificador)

El modelo BERT es adecuado para tareas de comprensión del lenguaje natural a través de un proceso de dos etapas de preentrenamiento del modelo de lenguaje bidireccional y ajuste fino de tareas (preentrenamiento del modelo de lenguaje bidireccional + ajuste fino de tareas). La capacitación previa de BERT extrae el conocimiento general de los datos generales, mientras que el ajuste extrae el conocimiento del dominio de los datos del dominio.
Insertar descripción de la imagen aquí
Escenarios de tareas adecuados: más adecuados para la comprensión del lenguaje natural, tareas específicas en un determinado escenario, especializadas y ligeras;

Modo GPT (solo decodificador)

El modo GPT se desarrolla a partir del proceso de preentrenamiento del modelo de lenguaje unidireccional y de instrucción o indicación de cero disparos/pocos disparos (preentrenamiento del modelo de lenguaje unidireccional + disparo cero/pocos disparos/instrucción), y es adecuado para Generación de lenguaje. Los modelos en modo GPT suelen ser los LLM más grandes disponibles y pueden manejar una gama más amplia de tareas.
Insertar descripción de la imagen aquí
Escenarios aplicables: más adecuado para tareas de generación de lenguaje natural. Actualmente, los LLM más grandes están todos en este modo: serie GPT, PaLM, LaMDA..., se recomienda repetir y aprobar para tareas de generación/modelos generales;

Modo T5 (Codificador-Decodificador)

El modo T5 combina las características de BERT y GPT y es adecuado para tareas de generación y comprensión. La tarea de completar espacios en blanco en modo T5 (Span Corruption) es un método de preentrenamiento eficaz que funciona bien en tareas de comprensión del lenguaje natural. Dos etapas (preentrenamiento del modelo de lenguaje unidireccional + ajuste principalmente)
Insertar descripción de la imagen aquí
Características: Parece GPT, parece Bert
Escenarios aplicables: tanto la generación como la comprensión son aceptables desde el punto de vista del efecto, si se trata de una tarea de comprensión del lenguaje natural en un solo campo, muchos LLM a gran escala en China adoptan este modo. , se recomienda utilizar el modo T5;
Insertar descripción de la imagen aquí

¿Por qué los LLM muy grandes están en modo GPT?

Super LLM: búsqueda de efectos de disparo cero/pocos disparos/instrucciones
Conclusiones de la investigación actual.

(Cuando el tamaño del modelo es pequeño):

Categoría de comprensión del lenguaje natural: el modo T5 funciona mejor.
Clase de generación de lenguaje natural: el modo GPT funciona mejor.
Disparo cero: el modo GPT funciona mejor.
Si se introduce un ajuste fino de tareas múltiples después del entrenamiento previo, el modo T5 funcionará mejor (la conclusión es cuestionable: el codificador-decodificador experimental actual tiene el doble de parámetros solo decodificador. ¿Es confiable la conclusión?)

Conclusiones de la investigación actual (a muy gran escala):
Hecho: casi todos los modelos LLM que superan los 100 B adoptan el modo GPT

razón posible:
1. La atención bidireccional en Codificador-Decodificador daña la capacidad de disparo cero (Verificar)
2. La estructura Codificador-Decodificador solo puede brindar atención al Codificador de alto nivel al generar Token. La estructura de solo Decodificador puede brindar atención capa por capa al generar Token, y la información es más detallada.
3. El codificador-decodificador entrena "llena los espacios en blanco" y genera la última palabra Siguiente token. Hay inconsistencias en los métodos de generación y entrenamiento de la estructura exclusiva del decodificador.

Desafíos y oportunidades de los LLM muy grandes

A medida que crece el tamaño del modelo, los investigadores se enfrentan al desafío de cómo utilizar eficazmente el espacio de parámetros. La investigación sobre el modelo Chinchilla muestra que cuando los datos son suficientes, la escala LLM actual puede ser mayor que la escala ideal y hay un desperdicio de espacio de parámetros. Sin embargo, Scaling Law también señala que cuanto mayor es la escala del modelo, más datos. Y cuanto más adecuada sea la formación, mejor será el efecto del modelo LLM. Una idea más factible es: hacerlo pequeño primero (GPT 3 no debería ser tan grande) y luego hacerlo grande (aprovechar al máximo los parámetros del modelo y luego continuar haciéndolo más grande).
Insertar descripción de la imagen aquí

Por supuesto, dado que el LLM multimodal requiere capacidades de percepción del entorno del mundo real más ricas, también plantea requisitos más altos para los parámetros del LLM.
LLM multimodal: entrada visual (imágenes, videos), entrada auditiva (audio), entrada táctil (presión)
Insertar descripción de la imagen aquí
enfrentando problemas: LLM multimodal parece bastante bueno y depende en gran medida de grandes conjuntos de datos organizados manualmente.

Por ejemplo, ALIGN: 1.8B de gráficos y texto/LAION: 5.8B de gráficos y datos de texto (filtrados por CLIP, actualmente los gráficos y datos de texto más grandes) ¿es actualmente texto con imágenes volando?

Procesamiento de imágenes: Se está probando la ruta técnica de autosupervisión, pero aún no ha tenido éxito (aprendizaje comparativo/MAE)/si se puede lograr con éxito, será otro gran avance tecnológico en el campo de la IA;

Si se puede resolver, se espera que algunas tareas actuales de comprensión de imágenes (segmentación/reconocimiento semántico, etc.) se integren en LLM y desaparezcan.

Insertar descripción de la imagen aquí

Mejorar las complejas capacidades de razonamiento de LLM

Aunque el LLM actual tiene ciertas capacidades de razonamiento simple, todavía tiene deficiencias en el razonamiento complejo. Por ejemplo, tareas como la suma de varios dígitos siguen siendo un desafío para LLM. Los investigadores están explorando cómo sintetizar capacidades de razonamiento complejas en modelos más pequeños mediante medios técnicos como la descomposición semántica.
Insertar descripción de la imagen aquí
Por supuesto, este problema también se puede solucionar mediante la subcontratación de capacidades, como combinarlas con herramientas: la potencia informática (calculadora externa), la consulta de nueva información (motor de búsqueda) y otras capacidades se completan con la ayuda de herramientas externas.
Insertar descripción de la imagen aquí

Interacción entre LLM y el mundo físico.

El concepto de inteligencia incorporada combina LLM con robótica y utiliza el aprendizaje por refuerzo para obtener inteligencia incorporada a través de la interacción con el mundo físico. . Por ejemplo, el modelo PaLM-E de Google combina 540 mil millones de PaLM y 22 mil millones de ViT, lo que demuestra el potencial de LLM en un entorno multimodal.
Insertar descripción de la imagen aquí

Otras direcciones de investigación

Adquisición de nuevos conocimientos: Existen ciertas dificultades en la actualidad, pero también existen algunos métodos (LLM+Recuperación)
Corrección de conocimientos antiguos: actualmente hay algunos resultados de investigación que aún deben optimizarse
Integración del conocimiento del dominio privado: ¿Ajustar?
Mejor comprensión de los comandos: todavía necesita optimización (sin sentido)
Reducción de los costos de inferencia de capacitación: rápido desarrollo en los próximos uno o dos años
Construcción de un conjunto de datos de evaluación chino: una prueba de fuego de capacidad. Actualmente existen algunos conjuntos de evaluación en inglés, como HELM/BigBench, etc., pero faltan conjuntos de datos de evaluación multitarea, de alta dificultad y de múltiples ángulos en chino.

Conclusión

Este artículo explora en profundidad la historia del desarrollo, la hoja de ruta técnica y su impacto en el futuro campo de la IA de LLM. El desarrollo de LLM no es solo un avance tecnológico, sino también un profundo reflejo de nuestras capacidades de comprensión de las máquinas. Desde reglas hasta estadísticas, aprendizaje profundo y capacitación previa, cada paso nos brinda nuevas perspectivas y herramientas. Hoy nos encontramos en el umbral de una nueva era de modelos lingüísticos a gran escala, enfrentando oportunidades y desafíos sin precedentes.

Compartir tecnología