Compartir tecnología

Aplicación de modelo de lenguaje grande: implementación de ingeniería de IA

2024-07-11

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


De hecho, el rápido desarrollo de la IA en los últimos años ha tenido un gran impacto. Sin embargo, de hecho, la IA no ha cruzado completamente la frontera y todavía sólo se "autopromociona" en un pequeño círculo.Pero es muy diferente a antes.
Este artículo se centrará en el estado actual de los modelos grandes y hablará sobre aspectos relacionados con la implementación de ingeniería. También se basa en inspiración y resumen.

No entraré en demasiados detalles sobre la IA en sí aquí, sino que me centraré más en las aplicaciones de nivel superior.

Descripción general de modelos de lenguaje grandes

Cuando hablamos de un modelo de lenguaje grande, nos referimos a una pieza de software que puede "hablar" de manera similar al lenguaje humano.Estos modelos son sorprendentes: son capaces de tomar contexto y generar respuestas que no sólo son coherentes sino que parecen provenir de humanos reales.
Estos modelos de lenguaje funcionan analizando grandes cantidades de datos de texto y patrones de aprendizaje en el uso del lenguaje.Explotan estos patrones para generar texto que es casi indistinguible de lo que dicen o escriben los humanos.
Si alguna vez conversó con un asistente virtual o interactuó con un agente de servicio al cliente de IA, probablemente haya interactuado con un modelo de lenguaje grande sin siquiera darse cuenta. ¡Estos modelos tienen una amplia gama de aplicaciones, desde chatbots hasta traducción de idiomas y contenido! creación y más

¿Qué es un modelo de lenguaje grande?

  • definición : Large Language Model (LLM) es un modelo de procesamiento de lenguaje natural (NLP) previamente entrenado, generalmente con miles de millones o incluso cientos de miles de millones de parámetros, capaz de comprender y generar texto en lenguaje natural.Los datos de entrenamiento para un modelo de lenguaje grande maduro son enormes.
  • Función: Los modelos de lenguaje grandes pueden realizar una variedad de tareas lingüísticas, como clasificación de texto, análisis de sentimientos, traducción automática, resumen de texto, sistemas de preguntas y respuestas, etc.
  • fundamento técnico: Basado en la arquitectura Transformer, utilizando el mecanismo de autoatención para procesar datos de secuencia
  • desarrollar: Desde los primeros RNN y LSTM hasta los modelos actuales como BERT y GPT, la cantidad de parámetros y el rendimiento han seguido mejorando.

¿Qué es el aprendizaje automático?

  • definición: El aprendizaje automático es una rama de la inteligencia artificial que permite a los sistemas informáticos aprender de los datos y tomar decisiones o predicciones sin estar programados explícitamente.
  • tipo: Incluye aprendizaje supervisado, aprendizaje no supervisado, aprendizaje semisupervisado y aprendizaje por refuerzo.
  • solicitud: Ampliamente utilizado en reconocimiento de imágenes, reconocimiento de voz, sistemas de recomendación, análisis predictivo y otros campos.
  • Conceptos clave: Selección de funciones, entrenamiento de modelos, sobreajuste y desajuste, evaluación de modelos, etc.

¿Qué es el aprendizaje profundo?

  • definición: El aprendizaje profundo es un subconjunto del aprendizaje automático que utiliza una estructura de red neuronal similar al cerebro humano para aprender patrones complejos de datos a través de transformaciones no lineales de múltiples capas (profundas).
  • componentes centrales: Capas de redes neuronales, funciones de activación, funciones de pérdida, algoritmos de optimización.
  • Arquitectura: Incluyendo red neuronal convolucional (CNN), red neuronal recurrente (RNN), red de memoria a corto plazo (LSTM) y transformador (Transformer), etc.
  • solicitud: Se han logrado avances revolucionarios en los campos del reconocimiento de imágenes y voz, el procesamiento del lenguaje natural, la conducción autónoma, etc.

Comprender modelos de lenguaje grandes

¿Por qué necesito abrir un capítulo separado para "comprender" los modelos de lenguaje grandes después de tener una descripción general de los modelos de lenguaje grandes anteriores? Porque esto le permitirá saber mejor qué es un modelo de lenguaje grande, comprender su límite superior y también. nos facilite mejorar la capa de aplicación.
En primer lugar, podemos decir de manera general que el aprendizaje automático consiste en encontrar una "función" compleja especial que pueda transformar nuestra entrada en la salida deseada. Por ejemplo, si esperamos ingresar 1 y generar 5 para ingresar 2 y generar 10, entonces esta función puede ser y = 2 * x.O si ingresamos una imagen de un gato, quiero que genere la palabra "gato", o si ingreso "hola", generará "hola", etc.

De hecho, esto puede considerarse esencialmente como un problema matemático. Por supuesto, el problema real será mucho más complicado que el ejemplo anterior.

Historia

1. En los primeros tiempos, la gente siempre quería hacer que las máquinas pensaran como personas. En ese momento, la gente promovía principalmente la "escuela de vuelo de pájaros", basada en la biónica, cuando la gente veía un pájaro volar, aprendía a volar aleteando. alas. Luego esperaban que la máquina hiciera lo mismo. Pero este efecto no es muy bueno. No existe un "conocimiento del mundo" (el conocimiento del mundo es el conocimiento predeterminado en su cerebro que es bien conocido e instintivo sin pensar). Es enorme y es difícil resolver el problema de los múltiples significados en una palabra.En términos generales, es demasiado complejo para imitar el cerebro humano y es difícil lograrlo simplemente utilizando códigos y funciones.

2. Era de la Inteligencia Artificial 2.0: implementación basada en datos de la “inteligencia artificial basada en estadísticas”. ¿Por qué han surgido todo tipo de modelos grandes como hongos después de una lluvia tras la aparición de GPT3? De hecho, la mayoría de las empresas han estado investigando la IA durante mucho tiempo, pero en los primeros días, todos cruzaban el río sintiendo las piedras. Aunque había muchos planes e ideas, no se atrevían a aumentar su inversión en sementales. Todos estaban dentro de un alcance limitado. La aparición de GPT3 permitió a todos ver que un determinado método es factible, que consiste en utilizar cantidades masivas de datos para calcular estadísticas. Los cambios en el uso conducen a cambios cualitativos, por lo que en los casos exitosos, todos sabían que este método era factible, por lo que todos. Empezó Incrementar la inversión y tomar este camino.

3. Los macrodatos pueden hacer que el nivel de inteligencia de las máquinas avance; la mayor importancia del uso de grandes cantidades de datos es permitir que las computadoras completen cosas que solo los humanos podían hacer en el pasado.

  • Idea central: basándose en información estadística en una gran cantidad de datos, "entrenar parámetros" para que se ajusten a los resultados (la esencia es "estadística" en lugar de "biónica")
  • Principales ventajas: a medida que se acumula la cantidad de datos, el sistema seguirá mejorando y será cada vez mejor;
  • Elementos centrales: “big data”, big data masivo, multidimensional e integral
  • "Aprendizaje de memoria" basado en big data masivos, multidimensionales e integrales;
    A través de la inteligencia artificial estadística, los "problemas de inteligencia" se transforman en "problemas de datos", haciendo que la informática
    Las máquinas pueden resolver "problemas inciertos" aprendiendo de big data

Lo esencial

De modo que la clave del problema pasa a ser una cuestión de probabilidad. Actualmente, los modelos grandes calculan una probabilidad a partir de datos masivos para determinar la probabilidad más alta del siguiente texto o de un determinado párrafo de texto en el medio, y luego lo generan.De hecho, la esencia no es generar cosas nuevas, sino razonar.

Por ejemplo, pregúntele dónde está la capital de China.La palabra clave extraída a través del algoritmo es que la capital de China es
Luego, el modelo grande calcula a partir de datos masivos que la capital de China es la palabra más probable seguida por Beijing, por lo que generará el resultado correcto.

Los modelos grandes se basan en el "aprendizaje de memoria" de cantidades masivas de datos para lograr las capacidades actuales.
Por lo tanto, la calidad de los datos para entrenar modelos grandes también es muy crítica. Al mismo tiempo, casi podemos pensar en el límite superior de los modelos grandes.

sistema AIGC

AIGC, o contenido generado por inteligencia artificial, es una tecnología que utiliza algoritmos de aprendizaje automático para generar automáticamente varios tipos de contenido, incluidos texto, imágenes, audio y video. Al analizar grandes cantidades de datos, los sistemas AIGC aprenden patrones de lenguaje, visuales y de audio para crear contenido nuevo que sea similar o incluso indistinguible del contenido creado por humanos.
Es probable que todo el trabajo digital sea subvertido por los "grandes modelos"
La mayor parte de nuestro trabajo actual en la capa de aplicación pertenece al sistema AIGC.
Después de GPT3.5, los modelos grandes ya pueden utilizar herramientas.
• Complementos y redes: compensan la falta de memoria del modelo grande en sí, lo que marca el inicio oficial del aprendizaje del LLM sobre el uso de herramientas.
• Función: LLM aprende a llamar a API para completar tareas complejas, que es el trabajo principal de los ingenieros de back-end (dar instrucciones a Gorilla llamará automáticamente a difusión y otros modelos para implementar tareas multimodales como dibujo y diálogo).
• Deje que el modelo "piense": oriente a los modelos grandes para que tengan capacidades lógicas, el núcleo está en: "Herramienta de memoria de planificación"

Implementación de proyectos de ingeniería de IA.

De hecho, la implementación de proyectos de IA es la misma que la de los proyectos ordinarios. El núcleo del establecimiento inicial del proyecto debe ser comprender claramente los problemas centrales que el proyecto pretende resolver, luego expandir el pensamiento y luego implementarlo. análisis de demanda, selección de tecnología, etc.No somos muy buenos diseñando modelos grandes para la investigación en la capa de aplicación. Por lo general, llamamos directamente a API o implementamos modelos grandes locales de código abierto.

como aterrizar

Proyecto inmediato (Fase 1)

Cualquiera que haya estado un poco expuesto a la IA puede conocer las indicaciones. En 2022-2023, la investigación inicial sobre la IA todavía se basará en esto, es decir, cómo hacer preguntas para que la IA comprenda mejor su significado y preste atención a su clave. puntos y luego proporcionar respuestas de mejor calidad.
El umbral es relativamente bajo y la mayoría de las aplicaciones de modelos grandes están diseñadas con Prompt.Poder satisfacer algunas necesidades depende de las capacidades del modelo básico.

Búsqueda RAG (segunda etapa)

RAG (Retrieval-Augmented Generation) es una tecnología de inteligencia artificial que combina modelos de recuperación y modelos de generación. Mejora las capacidades de respuesta de grandes modelos de lenguaje (LLM) al recuperar información relevante de una base de conocimientos o base de datos y combinarla con consultas de los usuarios. La tecnología RAG puede mejorar la precisión y relevancia de las aplicaciones de IA, especialmente en escenarios que tratan con conocimientos de dominios específicos o requieren la información más reciente.
El principio de funcionamiento de RAG incluye principalmente dos pasos:

  1. Recuperación: basándose en la consulta del usuario, RAG utiliza el modelo de recuperación para buscar y extraer la información o documentos más relevantes en la base de conocimiento.
  2. Generación: la información recuperada se utiliza como entrada para el modelo de generación, junto con la consulta del usuario, a partir de la cual el modelo de generación genera respuestas o contenido.
    Las ventajas de la tecnología RAG son:
    • Actualización de conocimientos: capacidad de acceder a la información más reciente, no solo al conocimiento, durante la capacitación del modelo.
    • Reducir las alucinaciones: reducir la tendencia de LLM a generar información inexacta o falsa mediante la ayuda de fuentes de conocimiento externas.
    • Seguridad de los datos: permite a las empresas utilizar datos privados sin cargarlos en plataformas de terceros.
    • Rentable: RAG proporciona una solución más económica que volver a capacitar o ajustar modelos grandes
Entrenamiento de modelos específicos de funciones (Fase 3)

Sin embargo, este umbral es relativamente alto y existen ciertos requisitos de potencia informática, datos y algoritmos.

Diseño de negocio implementado.

Paso uno: ideación y exploración

Objetivo: realizar una verificación de viabilidad, diseñar un prototipo basado en los requisitos comerciales y crear PromptFlow para probar los supuestos clave.

  • Entrada principal: objetivos comerciales claros
  • Resultado clave: verificar si el modelo de lenguaje grande (LLM) puede cumplir con los requisitos de la tarea, establecer o negar suposiciones clave
  • Planes de acción clave:
    • Defina claramente los casos de uso empresarial
    • Seleccione un modelo grande básico adecuado y prepare los datos necesarios para ajustes posteriores (SFT) u otros usos.
    • Diseñar y construir PromptFlow, formular y probar hipótesis de viabilidad.
Paso 2: construir y mejorar

Objetivo: Evaluar la solidez de las soluciones en una gama más amplia de conjuntos de datos y mejorar el rendimiento del modelo mediante técnicas como el ajuste fino (SFT) y la generación de recuperación aumentada (RAG).

  • Aporte principal: objetivos comerciales combinados con un plan preliminar (resultados del paso 1)
  • Resultado clave: una solución empresarial madura, lista para implementarse en un sistema de producción.
  • Planes de acción clave:
    • Verifique la efectividad de PromptFlow en datos de muestra
    • Evalúe y optimice PromptFlow y explore mejores indicaciones y herramientas
    • Si se logran los objetivos esperados, amplíelo a un conjunto de datos más grande para realizar pruebas y mejore aún más el efecto a través de SFT, RAG y otras tecnologías.
Paso 3: Continuar las operaciones

Objetivo: Garantizar el funcionamiento estable del sistema AIGC, integrar los sistemas de monitoreo y alarma y lograr una integración y un despliegue continuos (CI/CD)

  • Entrada principal: un sistema AIGC capaz de resolver un problema específico
  • Productos clave: Procedimientos a nivel de producción que integran sistemas de monitoreo y alerta, y procesos de CI/CD.
  • Planes de acción clave:
    • Implementar el sistema AIGC
    • Integre capacidades de monitoreo y alertas para garantizar que las capacidades del sistema estén integradas en las aplicaciones.
    • Establecer un mecanismo de operación de la aplicación, incluida la iteración, implementación y actualización continuas.
      A través de este proceso, garantizamos que cada paso, desde la prueba de concepto hasta la implementación de producción, sea preciso, controlable y esté impulsado por objetivos comerciales.

tecnología rápida

1. El papel impulsor de los principales fragmentos de contenido

Los fragmentos de contenido principal son la base textual que se utiliza junto con instrucciones para aumentar significativamente su eficacia.

  1. Definición de contenido principal:
    • El contenido principal es el texto central del procesamiento o transformación del modelo, generalmente acompañado de instrucciones para lograr objetivos específicos.
  2. Ejemplos de aplicación:
    • Ejemplo 1: proporcione un fragmento de texto de Wikipedia [texto] con la instrucción "Resuma el contenido anterior".
    • Ejemplo 2: Dada una tabla que contiene información sobre cervezas [texto], la instrucción es "Enumere todas las cervezas en la tabla con un grado inferior a 6 grados".

2. Estrategia de implementación del contenido principal.

Métodos específicos para lograr el contenido principal, que incluyen:

  • Ejemplo: permite que el modelo infiera de forma autónoma las acciones que deben realizarse proporcionando ejemplos de cómo completar una tarea en lugar de instrucciones directas.
  • Señal: utilice instrucciones con pistas para guiar al modelo a razonar paso a paso para llegar a la respuesta.
  • Plantillas: proporciona recetas rápidas reutilizables con marcadores de posición, lo que permite la personalización para casos de uso específicos.

3. El poder de los ejemplos (Ejemplo)

Al mostrarle al modelo cómo generar resultados en función de instrucciones dadas, el modelo puede inferir patrones de resultados, ya sea aprendizaje de disparo cero, de un disparo o de pocos disparos.

  • componente:
    • Descripción general de la misión.
    • Un ejemplo de un rango de resultados deseados.
    • Una guía de nuevos ejemplos que sirven como punto de partida para tareas posteriores.

4. El papel rector de las pistas (Cue)

Proporcionar pistas a modelos grandes para guiarlos en el razonamiento lógico en una dirección clara es similar a proporcionar una fórmula paso a paso para ayudar al modelo a obtener la respuesta gradualmente.

5. Valor de personalización de las plantillas (Plantilla)

El valor de las plantillas radica en la creación y publicación de bibliotecas de indicaciones para áreas de aplicación específicas que han sido optimizadas para el contexto o ejemplo específico de la aplicación.

  • Consejo de optimización: haga que las respuestas sean más relevantes y precisas para su grupo de usuarios objetivo.
  • Referencia de recursos: la página de muestra de la API de OpenAI proporciona una gran cantidad de recursos de plantillas.
  • Asignación de roles del modelo: mejore la comprensión del modelo sobre la relevancia de la tarea especificando los roles de identidad del modelo (como sistema, usuario, asistente, etc.).

Ejemplos de indicaciones avanzadas

# 职位描述:数据分析助手
## 角色
我的主要目标是为用户提供专家级的数据分析建议。利用详尽的数据资源,告诉我您想要分析的股票(提供股票代码)。我将以专家的身份,为您的股票进行基础分析、技
术分析、市场情绪分析以及宏观经济分析。
## 技能
### 技能1:使用Yahoo Finance的'Ticker'搜索股票信息
### 技能2:使用'News'搜索目标公司的最新新闻
### 技能3:使用'Analytics'搜索目标公司的财务数据和分析
## 工作流程
询问用户需要分析哪些股票,并按顺序执行以下分析:
**第一部分:基本面分析:财务报告分析
*目标1:对目标公司的财务状况进行深入分析。
*步骤:
1. 确定分析对象: