Compartilhamento de tecnologia

Aplicação de modelo de linguagem grande - implementação de engenharia de IA

2024-07-11

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


O rápido desenvolvimento da IA ​​nos últimos anos trouxe de facto um grande impacto. No entanto, na verdade, a IA não ultrapassou completamente a fronteira e ainda está apenas "auto-promovida" num pequeno círculo.Mas é muito diferente de antes.
Este artigo focará no status atual dos grandes modelos e falará sobre coisas relacionadas à implementação de engenharia. Também é baseado em inspiração e resumo.

Não entrarei em muitos detalhes sobre a IA em si aqui, mas me concentrarei mais em aplicativos de nível superior.

Visão geral de grandes modelos de linguagem

Quando falamos de um grande modelo de linguagem, estamos nos referindo a um software que pode “falar” de maneira semelhante à linguagem humana.Esses modelos são incríveis – eles são capazes de contextualizar e gerar respostas que não são apenas coerentes, mas que parecem vir de humanos reais
Esses modelos de linguagem funcionam analisando grandes quantidades de dados de texto e padrões de aprendizagem no uso da linguagem.Eles exploram esses padrões para gerar texto que é quase indistinguível do que os humanos dizem ou escrevem.
Se você já conversou com um assistente virtual ou interagiu com um agente de atendimento ao cliente de IA, provavelmente já interagiu com um grande modelo de linguagem sem nem perceber. Esses modelos têm uma ampla gama de aplicações, desde chatbots até tradução de idiomas e conteúdo! criação e muito mais

O que é um modelo de linguagem grande

  • definição : Large Language Model (LLM) é um modelo pré-treinado de processamento de linguagem natural (PNL), geralmente com bilhões ou mesmo centenas de bilhões de parâmetros, capaz de compreender e gerar texto em linguagem natural.Os dados de treinamento para um modelo maduro de linguagem grande são enormes.
  • Função: Grandes modelos de linguagem podem realizar uma variedade de tarefas linguísticas, como classificação de texto, análise de sentimento, tradução automática, resumo de texto, sistemas de perguntas e respostas, etc.
  • fundamento técnico: Baseado na arquitetura Transformer, usando o mecanismo de autoatenção para processar dados de sequência
  • desenvolver: Desde os primeiros RNN e LSTM até os modelos atuais, como BERT e GPT, o número de parâmetros e o desempenho continuaram a melhorar.

O que é aprendizado de máquina

  • definição: O aprendizado de máquina é um ramo da inteligência artificial que permite que sistemas de computador aprendam com dados e tomem decisões ou previsões sem serem explicitamente programados
  • tipo: Incluindo aprendizagem supervisionada, aprendizagem não supervisionada, aprendizagem semissupervisionada e aprendizagem por reforço
  • aplicativo: Amplamente utilizado em reconhecimento de imagem, reconhecimento de fala, sistemas de recomendação, análise preditiva e outros campos
  • Conceitos chave: Seleção de recursos, treinamento de modelo, overfitting e underfitting, avaliação de modelo, etc.

O que é aprendizagem profunda

  • definição: O aprendizado profundo é um subconjunto de aprendizado de máquina que usa uma estrutura de rede neural semelhante ao cérebro humano para aprender padrões complexos de dados por meio de transformações não lineares multicamadas (profundas).
  • Componentes do núcleo: Camadas de redes neurais, funções de ativação, funções de perda, algoritmos de otimização.
  • Arquitetura: Incluindo rede neural convolucional (CNN), rede neural recorrente (RNN), rede de memória de longo curto prazo (LSTM) e transformador (Transformador), etc.
  • aplicativo: Houve progresso revolucionário nas áreas de reconhecimento de imagem e fala, processamento de linguagem natural, direção autônoma, etc.

Compreendendo grandes modelos de linguagem

Por que preciso abrir um capítulo separado para "entender" os modelos de linguagem grande depois de ter uma visão geral dos modelos de linguagem grande acima? Porque isso permitirá que você saiba melhor o que é um modelo de linguagem grande, entenda seu limite superior e também pode? tornar mais fácil para nós melhorarmos a camada de aplicação.
Em primeiro lugar, podemos dizer de uma forma geral que o aprendizado de máquina consiste em encontrar uma "função" complexa especial que possa transformar nossa entrada na saída desejada. Por exemplo, se esperamos inserir 1 e gerar 5; inserir 2 e gerar 10, então esta função pode ser y=2*x.Ou se inserirmos a imagem de um gato, quero que a palavra "gato" seja exibida, ou se eu inserir "oi", será exibida "olá", etc.

Na verdade, isso pode ser considerado um problema matemático em essência. É claro que o problema real será muito mais complicado do que o exemplo acima.

História

1. No início, as pessoas sempre queriam fazer as máquinas pensarem como as pessoas. Naquela época, as pessoas promoviam principalmente a "escola de vôo de pássaros". asas. Então eles esperavam fazer as máquinas pensarem como um ser humano. Mas esse efeito não é muito bom. Não existe “conhecimento de mundo” (o conhecimento de mundo é o conhecimento padrão em seu cérebro que é bem conhecido e instintivo sem pensar). é enorme e é difícil resolver o problema dos múltiplos significados em uma palavra.De modo geral, é muito complexo imitar o cérebro humano e é difícil consegui-lo simplesmente usando códigos e funções.

2. Era da Inteligência Artificial 2.0: implementação orientada por dados de “inteligência artificial baseada em estatísticas”. Por que todos os tipos de modelos grandes surgiram como cogumelos após a chuva após o surgimento do GPT3? Na verdade, a maioria das empresas já pesquisa IA há muito tempo, mas no início todos atravessavam o rio sentindo as pedras. Embora houvesse muitos planos e pensamentos, não ousavam aumentar o investimento em garanhões. eles estavam todos dentro de um escopo limitado de pesquisa. O surgimento do GPT3 permitiu que todos vissem que um determinado método é viável, que consiste em usar grandes quantidades de dados para calcular estatísticas. Mudanças na quantidade levam a mudanças qualitativas. Então, com casos de sucesso, todos sabiam que esse método era viável, então todos. começou Aumentar o investimento e seguir esse caminho

3. O big data pode fazer avançar o nível de inteligência da máquina. O maior significado da utilização de grandes quantidades de dados é permitir que os computadores concluam coisas que apenas os humanos podiam fazer no passado;

  • Idéia central: Com base em informações estatísticas em uma grande quantidade de dados, "treinar parâmetros" para ajustar os resultados (a essência é "estatística" em vez de "biônica")
  • Principais vantagens: À medida que a quantidade de dados se acumula, o sistema continuará a melhorar e a tornar-se cada vez melhor;
  • Elementos centrais: “big data”, big data massivo, multidimensional e abrangente
  • “Aprendizagem mecânica” baseada em big data massivos, multidimensionais e abrangentes;
    Através da inteligência artificial estatística, “problemas de inteligência” são transformados em “problemas de dados”, tornando a computação
    Máquinas podem resolver “problemas incertos” aprendendo com big data

O essencial

Portanto, a chave do problema passa a ser uma questão de probabilidade. Atualmente, grandes modelos calculam uma probabilidade a partir de dados massivos para determinar a maior probabilidade do próximo texto ou de um determinado parágrafo de texto no meio e, em seguida, geram-no.Na verdade, a essência não é gerar coisas novas, mas raciocinar.

Por exemplo, pergunte a ele onde fica a capital da China?A palavra-chave extraída através do algoritmo é que a capital da China é
Em seguida, o grande modelo calcula, a partir dos dados massivos, que a capital da China é a palavra mais provável seguida de Pequim, de modo que produzirá o resultado correto.

Grandes modelos dependem do “aprendizado mecânico” de grandes quantidades de dados para atingir os recursos atuais.
Portanto, a qualidade dos dados para treinar modelos grandes também é muito crítica. Ao mesmo tempo, quase podemos pensar no limite superior de modelos grandes.

Sistema AIGC

AIGC, ou Artificial Intelligence Generated Content, é uma tecnologia que usa algoritmos de aprendizado de máquina para gerar automaticamente vários tipos de conteúdo, incluindo texto, imagens, áudio e vídeo. Ao analisar grandes quantidades de dados, os sistemas AIGC aprendem padrões de linguagem, visuais e de áudio para criar novos conteúdos que são semelhantes ou mesmo indistinguíveis do conteúdo criado por humanos.
Todo trabalho digital provavelmente será subvertido por “grandes modelos”
A maior parte do nosso trabalho atual na camada de aplicação pertence ao sistema AIGC
Após o GPT3.5, modelos grandes já podem utilizar ferramentas.
• Plug-ins e redes: compensam a falta de memória do próprio modelo grande, marcando o início oficial do aprendizado do LLM no uso de ferramentas
• Função: o LLM aprende a chamar APIs para concluir tarefas complexas, que é o principal trabalho dos engenheiros de back-end (dê instruções ao Gorilla e ele chamará automaticamente modelos como difusão para implementar tarefas multimodais, como desenho e diálogo)
• Deixe o modelo "pensar": oriente modelos grandes para terem capacidades lógicas, o núcleo está em: "Ferramenta de Memória de Planejamento"

Implementação de projetos de engenharia de IA

Na verdade, a implementação de projetos de IA é igual à de projetos comuns. O cerne do estabelecimento inicial do projeto deve ser compreender claramente os problemas centrais que o projeto pretende resolver e, em seguida, expandir o pensamento e, em seguida, executar. análise de demanda, seleção de tecnologia, etc.Não somos muito bons em projetar modelos grandes para a camada de aplicativo. Geralmente chamamos APIs diretamente ou implantamos grandes modelos locais de código aberto.

Como pousar

Projeto imediato (Fase 1)

Qualquer pessoa que tenha tido um pouco de contato com IA pode saber imediatamente. Em 2022-2023, as pesquisas iniciais sobre IA ainda serão baseadas nisso, ou seja, como fazer perguntas para que a IA entenda melhor o seu significado, preste atenção na sua chave. pontos e, em seguida, fornecer respostas de melhor qualidade.
O limite é relativamente baixo e a maioria dos aplicativos de modelos grandes são projetados com Prompt.Ser capaz de atender a algumas necessidades depende das capacidades do modelo básico

Pesquisa RAG (segunda etapa)

RAG (Retrieval-Augmented Generation) é uma tecnologia de inteligência artificial que combina modelos de recuperação e modelos de geração. Ele aprimora os recursos de resposta de grandes modelos de linguagem (LLMs), recuperando informações relevantes de uma base de conhecimento ou banco de dados e combinando-as com as consultas dos usuários. A tecnologia RAG pode melhorar a precisão e a relevância das aplicações de IA, especialmente em cenários que lidam com conhecimentos de domínios específicos ou que exigem as informações mais recentes.
O princípio de funcionamento do RAG inclui principalmente duas etapas:

  1. Recuperação: A partir da consulta do usuário, o RAG utiliza o modelo de recuperação para pesquisar e extrair as informações ou documentos mais relevantes da base de conhecimento.
  2. Geração: A informação recuperada é utilizada como entrada para o modelo de geração, juntamente com a consulta do usuário, a partir da qual o modelo de geração gera respostas ou conteúdo.
    As vantagens da tecnologia RAG são:
    • Atualização de conhecimento: capacidade de acessar as informações mais recentes, não apenas o conhecimento durante o treinamento do modelo
    • Reduzir alucinações: Reduzir a tendência do LLM de gerar informações imprecisas ou falsas através da assistência de fontes externas de conhecimento
    • Segurança de dados: permite que as empresas usem dados privados sem enviá-los para plataformas de terceiros
    • Econômico: o RAG oferece uma solução mais econômica do que a reciclagem ou o ajuste fino de modelos grandes
Modelos específicos de função de treinamento (Fase 3)

No entanto, esse limite é relativamente alto e existem certos requisitos de capacidade de computação, dados e algoritmos.

Projeto de negócios implementado

Etapa um: idealização e exploração

Objetivo: Conduzir a verificação de viabilidade, projetar um protótipo com base nos requisitos de negócios e construir o PromptFlow para testar as principais suposições

  • Entrada principal: objetivos de negócios claros
  • Resultado principal: Verifique se o modelo de linguagem grande (LLM) pode atender aos requisitos da tarefa, estabelecer ou negar suposições principais
  • Principais planos de ação:
    • Defina claramente os casos de uso de negócios
    • Selecione um modelo básico grande adequado e prepare os dados necessários para posterior ajuste fino (SFT) ou outros usos
    • Projetar e construir PromptFlow, formular e testar hipóteses de viabilidade
Etapa 2: construir e aprimorar

Objetivo: Avaliar a robustez das soluções em uma gama maior de conjuntos de dados e melhorar o desempenho do modelo por meio de técnicas como ajuste fino (SFT) e geração aumentada por recuperação (RAG).

  • Entrada principal: metas de negócios combinadas com plano preliminar (resultados da etapa 1)
  • Resultado principal: Uma solução de negócios madura, pronta para ser implantada em um sistema de produção
  • Principais planos de ação:
    • Verifique a eficácia do PromptFlow em dados de amostra
    • Avalie e otimize o PromptFlow e explore prompts e ferramentas melhores
    • Se os objetivos esperados forem alcançados, expandir para um conjunto maior de dados para teste e melhorar ainda mais o efeito através de SFT, RAG e outras tecnologias.
Etapa 3: continuar as operações

Objetivo: Garantir a operação estável do sistema AIGC, integrar sistemas de monitoramento e alarme e alcançar integração e implantação contínuas (CI/CD)

  • Entrada principal: um sistema AIGC capaz de resolver um problema específico
  • Principais resultados: Procedimentos em nível de produção que integram sistemas de monitoramento e alerta e processos de CI/CD.
  • Principais planos de ação:
    • Implantar sistema AIGC
    • Integre recursos de monitoramento e alerta para garantir que os recursos do sistema sejam incorporados aos aplicativos
    • Estabelecer mecanismo de operação do aplicativo, incluindo iteração, implantação e atualização contínuas
      Através deste processo, garantimos que cada passo, desde a prova do conceito até à implementação em produção, seja preciso, controlável e orientado pelos objetivos do negócio

Tecnologia imediata

1. O papel motriz dos principais fragmentos de conteúdo

Os principais trechos de conteúdo são a base textual usada em conjunto com as instruções para aumentar significativamente sua eficácia.

  1. Definição do conteúdo principal:
    • O conteúdo principal é o texto central do processamento ou transformação do modelo, geralmente acompanhado de instruções para atingir objetivos específicos.
  2. Exemplos de aplicação:
    • Exemplo 1: Forneça um pedaço de texto da Wikipédia [texto] com a instrução "Por favor, resuma o conteúdo acima".
    • Exemplo 2: Dada uma tabela contendo informações sobre cervejas [texto], a instrução é “Listar todas as cervejas da tabela com grau inferior a 6 graus”.

2. Estratégia de implementação do conteúdo principal

Métodos específicos para alcançar o conteúdo principal, incluindo:

  • Exemplo: permite que o modelo infira de forma autônoma as ações que precisam ser executadas, fornecendo exemplos de como concluir uma tarefa em vez de instruções diretas.
  • Dica: Use instruções com pistas para guiar o modelo a raciocinar passo a passo para chegar à resposta.
  • Modelos: Fornece receitas de prompt reutilizáveis ​​com espaços reservados, permitindo a personalização para casos de uso específicos.

3. O poder dos exemplos (Exemplo)

Ao mostrar ao modelo como gerar saída com base em determinadas instruções, o modelo é capaz de inferir padrões de saída, seja aprendizagem de disparo zero, de disparo único ou de poucos disparos.

  • componente:
    • Descrição geral da missão.
    • Um exemplo de uma faixa de saída desejada.
    • Um guia para novos exemplos que servem como ponto de partida para tarefas subsequentes.

4. O papel orientador das pistas (Sugestão)

Ao fornecer pistas a grandes modelos para guiá-los no raciocínio lógico em uma direção clara, é semelhante a fornecer uma fórmula passo a passo para ajudar o modelo a obter gradualmente a resposta.

5. Valor de personalização de modelos (Modelo)

O valor dos modelos está na criação e publicação de bibliotecas de prompts para áreas de aplicação específicas que foram otimizadas para o contexto ou exemplo específico da aplicação.

  • Dica de otimização: torne as respostas mais relevantes e precisas para o seu grupo de usuários-alvo.
  • Referência de recursos: a página de amostra da API OpenAI fornece diversos recursos de modelo.
  • Atribuição de função do modelo: melhore a compreensão do modelo sobre a relevância da tarefa especificando funções de identidade do modelo (como sistema, usuário, assistente, etc.).

Exemplos de prompts avançados

# 职位描述:数据分析助手
## 角色
我的主要目标是为用户提供专家级的数据分析建议。利用详尽的数据资源,告诉我您想要分析的股票(提供股票代码)。我将以专家的身份,为您的股票进行基础分析、技
术分析、市场情绪分析以及宏观经济分析。
## 技能
### 技能1:使用Yahoo Finance的'Ticker'搜索股票信息
### 技能2:使用'News'搜索目标公司的最新新闻
### 技能3:使用'Analytics'搜索目标公司的财务数据和分析
## 工作流程
询问用户需要分析哪些股票,并按顺序执行以下分析:
**第一部分:基本面分析:财务报告分析
*目标1:对目标公司的财务状况进行深入分析。
*步骤:
1. 确定分析对象: