Evolução do modelo de linguagem: uma jornada da PNL ao LLM

2024-07-12

No vasto universo da inteligência artificial, o processamento de linguagem natural (PNL) sempre foi uma área repleta de desafios e oportunidades. À medida que a tecnologia evolui, testemunhamos uma evolução das regras tradicionais para a aprendizagem automática estatística, para a aprendizagem profunda e modelos pré-treinados. Hoje, estamos no limiar de grandes modelos de linguagem (LLMs), que estão redefinindo a forma como nos comunicamos com as máquinas. Este artigo se aprofundará no histórico de desenvolvimento, no roteiro técnico e no impacto do LLM no futuro campo de IA.

introdução

O objetivo do processamento de linguagem natural (PNL) é permitir que as máquinas entendam, interpretem e gerem a linguagem humana. O desenvolvimento deste campo passou por várias etapas importantes, cada uma das quais marcou um salto na profundidade da compreensão da linguagem. Dos primeiros sistemas baseados em regras aos métodos de aprendizagem estatística, aos modelos de aprendizagem profunda e aos grandes modelos de linguagem (LLM) atuais, cada passo é uma transcendência do estágio anterior.
Insira a descrição da imagem aqui

Das regras às estatísticas: primeiras explorações em PNL

Estágio de regras (1956-1992)

Nos primeiros dias da PNL, os pesquisadores dependiam de regras escritas à mão para processar a linguagem. A pilha de tecnologia neste estágio inclui máquinas de estados finitos e sistemas baseados em regras. Por exemplo, Apertium é um sistema de tradução automática baseado em regras, que mostra como os primeiros pesquisadores podem obter tradução automática de idiomas organizando manualmente dicionários e regras de escrita.
Insira a descrição da imagem aqui

Estágio de aprendizado de máquina estatística (1993-2012)

Com o tempo, os pesquisadores começaram a recorrer a métodos de aprendizagem estatística, usando ferramentas como máquinas de vetores de suporte (SVM), modelos ocultos de Markov (HMM), modelos de entropia máxima (MaxEnt) e campos aleatórios condicionais (CRF). Este estágio é caracterizado pela combinação de uma pequena quantidade de dados de domínio rotulados manualmente e engenharia manual de recursos, marcando a transição de regras escritas à mão para máquinas que aprendem automaticamente o conhecimento a partir dos dados.
Insira a descrição da imagem aqui

Avanços na aprendizagem profunda: abrindo uma nova era

Estágio de aprendizagem profunda (2013-2018)

O surgimento do aprendizado profundo trouxe mudanças revolucionárias à PNL. As tecnologias representadas por codificador-decodificador, rede de memória de longo prazo (LSTM), atenção e incorporação permitem que o modelo lide com conjuntos de dados maiores quase sem esforço. O sistema neural de tradução automática do Google (2016) é um trabalho representativo desta fase.
Insira a descrição da imagem aqui

A ascensão dos modelos pré-treinados: autodescoberta do conhecimento

Fase pré-formação (2018-2022)

O surgimento de modelos pré-treinados marca outro salto no campo da PNL. A pilha de tecnologia com Transformer e mecanismo de atenção como núcleo combina dados massivos não rotulados para aprendizagem auto-supervisionada, gera conhecimento geral e, em seguida, adapta-se a tarefas específicas por meio de ajuste fino. A variabilidade desta etapa é muito alta porque expande a gama de dados disponíveis, desde dados rotulados até dados não rotulados.
Insira a descrição da imagem aqui

Uma nova era de LLM: a fusão de inteligência e versatilidade

Estágio LLM (2023-?)

LLM representa o mais recente desenvolvimento de modelos de linguagem, que geralmente adotam uma arquitetura baseada em decodificador combinada com Feedback Humano de Aprendizado de Transformador e Reforço (RLHF). Esta fase é caracterizada por um processo de duas etapas: pré-treinamento e alinhamento com humanos. A fase de pré-treinamento utiliza enormes dados não rotulados e dados de domínio para gerar conhecimento por meio de aprendizagem auto-supervisionada; a fase de alinhamento humano permite que o modelo se adapte a diversas tarefas, alinhando hábitos e valores de uso;
Insira a descrição da imagem aqui
Olhando para trás, para os vários estágios de desenvolvimento, podemos ver as seguintes tendências:

Dados: Dos dados ao conhecimento, cada vez mais dados estão sendo usados/futuro:Mais dados de texto, mais outros dados de formulário → quaisquer dados
Algoritmo: A capacidade de expressão está cada vez mais forte, a escala está cada vez maior;futuro:O transformador é atualmente suficiente, novo modelo (a eficiência do aprendizado deve ser enfatizada)?→AGI?
Relação homem-máquina: retrocedendo, de instrutor a supervisor/futuro:Colaboração homem-máquina, aprendizado de máquina de humanos→Aprendizado humano a partir de máquinas?→Máquinas expandem os limites do conhecimento humano

Insira a descrição da imagem aqui

Rota de desenvolvimento de tecnologia LLM: diversos caminhos

Nos últimos anos, o desenvolvimento da tecnologia LLM mostrou caminhos diversificados, incluindo modo BERT, modo GPT e modo T5, etc. Cada modo possui características próprias e cenários aplicáveis.
Insira a descrição da imagem aqui

Modo BERT (somente codificador)

O modelo BERT é adequado para tarefas de compreensão de linguagem natural por meio de um processo de dois estágios de pré-treinamento do modelo de linguagem bidirecional e ajuste fino da tarefa (pré-treinamento do modelo de linguagem bidirecional + ajuste fino da tarefa). O pré-treinamento do BERT extrai conhecimento geral de dados gerais, enquanto o ajuste fino extrai conhecimento de domínio de dados de domínio.
Insira a descrição da imagem aqui
Cenários de tarefas adequados: mais adequados para a compreensão da linguagem natural, tarefas específicas em um determinado cenário, especializadas e leves;

Modo GPT (somente decodificador)

O modo GPT é desenvolvido a partir do pré-treinamento do modelo de linguagem unidirecional e do processo de prompt ou instrução de disparo zero/poucos disparos (pré-treinamento do modelo de idioma unidirecional + prompt de disparo zero/poucos disparos/instrução) e é adequado para natural geração de linguagem. Os modelos no modo GPT são normalmente os maiores LLMs disponíveis e podem lidar com uma gama mais ampla de tarefas.
Insira a descrição da imagem aqui
Cenários aplicáveis: mais adequados para tarefas de geração de linguagem natural Atualmente, os maiores LLMs estão todos neste modo: série GPT, PaLM, LaMDA..., modo GPT pesado e comum é recomendado para tarefas de geração/modelos gerais;

Modo T5 (codificador-decodificador)

O modo T5 combina as características do BERT e do GPT e é adequado para tarefas de geração e compreensão. A tarefa de preencher as lacunas no modo T5 (Span Corruption) é um método de pré-treinamento eficaz que funciona bem em tarefas de compreensão de linguagem natural. Dois estágios (pré-treinamento do modelo de linguagem unidirecional + principalmente ajuste fino)
Insira a descrição da imagem aqui
Características: Parece GPT, parece Bert
Cenários aplicáveis: Tanto a geração quanto a compreensão são aceitáveis do ponto de vista do efeito, é mais adequado para tarefas de compreensão de linguagem natural. Muitos grandes LLMs domésticos adotam esse modo se for uma tarefa de compreensão de linguagem natural em um único campo; recomendado usar o modo T5;
Insira a descrição da imagem aqui

Por que LLMs muito grandes estão no modo GPT?

Super LLM: Perseguindo zero tiro/poucos efeitos de tiro/instrução
Conclusões da pesquisa atual

(Quando o tamanho do modelo é pequeno):

Categoria de compreensão de linguagem natural: o modo T5 funciona melhor.
Classe de geração de linguagem natural: o modo GPT funciona melhor.
Tiro zero: o modo GPT funciona melhor.
Se o ajuste fino multitarefa for introduzido após o pré-treinamento, o modo T5 funcionará melhor (a conclusão é questionável: o codificador-decodificador experimental atual tem o dobro do número de parâmetros somente do decodificador. A conclusão é confiável?)

Conclusões da pesquisa atual (escala muito grande):
Fato: Quase todos os modelos LLM superiores a 100B adotam o modo GPT

razao possivel:
1. A atenção bidirecional no codificador-decodificador prejudica a capacidade de tiro zero (verificar)
2. A estrutura do codificador-decodificador só pode fornecer atenção ao codificador de alto nível ao gerar o token. A estrutura somente do decodificador pode fornecer atenção camada por camada ao gerar o token, e as informações são mais refinadas.
3. O codificador-decodificador treina "preencher os espaços em branco" e gera o próximo token da última palavra. Os métodos de treinamento e geração da estrutura somente do decodificador são consistentes.

Desafios e oportunidades de LLMs muito grandes

À medida que o tamanho do modelo aumenta, os pesquisadores enfrentam o desafio de como utilizar efetivamente o espaço de parâmetros. A pesquisa sobre o modelo Chinchilla mostra que quando os dados são suficientes, a escala LLM atual pode ser maior que a escala ideal, e há um desperdício de espaço de parâmetros. No entanto, a Lei de Escala também aponta que quanto maior a escala do modelo, mais dados. , e quanto mais completo for o treinamento, melhor será o efeito do modelo LLM. Uma ideia mais viável é: torná-lo pequeno primeiro (o GPT 3 não deve ser tão grande) e depois torná-lo grande (depois de fazer uso completo dos parâmetros do modelo, continue a aumentá-lo).
Insira a descrição da imagem aqui

É claro que, dado que o LLM multimodal requer capacidades mais ricas de percepção do ambiente do mundo real, também apresenta requisitos mais elevados para os parâmetros do LLM.
LLM multimodal: entrada visual (fotos, vídeos), entrada auditiva (áudio), entrada tátil (pressão)
Insira a descrição da imagem aqui
enfrentando problemas: O LLM multimodal parece muito bom e depende muito de grandes conjuntos de dados organizados manualmente.

Por exemplo, ALIGN: 1,8B de gráficos e texto/LAION: 5,8B de gráficos e dados de texto (filtrados pelo CLIP, atualmente os maiores gráficos e dados de texto) é atualmente texto com imagens voando?

Processamento de imagem: A rota tecnológica auto-supervisionada está a ser tentada, mas ainda não foi implementada com sucesso (aprendizagem comparativa/MAE)/se puder ser alcançada com sucesso, será outro grande avanço tecnológico no campo da IA;

Se puder ser resolvido, espera-se que algumas tarefas atuais de compreensão de imagens (segmentação/reconhecimento semântico, etc.) sejam integradas ao LLM e desapareçam.

Insira a descrição da imagem aqui

Melhore as capacidades de raciocínio complexo do LLM

Embora o LLM atual tenha certas capacidades de raciocínio simples, ele ainda apresenta deficiências no raciocínio complexo. Por exemplo, tarefas como adição de vários dígitos continuam a ser um desafio para o LLM. Os pesquisadores estão explorando como destilar capacidades de raciocínio complexas em modelos menores através de meios técnicos, como a decomposição semântica.
Insira a descrição da imagem aqui
É claro que este problema também pode ser contornado através da terceirização de capacidade, como combiná-la com ferramentas: poder computacional (calculadora externa), consulta de novas informações (mecanismo de busca) e outras capacidades são completadas com a ajuda de ferramentas externas.
Insira a descrição da imagem aqui

Interação entre LLM e o mundo físico

O conceito de inteligência incorporada combina LLM com robótica e utiliza aprendizagem por reforço para obter inteligência incorporada através da interação com o mundo físico. . Por exemplo, o modelo PaLM-E do Google combina 540B de PaLM e 22B de ViT, demonstrando o potencial do LLM em um ambiente multimodal.
Insira a descrição da imagem aqui

Outras direções de pesquisa

Aquisição de novos conhecimentos: Existem algumas dificuldades neste momento, mas também existem alguns métodos (LLM+Retrieval)
Correção de conhecimentos antigos: Atualmente existem alguns resultados de pesquisas que ainda precisam ser otimizados
Integração de conhecimento de domínio privado: ajuste fino?
Melhor compreensão dos comandos: ainda precisa de otimização (bobagem séria)
Redução nos custos de inferência de treinamento: rápido desenvolvimento nos próximos um a dois anos
Construção de um conjunto de dados de avaliação chinês: um teste decisivo de habilidade. Atualmente, existem alguns conjuntos de avaliação em inglês, como HELM/BigBench, etc., mas há uma falta de conjuntos de dados de avaliação multitarefa, de alta dificuldade e multiângulo em chinês.

Conclusão

Este artigo explora profundamente o histórico de desenvolvimento, o roteiro técnico e seu impacto no futuro campo de IA do LLM. O desenvolvimento do LLM não é apenas um avanço tecnológico, mas também uma profunda reflexão sobre as nossas capacidades de compreensão de máquinas. Das regras às estatísticas, ao aprendizado profundo e ao pré-treinamento, cada etapa nos fornece novas perspectivas e ferramentas. Hoje, estamos no limiar de uma nova era de modelos linguísticos de grande escala, enfrentando oportunidades e desafios sem precedentes.

Compartilhamento de tecnologia