minhas informações de contato
Correspondência[email protected]
2024-07-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
No vasto universo da inteligência artificial, o processamento de linguagem natural (PNL) sempre foi uma área repleta de desafios e oportunidades. À medida que a tecnologia evolui, testemunhamos uma evolução das regras tradicionais para a aprendizagem automática estatística, para a aprendizagem profunda e modelos pré-treinados. Hoje, estamos no limiar de grandes modelos de linguagem (LLMs), que estão redefinindo a forma como nos comunicamos com as máquinas. Este artigo se aprofundará no histórico de desenvolvimento, no roteiro técnico e no impacto do LLM no futuro campo de IA.
O objetivo do processamento de linguagem natural (PNL) é permitir que as máquinas entendam, interpretem e gerem a linguagem humana. O desenvolvimento deste campo passou por várias etapas importantes, cada uma das quais marcou um salto na profundidade da compreensão da linguagem. Dos primeiros sistemas baseados em regras aos métodos de aprendizagem estatística, aos modelos de aprendizagem profunda e aos grandes modelos de linguagem (LLM) atuais, cada passo é uma transcendência do estágio anterior.
Nos primeiros dias da PNL, os pesquisadores dependiam de regras escritas à mão para processar a linguagem. A pilha de tecnologia neste estágio inclui máquinas de estados finitos e sistemas baseados em regras. Por exemplo, Apertium é um sistema de tradução automática baseado em regras, que mostra como os primeiros pesquisadores podem obter tradução automática de idiomas organizando manualmente dicionários e regras de escrita.
Com o tempo, os pesquisadores começaram a recorrer a métodos de aprendizagem estatística, usando ferramentas como máquinas de vetores de suporte (SVM), modelos ocultos de Markov (HMM), modelos de entropia máxima (MaxEnt) e campos aleatórios condicionais (CRF). Este estágio é caracterizado pela combinação de uma pequena quantidade de dados de domínio rotulados manualmente e engenharia manual de recursos, marcando a transição de regras escritas à mão para máquinas que aprendem automaticamente o conhecimento a partir dos dados.
O surgimento do aprendizado profundo trouxe mudanças revolucionárias à PNL. As tecnologias representadas por codificador-decodificador, rede de memória de longo prazo (LSTM), atenção e incorporação permitem que o modelo lide com conjuntos de dados maiores quase sem esforço. O sistema neural de tradução automática do Google (2016) é um trabalho representativo desta fase.
O surgimento de modelos pré-treinados marca outro salto no campo da PNL. A pilha de tecnologia com Transformer e mecanismo de atenção como núcleo combina dados massivos não rotulados para aprendizagem auto-supervisionada, gera conhecimento geral e, em seguida, adapta-se a tarefas específicas por meio de ajuste fino. A variabilidade desta etapa é muito alta porque expande a gama de dados disponíveis, desde dados rotulados até dados não rotulados.
LLM representa o mais recente desenvolvimento de modelos de linguagem, que geralmente adotam uma arquitetura baseada em decodificador combinada com Feedback Humano de Aprendizado de Transformador e Reforço (RLHF). Esta fase é caracterizada por um processo de duas etapas: pré-treinamento e alinhamento com humanos. A fase de pré-treinamento utiliza enormes dados não rotulados e dados de domínio para gerar conhecimento por meio de aprendizagem auto-supervisionada; a fase de alinhamento humano permite que o modelo se adapte a diversas tarefas, alinhando hábitos e valores de uso;
Olhando para trás, para os vários estágios de desenvolvimento, podemos ver as seguintes tendências:
Dados: Dos dados ao conhecimento, cada vez mais dados estão sendo usados/futuro:Mais dados de texto, mais outros dados de formulário → quaisquer dados
Algoritmo: A capacidade de expressão está cada vez mais forte, a escala está cada vez maior;futuro:O transformador é atualmente suficiente, novo modelo (a eficiência do aprendizado deve ser enfatizada)?→AGI?
Relação homem-máquina: retrocedendo, de instrutor a supervisor/futuro:Colaboração homem-máquina, aprendizado de máquina de humanos→Aprendizado humano a partir de máquinas?→Máquinas expandem os limites do conhecimento humano
Nos últimos anos, o desenvolvimento da tecnologia LLM mostrou caminhos diversificados, incluindo modo BERT, modo GPT e modo T5, etc. Cada modo possui características próprias e cenários aplicáveis.
O modelo BERT é adequado para tarefas de compreensão de linguagem natural por meio de um processo de dois estágios de pré-treinamento do modelo de linguagem bidirecional e ajuste fino da tarefa (pré-treinamento do modelo de linguagem bidirecional + ajuste fino da tarefa). O pré-treinamento do BERT extrai conhecimento geral de dados gerais, enquanto o ajuste fino extrai conhecimento de domínio de dados de domínio.
Cenários de tarefas adequados: mais adequados para a compreensão da linguagem natural, tarefas específicas em um determinado cenário, especializadas e leves;
O modo GPT é desenvolvido a partir do pré-treinamento do modelo de linguagem unidirecional e do processo de prompt ou instrução de disparo zero/poucos disparos (pré-treinamento do modelo de idioma unidirecional + prompt de disparo zero/poucos disparos/instrução) e é adequado para natural geração de linguagem. Os modelos no modo GPT são normalmente os maiores LLMs disponíveis e podem lidar com uma gama mais ampla de tarefas.
Cenários aplicáveis: mais adequados para tarefas de geração de linguagem natural Atualmente, os maiores LLMs estão todos neste modo: série GPT, PaLM, LaMDA..., modo GPT pesado e comum é recomendado para tarefas de geração/modelos gerais;
O modo T5 combina as características do BERT e do GPT e é adequado para tarefas de geração e compreensão. A tarefa de preencher as lacunas no modo T5 (Span Corruption) é um método de pré-treinamento eficaz que funciona bem em tarefas de compreensão de linguagem natural. Dois estágios (pré-treinamento do modelo de linguagem unidirecional + principalmente ajuste fino)
Características: Parece GPT, parece Bert
Cenários aplicáveis: Tanto a geração quanto a compreensão são aceitáveis do ponto de vista do efeito, é mais adequado para tarefas de compreensão de linguagem natural. Muitos grandes LLMs domésticos adotam esse modo se for uma tarefa de compreensão de linguagem natural em um único campo; recomendado usar o modo T5;
Super LLM: Perseguindo zero tiro/poucos efeitos de tiro/instrução
Conclusões da pesquisa atual
(Quando o tamanho do modelo é pequeno):
Conclusões da pesquisa atual (escala muito grande):
Fato: Quase todos os modelos LLM superiores a 100B adotam o modo GPT
razao possivel:
1. A atenção bidirecional no codificador-decodificador prejudica a capacidade de tiro zero (verificar)
2. A estrutura do codificador-decodificador só pode fornecer atenção ao codificador de alto nível ao gerar o token. A estrutura somente do decodificador pode fornecer atenção camada por camada ao gerar o token, e as informações são mais refinadas.
3. O codificador-decodificador treina "preencher os espaços em branco" e gera o próximo token da última palavra. Os métodos de treinamento e geração da estrutura somente do decodificador são consistentes.
À medida que o tamanho do modelo aumenta, os pesquisadores enfrentam o desafio de como utilizar efetivamente o espaço de parâmetros. A pesquisa sobre o modelo Chinchilla mostra que quando os dados são suficientes, a escala LLM atual pode ser maior que a escala ideal, e há um desperdício de espaço de parâmetros. No entanto, a Lei de Escala também aponta que quanto maior a escala do modelo, mais dados. , e quanto mais completo for o treinamento, melhor será o efeito do modelo LLM. Uma ideia mais viável é: torná-lo pequeno primeiro (o GPT 3 não deve ser tão grande) e depois torná-lo grande (depois de fazer uso completo dos parâmetros do modelo, continue a aumentá-lo).
É claro que, dado que o LLM multimodal requer capacidades mais ricas de percepção do ambiente do mundo real, também apresenta requisitos mais elevados para os parâmetros do LLM.
LLM multimodal: entrada visual (fotos, vídeos), entrada auditiva (áudio), entrada tátil (pressão)
enfrentando problemas: O LLM multimodal parece muito bom e depende muito de grandes conjuntos de dados organizados manualmente.
Por exemplo, ALIGN: 1,8B de gráficos e texto/LAION: 5,8B de gráficos e dados de texto (filtrados pelo CLIP, atualmente os maiores gráficos e dados de texto) é atualmente texto com imagens voando?
Processamento de imagem: A rota tecnológica auto-supervisionada está a ser tentada, mas ainda não foi implementada com sucesso (aprendizagem comparativa/MAE)/se puder ser alcançada com sucesso, será outro grande avanço tecnológico no campo da IA;
Se puder ser resolvido, espera-se que algumas tarefas atuais de compreensão de imagens (segmentação/reconhecimento semântico, etc.) sejam integradas ao LLM e desapareçam.
Embora o LLM atual tenha certas capacidades de raciocínio simples, ele ainda apresenta deficiências no raciocínio complexo. Por exemplo, tarefas como adição de vários dígitos continuam a ser um desafio para o LLM. Os pesquisadores estão explorando como destilar capacidades de raciocínio complexas em modelos menores através de meios técnicos, como a decomposição semântica.
É claro que este problema também pode ser contornado através da terceirização de capacidade, como combiná-la com ferramentas: poder computacional (calculadora externa), consulta de novas informações (mecanismo de busca) e outras capacidades são completadas com a ajuda de ferramentas externas.
O conceito de inteligência incorporada combina LLM com robótica e utiliza aprendizagem por reforço para obter inteligência incorporada através da interação com o mundo físico. . Por exemplo, o modelo PaLM-E do Google combina 540B de PaLM e 22B de ViT, demonstrando o potencial do LLM em um ambiente multimodal.
Este artigo explora profundamente o histórico de desenvolvimento, o roteiro técnico e seu impacto no futuro campo de IA do LLM. O desenvolvimento do LLM não é apenas um avanço tecnológico, mas também uma profunda reflexão sobre as nossas capacidades de compreensão de máquinas. Das regras às estatísticas, ao aprendizado profundo e ao pré-treinamento, cada etapa nos fornece novas perspectivas e ferramentas. Hoje, estamos no limiar de uma nova era de modelos linguísticos de grande escala, enfrentando oportunidades e desafios sem precedentes.