minhas informações de contato
Correspondência[email protected]
2024-07-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
No desenvolvimento da inteligência artificial, o surgimento de grandes modelos de linguagem (LLM) marca um importante ponto de viragem. Com o avanço da tecnologia de aprendizagem profunda e a melhoria do poder computacional, o LLM abriu uma nova onda em direção à inteligência artificial geral (AGI) com sua escala e complexidade sem precedentes. Através do pré-treinamento com dados massivos, o modelo consegue não apenas compreender a linguagem natural, mas também gerar textos coerentes e lógicos. Porém, existem problemas como "inventar bobagens", e o gráfico do conhecimento vem sendo desenvolvido há muitos anos com seu. precisão e eficácia A combinação dos dois Pode resolver o problema da ilusão do LLM e tornar o conteúdo gerado mais preciso e confiável. O autor classificou o LLM e os gráficos de conhecimento e os resumiu da seguinte forma para sua referência.
ChatGPT é um modelo de linguagem grande pré-treinado de diálogo generativo lançado pela OpenAI em novembro de 2022. Representa um salto para o LLM na área de sistemas de diálogo. O ChatGPT, com seu estilo de interação conversacional, é capaz de responder perguntas de acompanhamento, admitir erros, desafiar premissas incorretas e rejeitar solicitações inadequadas. Esse recurso interativo permite que o ChatGPT demonstre recursos de resposta detalhados e claros em diversas áreas de conhecimento.Porém, com o desenvolvimento da tecnologia, o ChatGPT também expôs algumas limitações, comoQuestões de precisão factual e oportunidade。
Para resolver esses problemas, a OpenAI lançou o GPT-4 em março de 2023, que é um modelo mais suave e preciso que suporta a compreensão de imagens. O lançamento do GPT-4 não só melhora as capacidades de compreensão linguística do LLM, mas também expande o seu âmbito de aplicação para permitir o processamento de informações multimodais, o que permite alcançar uma interação inteligente mais abrangente e aprofundada.
Grandes modelos de linguagem são amplamente utilizados em tarefas de processamento de linguagem natural (PNL), cobrindo muitos campos, como classificação de texto, extração de informações, resumo de texto, resposta inteligente a perguntas, compreensão de leitura, tradução automática, geração de texto e correção gramatical. A realização dessas tarefas permite que o LLM desempenhe um papel em vários cenários, como classificação de informações, estruturação de texto, descrição resumida, perguntas e respostas de diálogo, compreensão de textos complexos, tradução multilíngue, criação de conteúdo e correção de erros de informações. Por exemplo, em cenários inteligentes de perguntas e respostas, o LLM pode entender as perguntas dos usuários e fornecer respostas precisas e abrangentes em tarefas de resumo de texto, o LLM pode extrair automaticamente informações importantes do texto e gerar resumos concisos;
As capacidades dos grandes modelos de linguagem não são alcançadas da noite para o dia, mas tornam-se gradualmente aparentes à medida que o tamanho do modelo aumenta. Esta “emergência” de capacidades manifesta-se em muitos aspectos, tais como capacidades de transferência entre domínios e capacidades de raciocínio. Somente quando o tamanho do modelo aumentar até certo ponto é que estas capacidades darão um salto qualitativo. A evolução de grandes modelos de linguagem do Google, DeepMind e OpenAI passou por estágios como pré-treinamento, ajuste fino de instruções e alinhamento. A evolução desses estágios é crucial para melhorar as capacidades do modelo.
Na fase de pré-treinamento, o modelo aprende padrões comuns e conhecimento da linguagem em conjuntos de dados em grande escala. Na fase subsequente de ajuste fino das instruções, o modelo aprende como concluir tarefas específicas por meio de instruções específicas. O estágio de alinhamento visa tornar o resultado do modelo mais consistente com as expectativas humanas por meio de treinamento adicional. A evolução desses estágios permitiu que grandes modelos de linguagem demonstrassem capacidades incríveis no tratamento de tarefas complexas.
Além disso, tecnologias-chave, como aprendizagem em contexto, solicitação de CoT (cadeia de pensamento) e ajuste de instrução, estão constantemente ampliando os limites das capacidades de LLM. O In Context Learning permite que o modelo aprenda novas tarefas com um pequeno número de amostras sem alterar os parâmetros.
O CoT Prompting ensina o modelo como realizar o raciocínio lógico, fornecendo etapas de raciocínio detalhadas.
O ajuste de instruções estimula a compreensão e a capacidade de previsão do modelo por meio de instruções claras.
O gráfico de conhecimento é essencialmente uma base de conhecimento semântica estruturada.Ao representar conhecimento complexo na forma de gráficos, as máquinas podem compreender, recuperar e utilizar melhor o conhecimento. . O desenvolvimento dos gráficos de conhecimento remonta à rede semântica na década de 1960, que era usada principalmente no campo da compreensão da linguagem natural. Com o surgimento da tecnologia da Internet, os gráficos de conhecimento começaram a desempenhar um papel importante nos motores de busca, na resposta inteligente a perguntas e na computação de recomendações.
Na década de 1980, o conceito filosófico de “ontologia” foi introduzido no campo da inteligência artificial para descrever o conhecimento. Posteriormente, pesquisadores em representação de conhecimento e bases de conhecimento propuseram uma variedade de métodos de representação de conhecimento, incluindo sistemas de estrutura, regras de produção e lógica de descrição. Em 1998, a invenção da World Wide Web proporcionou uma nova oportunidade para o desenvolvimento de gráficos de conhecimento. A transição de links de hipertexto para links semânticos marcou um grande avanço na forma como os gráficos de conhecimento são construídos.
O gráfico de conhecimento pode ser essencialmente considerado um modelo mundial, que se origina na forma como as máquinas representam o conhecimento. Ele usa estruturas gráficas para descrever as relações entre todas as coisas e registrar o conhecimento das coisas. Ele se desenvolveu com o surgimento da tecnologia da Internet e foi implementado em. mecanismos de pesquisa, resposta inteligente a perguntas e computação de recomendações e outros campos de aplicação.
Em 2006, Tim Berners-Lee enfatizou que a essência da Web Semântica é estabelecer ligações entre dados abertos. Em 2012, o Google lançou um produto de mecanismo de busca baseado em gráficos de conhecimento, que marcou um avanço na aplicação comercial de gráficos de conhecimento. O conceito de gráfico de conhecimento evoluiu até agora, desde a construção inicial por especialistas até a construção de algoritmos de máquina, e continua a se desenvolver na direção da expressão do conhecimento multimodal e multiforme.
A construção do gráfico de conhecimento é um processo complexo, envolvendo múltiplas etapas como extração de conhecimento, fusão de conhecimento, representação de conhecimento e raciocínio de conhecimento. Os primeiros gráficos de conhecimento foram construídos principalmente manualmente por especialistas. Esse tipo de gráfico era de alta qualidade, mas caro e lento para atualizar. Com o desenvolvimento da tecnologia, algoritmos de aprendizado de máquina começaram a ser usados para construir automaticamente gráficos de conhecimento, melhorando a eficiência da construção e a frequência de atualização.
A característica do gráfico de conhecimento é que ele pode representar relacionamentos de conhecimento complexos na forma de estrutura gráfica, incluindo entidades, atributos, eventos e relacionamentos. Esta representação estruturada não só facilita o armazenamento e recuperação do conhecimento, mas também proporciona a possibilidade de raciocínio do conhecimento. Os gráficos de conhecimento modernos estão se desenvolvendo na direção da expressão de conhecimento multimodal e multiforme, incluindo não apenas informações textuais, mas também dados em múltiplas modalidades, como imagens e sons.
Os casos de aplicação de gráficos de conhecimento em diferentes áreas são ricos e diversos. Em campos gerais, os gráficos de conhecimento são frequentemente usados como "conhecimento de enciclopédia estruturada" para fornecer aos usuários comuns amplo conhecimento de bom senso. Em áreas específicas, como assistência médica, direito, finanças, etc., os gráficos de conhecimento são construídos com base em dados do setor para fornecer serviços de conhecimento profissional aprofundados ao pessoal do setor.
Por exemplo, na área médica, os gráficos de conhecimento podem integrar informações sobre doenças, medicamentos, métodos de tratamento, etc. para auxiliar os médicos na tomada de decisões de diagnóstico e tratamento. Na área financeira, os gráficos de conhecimento podem representar empresas, indústrias, mercados e outras entidades econômicas e suas inter-relações, auxiliando os analistas na tomada de decisões de investimento. Além disso, os gráficos de conhecimento também podem ser usados em vários cenários, como recomendações personalizadas, perguntas e respostas inteligentes e criação de conteúdo, o que enriquece muito o escopo de aplicação da inteligência artificial.
A combinação de gráfico de conhecimento e LLM fornece recursos poderosos de raciocínio e representação de conhecimento para sistemas inteligentes. Os poderosos recursos de compreensão e geração de linguagem do LLM, combinados com o conhecimento estruturado do gráfico de conhecimento, podem alcançar um raciocínio de conhecimento mais preciso e aprofundado. Por exemplo, em um sistema inteligente de resposta a perguntas, o LLM pode localizar rapidamente o conhecimento relacionado à pergunta por meio do gráfico de conhecimento e fornecer respostas mais precisas e abrangentes.
Além disso, os gráficos de conhecimento também podem servir como complemento ao LLM, fornecendo conhecimento externo necessário durante o treinamento e inferência do modelo. Ao injetar conhecimento no gráfico de conhecimento no LLM na forma de triplos, instruções, regras, etc., a confiabilidade e interpretabilidade do modelo podem ser melhoradas. Ao mesmo tempo, o gráfico de conhecimento também pode ser usado para citar, rastrear e verificar o conteúdo gerado pelo LLM para garantir a precisão e autoridade do conteúdo gerado.
Em aplicações industriais, a combinação de gráficos de conhecimento e LLM também apresenta grande potencial. Por meio de pré-treinamento para aprimoramento do conhecimento, engenharia imediata, raciocínio de conhecimento complexo e outros métodos, o LLM para campos específicos pode ser construído para fornecer serviços mais profissionais e eficientes. Ao mesmo tempo, os gráficos de conhecimento também podem realizar a representação e atualização automatizada de dados, conhecimentos e interações do domínio, possibilitando a "hiperautomação".
Promover a rápida construção de KG: extração/fusão de conhecimento
Pré-treinamento de aprimoramento de conhecimento/Engenharia imediata/raciocínio de conhecimento complexo/rastreabilidade de conhecimento/fusão de conhecimento dinâmico em tempo real
• As poderosas capacidades de extração e geração demonstradas por modelos de linguagem em larga escala podem auxiliar na construção rápida de gráficos de conhecimento e realizar a extração e fusão automática de conhecimento.
• A construção automática de prompts assistida por conhecimento no gráfico de conhecimento permite a engenharia automática de prompts
• A capacidade de emergência e a capacidade de raciocínio CoT do LLM, combinadas com a capacidade de raciocínio de conhecimento complexo baseada em gráficos de conhecimento, podem resolver em conjunto tarefas complexas
• O conhecimento no gráfico de conhecimento pode ser adicionado ao processo de treinamento do modelo de linguagem na forma de triplos, instruções, regras, códigos, etc., para ajudar a melhorar a confiabilidade e interpretabilidade do LLM
• Vincular os resultados gerados pelo LLM com o conhecimento no gráfico de conhecimento para obter citação, rastreabilidade e verificação do conteúdo gerado
• O gráfico de conhecimento utiliza ontologia para representar dados de domínio, conhecimento e interações, e completa a automação de todo o processo desde o acesso aos dados, extração e atualização de conhecimento até links de interação do usuário.
Embora os grandes modelos de linguagem (LLM) tenham demonstrado grande potencial em aplicações industriais, eles também enfrentam uma série de desafios e limitações. Primeiro, os requisitos de computação e armazenamento de grandes modelos são enormes, o que não só aumenta o custo de implantação, mas também limita a aplicação do modelo em ambientes com recursos limitados. Em segundo lugar, o treinamento e o ajuste fino de grandes modelos requerem uma grande quantidade de dados anotados, e a aquisição e o processamento desses dados são muitas vezes demorados e trabalhosos. Além disso, a interpretabilidade e a controlabilidade de grandes modelos são relativamente fracas, o que representa um obstáculo em alguns cenários de aplicação que exigem alta precisão e transparência.
Em aplicações industriais, a capacidade de generalização de grandes modelos também é um problema. Embora o LLM seja exposto a uma grande quantidade de dados na fase de pré-treinamento, o desempenho do modelo pode ser limitado quando confrontado com terminologia específica do setor e lógica complexa. Ao mesmo tempo, a atualização e manutenção de grandes modelos também é um desafio, exigindo suporte técnico contínuo e atualizações de dados para manter a atualidade e a precisão do modelo.
Comparados com modelos grandes, os modelos pequenos mostraram algumas vantagens únicas na implementação industrial. Modelos pequenos são mais fáceis de implantar em dispositivos de borda ou ambientes com recursos limitados devido ao seu pequeno tamanho e baixo custo computacional. Além disso, os custos de desenvolvimento e manutenção de pequenos modelos são baixos, permitindo que pequenas e médias empresas utilizem a tecnologia de aprendizagem automática para melhorar os seus produtos e serviços.
Outra vantagem dos modelos pequenos é a flexibilidade e personalização. Para setores ou cenários de aplicação específicos, os desenvolvedores podem personalizar e otimizar rapidamente pequenos modelos para atender a necessidades específicas. Por exemplo, em áreas como consultas médicas e serviços jurídicos, pequenos modelos podem aprender terminologia e casos profissionais de forma direcionada para fornecer serviços mais precisos.
Com o desenvolvimento de estruturas e ferramentas de código aberto, o ecossistema de modelos pequenos está crescendo rapidamente. Os desenvolvedores podem usar ferramentas e bibliotecas existentes para construir e implantar rapidamente pequenos modelos para promover o processo de inteligência industrial. Ao mesmo tempo, a integração e combinação de pequenos modelos também fornece novas ideias para resolver problemas complexos. Através do trabalho colaborativo de vários pequenos modelos, soluções mais flexíveis e eficientes podem ser alcançadas.
Modelos de linguagem multimodal são cada vez mais utilizados na indústria. Eles podem processar e compreender vários tipos de dados, como imagens, sons, vídeos, etc., e fornecer aos usuários uma experiência interativa mais rica e intuitiva. No campo do comércio eletrônico, os modelos multimodais podem combinar imagens e descrições de produtos para fornecer serviços de pesquisa e recomendação mais precisos. No campo da educação, os modelos multimodais podem identificar e analisar os comportamentos de aprendizagem dos alunos e fornecer apoio pedagógico personalizado.
A vantagem do modelo de linguagem multimodal incorporado é que ele pode simular melhor a percepção humana e os processos cognitivos. Ao integrar informações visuais, auditivas e outras informações sensoriais, o modelo pode compreender de forma mais abrangente o ambiente e as necessidades do usuário. Além disso, os modelos multimodais demonstraram capacidades poderosas no tratamento de cenários e tarefas complexas, tais como condução autónoma e serviços robóticos.
No entanto, o desenvolvimento e a aplicação de modelos multimodais também enfrentam desafios técnicos e de recursos. A coleta, anotação e fusão de dados multimodais requerem conhecimento interdisciplinar e suporte técnico. Além disso, os modelos multimodais possuem alta complexidade computacional e requerem algoritmos eficientes e estratégias de otimização para obter processamento preciso e em tempo real.
A fim de melhorar a praticidade de grandes modelos de linguagem, o aprimoramento da recuperação e a externalização do conhecimento tornaram-se dois meios técnicos importantes. O aprimoramento da recuperação aprimora os recursos de recuperação de informações do modelo, introduzindo bases de conhecimento externas, ajudando o modelo a obter informações mais ricas e precisas ao responder perguntas. Este método pode resolver eficazmente as deficiências do modelo ao lidar com problemas de cauda longa ou tarefas que requerem as informações mais recentes.
A externalização do conhecimento incorpora o conhecimento externo exigido pelo modelo no modelo de forma parametrizada, para que o modelo possa utilizar diretamente esse conhecimento durante o processo de raciocínio e geração. Esta abordagem pode melhorar a interpretabilidade e controlabilidade do modelo, permitindo que desenvolvedores e usuários entendam melhor e confiem na saída do modelo.
Em aplicações industriais, o aprimoramento da recuperação e a externalização do conhecimento podem ser estreitamente integrados aos processos de negócios e aos sistemas de tomada de decisão para fornecer assistência e suporte inteligentes. Por exemplo, na análise financeira, através do aprimoramento da recuperação, o modelo pode obter os dados e notícias mais recentes do mercado em tempo real para fornecer aos usuários conselhos de investimento. No diagnóstico médico, a externalização do conhecimento pode ajudar os modelos a chamar rapidamente diretrizes clínicas e informações sobre medicamentos para auxiliar os médicos na tomada de decisões.
A tendência de desenvolvimento de grandes modelos de linguagem (LLM) aponta para um futuro mais inteligente e personalizado. Com o avanço da tecnologia, o LLM está se desenvolvendo rapidamente nas seguintes direções:
As ferramentas de código aberto desempenham um papel importante no desenvolvimento do LLM. Não só reduzem o limiar de desenvolvimento, mas também promovem a rápida iteração e inovação da tecnologia. Por exemplo, Hugging Face fornece uma série de bibliotecas e modelos de código aberto que permitem aos desenvolvedores integrar e ajustar facilmente o LLM. Além disso, as estratégias para melhorar o LLM incluem:
Em resposta às deficiências do LLM atual, os investigadores propuseram algumas medidas de melhoria, tais como fazer com que o LLM utilize ferramentas externas para melhorar a compreensão do contexto com informações importantes em falta não incluídas no peso do LLM para formar um agente mais poderoso destes modelos; são chamados coletivamente de modelos de linguagem de aprimoramentos (ALMs)
raciocínio(Raciocínio): Dividir tarefas complexas em subtarefas mais simples que o LM pode resolver mais facilmente sozinho ou usando ferramentas.
ferramenta(ToO): Coletar informações externas ou impactar o mundo virtual ou físico percebido pelo ALM.
Comportamento(Agir): Invocar uma ferramenta que tenha impacto no mundo virtual ou físico e observar seus resultados, incorporando-a ao contexto atual do ALM.
Em conjunção com: O raciocínio e as ferramentas podem ser colocados no mesmo módulo, melhorando o contexto do LM para prever melhor as ferramentas ausentes que coletam informações adicionais e as ferramentas que têm impacto no mundo virtual ou físico podem ser usadas pelo LM da mesma maneira; transferir.
À medida que crescem as necessidades específicas da indústria, o nascimento de grandes modelos personalizados tornou-se inevitável. Estes modelos serão otimizados para indústrias ou tarefas específicas, tais como modelos de avaliação de risco em finanças ou modelos de assistência diagnóstica em cuidados de saúde. Os caminhos de implementação incluem:
Sistemas multiagentes e paradigmas de tecnologia neural + simbólica são direções-chave para o desenvolvimento futuro. Os sistemas multiagentes podem simular os mecanismos de colaboração e competição da sociedade humana e resolver tarefas mais complexas. O paradigma da tecnologia neural + simbólica combina as vantagens do aprendizado profundo e do raciocínio simbólico para melhorar a capacidade de raciocínio lógico e a interpretabilidade do modelo. O desenvolvimento destas tecnologias promoverá o progresso do LLM nos seguintes aspectos:
Uma nova geração de paradigma de desenvolvimento de aplicações baseado em “grande modelo + gráfico de conhecimento” está tomando forma. Este paradigma considera o gráfico de conhecimento como o centro de dados e conhecimento e o combina com os recursos de processamento de linguagem natural do LLM para obter um desenvolvimento de aplicativos mais inteligente e automatizado. Por exemplo:
O futuro dos grandes modelos linguísticos está repleto de oportunidades e eles desempenharão um papel fundamental em muitos aspectos, como a inovação tecnológica, as aplicações industriais e a experiência do utilizador. Ferramentas de código aberto e ideias de melhoria promoverão a popularização e otimização do LLM, grandes modelos personalizados atenderão às necessidades de indústrias específicas e a colaboração multiagente e paradigmas de tecnologia neural + simbólica promoverão o desenvolvimento adicional de sistemas inteligentes. O paradigma de desenvolvimento de aplicativos de nova geração utilizará os recursos do LLM e dos gráficos de conhecimento para alcançar um desenvolvimento de aplicativos mais inteligente e automatizado.