Обмен технологиями

Направление развития объединения больших языковых моделей и графов знаний.

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

введение

В развитии искусственного интеллекта важным поворотным моментом является появление больших языковых моделей (LLM). Благодаря прорыву в технологии глубокого обучения и повышению вычислительной мощности LLM открыла новую волну в направлении искусственного общего интеллекта (AGI) с его беспрецедентным масштабом и сложностью. Благодаря предварительному обучению на массивных данных модель может не только понимать естественный язык, но и генерировать связный и логичный текст. Однако существуют такие проблемы, как «придумывание ерунды», и граф знаний разрабатывается уже много лет с его помощью. точность и эффективность. Сочетание этих двух факторов может решить проблему иллюзий LLM и сделать генерируемый контент более точным и надежным. Автор разобрал графики LLM и знаний и резюмировал их следующим образом для вашего удобства.

Глава 1: Развитие моделей больших языков (LLM) и перспективы AGI

Серия ChatGPT и GPT

ChatGPT — это предварительно обученная модель большого языка для генеративного диалога, запущенная OpenAI в ноябре 2022 года. Она представляет собой прорыв для LLM в области диалоговых систем. ChatGPT, благодаря своему диалоговому стилю взаимодействия, способен отвечать на дополнительные вопросы, признавать ошибки, оспаривать неверные предпосылки и отклонять неуместные запросы. Эта интерактивная возможность позволяет ChatGPT демонстрировать возможности детального и четкого ответа в различных областях знаний.Однако с развитием технологий ChatGPT также выявил некоторые ограничения, такие какПроблемы фактической точности и своевременности

Чтобы решить эти проблемы, в марте 2023 года OpenAI запустила GPT-4 — более плавную и точную модель, поддерживающую понимание изображений. Запуск GPT-4 не только улучшает возможности LLM по пониманию языка, но и расширяет сферу его применения, позволяя обрабатывать мультимодальную информацию, что позволяет достичь более полного и глубокого интеллектуального взаимодействия.
Вставьте сюда описание изображения

Задачи НЛП и сценарии применения

Большие языковые модели широко используются в задачах обработки естественного языка (НЛП), охватывая многие области, такие как классификация текста, извлечение информации, обобщение текста, интеллектуальные ответы на вопросы, понимание прочитанного, машинный перевод, генерация текста и исправление грамматики. Реализация этих задач позволяет LLM играть роль в нескольких сценариях, таких как классификация информации, структурирование текста, краткое описание, диалоговые вопросы и ответы, сложное понимание текста, многоязычный перевод, создание контента и исправление информационных ошибок. Например, в сценариях интеллектуальных вопросов и ответов LLM может понимать вопросы пользователей и предоставлять точные и исчерпывающие ответы в текстовых сводных задачах. LLM может автоматически извлекать ключевую информацию из текста и генерировать краткие сводки.
Вставьте сюда описание изображения

Новые возможности больших моделей

Возможности больших языковых моделей не достигаются в одночасье, а постепенно становятся очевидными по мере увеличения размера модели. Это «появление» возможностей проявляется во многих аспектах, таких как возможности междоменной передачи и способности рассуждения. Только когда размер модели в определенной степени увеличится, эти возможности совершат качественный скачок. Эволюция больших языковых моделей Google, DeepMind и OpenAI прошла через такие этапы, как предварительное обучение, точная настройка и согласование инструкций. Эволюция этих этапов имеет решающее значение для улучшения возможностей модели.

Вставьте сюда описание изображения

На этапе предварительного обучения модель изучает общие шаблоны и знания языка на крупномасштабных наборах данных. На последующем этапе точной настройки инструкций модель учится выполнять конкретные задачи с помощью конкретных инструкций. Этап согласования заключается в том, чтобы посредством дальнейшего обучения сделать выходные данные модели более соответствующими человеческим ожиданиям. Эволюция этих этапов позволила большим языковым моделям продемонстрировать удивительные возможности решения сложных задач.
Вставьте сюда описание изображения

Кроме того, такие ключевые технологии, как контекстное обучение, подсказки CoT (цепочка мыслей) и настройка инструкций, постоянно расширяют границы возможностей LLM. Обучение в контексте позволяет модели изучать новые задачи с небольшим количеством образцов без изменения параметров.
Вставьте сюда описание изображения
Подсказки CoT учат модель выполнять логические рассуждения, предоставляя подробные этапы рассуждения.Вставьте сюда описание изображения
Настройка инструкций стимулирует понимание и возможности прогнозирования модели посредством четких инструкций.
Вставьте сюда описание изображения

Глава 2: График знаний и LLM

2.1 Концепция и эволюция графа знаний

Граф знаний — это, по сути, структурированная семантическая база знаний.Представляя сложные знания в виде графиков, машины могут лучше понимать, извлекать и использовать знания. . Развитие графов знаний можно проследить до семантической сети 1960-х годов, которая в основном использовалась в области понимания естественного языка. С развитием интернет-технологий графы знаний начали играть важную роль в поисковых системах, интеллектуальных ответах на вопросы и вычислении рекомендаций.

В 1980-е годы в область искусственного интеллекта для описания знаний было введено философское понятие «онтология». Впоследствии исследователи представления знаний и баз знаний предложили различные методы представления знаний, включая фреймворковые системы, правила производства и логику описания. В 1998 году изобретение Всемирной паутины предоставило новую возможность для разработки графов знаний. Переход от гипертекстовых ссылок к семантическим ссылкам ознаменовал собой значительный прогресс в построении графов знаний.

Граф знаний, по сути, можно рассматривать как модель мира, основанную на том, как машины представляют знания. Он использует графовые структуры для описания взаимосвязей между всеми вещами и записи знаний о вещах. Он был разработан с появлением интернет-технологий и был реализован в России. поисковые системы, интеллектуальные ответы на вопросы и вычисления рекомендаций и другие области применения.

Вставьте сюда описание изображения

В 2006 году Тим Бернерс-Ли подчеркнул, что суть семантической сети заключается в установлении связей между открытыми данными. В 2012 году Google выпустила поисковую систему, основанную на графах знаний, что ознаменовало прорыв в коммерческом применении графов знаний. Понятие графа знаний эволюционировало до сих пор, от первоначального построения экспертами до построения машинных алгоритмов, и продолжает развиваться в направлении мультимодального и многоформного выражения знаний.

2.2 Построение и характеристики графа знаний

Построение графа знаний — это сложный процесс, включающий несколько этапов, таких как извлечение знаний, объединение знаний, представление знаний и обоснование знаний. Ранние графики знаний в основном создавались экспертами вручную. Этот тип графиков был высокого качества, но был дорогим и медленно обновлялся. С развитием технологий стали использоваться алгоритмы машинного обучения для автоматического построения графов знаний, что повышает эффективность построения и частоту обновления.
Вставьте сюда описание изображения

Характеристика графа знаний заключается в том, что он может представлять сложные связи знаний в форме структуры графа, включая сущности, атрибуты, события и отношения. Такое структурированное представление не только облегчает хранение и извлечение знаний, но также дает возможность рассуждать о знаниях. Современные графы знаний развиваются в направлении мультимодального и многоформного выражения знаний, включая не только текстовую информацию, но и данные в различных модальностях, таких как изображения и звуки.

2.3 Варианты применения графа знаний

Случаи применения графов знаний в разных областях богаты и разнообразны. В общих областях графы знаний часто используются как «структурированные энциклопедические знания», чтобы предоставить обычным пользователям обширные знания здравого смысла. В конкретных областях, таких как здравоохранение, право, финансы и т. д., графики знаний строятся на основе отраслевых данных, чтобы предоставить отраслевым специалистам услуги углубленного профессионального обучения.
Вставьте сюда описание изображения

Например, в медицинской сфере графы знаний могут объединять информацию о заболеваниях, лекарствах, методах лечения и т. д., чтобы помочь врачам в постановке диагноза и принятии решений о лечении. В финансовой сфере графы знаний могут представлять компании, отрасли, рынки и другие экономические субъекты и их взаимосвязи, помогая аналитикам принимать инвестиционные решения. Кроме того, графики знаний также можно использовать в различных сценариях, таких как персонализированные рекомендации, интеллектуальные вопросы и ответы, а также создание контента, что значительно расширяет сферу применения искусственного интеллекта.
Вставьте сюда описание изображения

2.4 Сотрудничество между графом знаний и LLM

Сочетание графа знаний и LLM обеспечивает мощные возможности рассуждения и представления знаний для интеллектуальных систем. Мощные возможности LLM по пониманию языка и генерации в сочетании со структурированными знаниями графа знаний позволяют добиться более точного и глубокого обоснования знаний. Например, в интеллектуальной системе ответов на вопросы LLM может быстро найти знания, связанные с вопросом, с помощью графа знаний и предоставить более точные и полные ответы.
Вставьте сюда описание изображения

Кроме того, графы знаний также могут служить дополнением к LLM, предоставляя внешние знания, необходимые во время обучения модели и вывода. Внедряя знания в граф знаний в LLM в виде троек, инструкций, правил и т. д., можно повысить надежность и интерпретируемость модели. В то же время граф знаний также можно использовать для цитирования, отслеживания и проверки контента, созданного LLM, чтобы гарантировать точность и авторитетность созданного контента.
Вставьте сюда описание изображения

В промышленных приложениях сочетание графиков знаний и LLM также демонстрирует большой потенциал. Благодаря предварительному обучению по расширению знаний, быстрому проектированию, комплексному обоснованию знаний и другим методам LLM для конкретных областей может быть построен для предоставления более профессиональных и эффективных услуг. В то же время графы знаний также могут реализовывать автоматическое представление и обновление данных предметной области, знаний и взаимодействий, что позволяет достичь «гиперавтоматизации».
Вставьте сюда описание изображения

Содействие быстрому построению КР: извлечение знаний/объединение знаний

Предварительное обучение для расширения знаний/Быстрое проектирование/Обоснование сложных знаний/Прослеживаемость знаний/Объединение динамических знаний в реальном времени
• Мощные возможности извлечения и генерации, продемонстрированные крупномасштабными языковыми моделями, могут помочь в быстром построении графов знаний и реализовать автоматическое извлечение и объединение знаний.
• Автоматическое построение подсказок на основе знаний в графе знаний позволяет автоматически создавать подсказки.
• Способность LLM к появлению и способность к рассуждению CoT в сочетании со способностью к рассуждению на основе сложных знаний, основанной на графах знаний, могут совместно решать сложные задачи.
• Знания в графе знаний можно добавлять в процесс обучения языковой модели в виде троек, инструкций, правил, кодов и т. д., чтобы повысить надежность и интерпретируемость LLM.
• Свяжите результаты, полученные LLM, со знаниями в графе знаний, чтобы добиться цитирования, отслеживания и проверки созданного контента.
• Граф знаний использует онтологию для представления данных предметной области, знаний и взаимодействий и завершает автоматизацию всего процесса от доступа к данным, извлечения и обновления знаний до ссылок взаимодействия с пользователем.

Глава 3: Парадигма промышленного внедрения

3.1 Проблемы внедрения индустрии крупных языковых моделей

Хотя модели больших языков (LLM) продемонстрировали большой потенциал в промышленных приложениях, они также сталкиваются с рядом проблем и ограничений. Во-первых, требования к вычислительным ресурсам и хранению данных для больших моделей огромны, что не только увеличивает стоимость развертывания, но и ограничивает применение модели в средах с ограниченными ресурсами. Во-вторых, обучение и тонкая настройка больших моделей требуют большого количества аннотированных данных, а сбор и обработка этих данных часто требуют много времени и труда. Кроме того, интерпретируемость и управляемость больших моделей относительно низки, что является препятствием в некоторых сценариях приложений, требующих высокой точности и прозрачности.
Вставьте сюда описание изображения

В промышленных приложениях способность к обобщению больших моделей также является проблемой. Хотя LLM подвергается воздействию большого объема данных на этапе предварительного обучения, производительность модели может быть ограничена, если она сталкивается с отраслевой терминологией и сложной логикой. В то же время обновление и обслуживание больших моделей также является сложной задачей, требующей постоянной технической поддержки и обновления данных для поддержания своевременности и точности модели.

3.2 Разработка «малой модели» экологии

По сравнению с большими моделями маленькие модели продемонстрировали некоторые уникальные преимущества при промышленном внедрении. Маленькие модели легче развертывать на периферийных устройствах или в средах с ограниченными ресурсами из-за их небольшого размера и низких вычислительных затрат. Кроме того, затраты на разработку и обслуживание небольших моделей невелики, что позволяет малым и средним предприятиям использовать технологии машинного обучения для улучшения своих продуктов и услуг.

Еще одним преимуществом небольших моделей является их гибкость и возможность настройки. Для конкретных отраслей или сценариев применения разработчики могут быстро настраивать и оптимизировать небольшие модели в соответствии с конкретными потребностями. Например, в таких областях, как медицинские консультации и юридические услуги, небольшие модели могут целенаправленно изучать профессиональную терминологию и конкретные случаи, чтобы предоставлять более точные услуги.

С развитием фреймворков и инструментов с открытым исходным кодом экосистема малых моделей быстро растет. Разработчики могут использовать существующие инструменты и библиотеки для быстрого создания и развертывания небольших моделей для продвижения процесса промышленного интеллекта. В то же время интеграция и сочетание небольших моделей также дает новые идеи для решения сложных проблем. Благодаря совместной работе нескольких небольших моделей можно достичь более гибких и эффективных решений.

3.3 Воплощенная мультимодальная языковая модель

Мультимодальные языковые модели все чаще используются в отрасли. Они могут обрабатывать и понимать различные типы данных, такие как изображения, звуки, видео и т. д., и предоставлять пользователям более богатый и интуитивно понятный интерактивный опыт. В сфере электронной коммерции мультимодальные модели могут объединять изображения и описания продуктов для обеспечения более точного поиска и предоставления рекомендаций. В сфере образования мультимодальные модели могут определять и анализировать учебное поведение учащихся и обеспечивать индивидуальную поддержку обучения.

Преимущество воплощенной мультимодальной языковой модели заключается в том, что она может лучше моделировать человеческое восприятие и когнитивные процессы. Интегрируя визуальную, слуховую и другую сенсорную информацию, модель может более полно понять окружающую среду и потребности пользователей. Кроме того, мультимодальные модели продемонстрировали мощные возможности в решении сложных сценариев и задач, таких как автономное вождение и роботизированные услуги.
Вставьте сюда описание изображения

Однако разработка и применение мультимодальных моделей также сталкиваются с техническими и ресурсными проблемами. Сбор, аннотирование и объединение мультимодальных данных требуют междисциплинарных знаний и технической поддержки. Кроме того, мультимодальные модели имеют высокую вычислительную сложность и требуют эффективных алгоритмов и стратегий оптимизации для обеспечения точной обработки в реальном времени.

3.4 Расширение поиска и экстернализация знаний

Чтобы повысить практичность больших языковых моделей, двумя важными техническими средствами стали улучшение поиска и экстернализация знаний. Улучшение поиска расширяет возможности поиска информации в модели за счет введения внешних баз знаний, помогая модели получать более полную и точную информацию при ответе на вопросы. Этот метод может эффективно устранить недостатки модели при решении долгосрочных проблем или задач, требующих самой последней информации.
Вставьте сюда описание изображения

Экстернализация знаний внедряет внешние знания, необходимые модели, в модель в параметризованной форме, так что модель может напрямую использовать эти знания в процессе рассуждений и генерации. Этот подход может улучшить интерпретируемость и управляемость модели, позволяя разработчикам и пользователям лучше понимать выходные данные модели и доверять им.
Вставьте сюда описание изображения

В промышленных приложениях улучшение поиска и экстернализация знаний могут быть тесно интегрированы с бизнес-процессами и системами принятия решений для обеспечения интеллектуальной помощи и поддержки. Например, в финансовом анализе за счет улучшения поиска модель может получать последние рыночные данные и новости в режиме реального времени, чтобы предоставлять пользователям инвестиционные советы. В медицинской диагностике экстернализация знаний может помочь моделям быстро вызывать клинические рекомендации и информацию о лекарствах, чтобы помочь врачам в принятии решений.
Вставьте сюда описание изображения

Глава 4: Будущие возможности

4.1 Тенденции развития больших языковых моделей

Тенденция развития больших языковых моделей (LLM) указывает на более интеллектуальное и персонализированное будущее. С развитием технологий LLM быстро развивается в следующих направлениях:

  1. мультимодальные возможности: LLM больше не будет ограничиваться текстом, но сможет понимать и генерировать мультимодальный контент, такой как изображения, видео и аудио, обеспечивая более богатый интерактивный опыт.
  2. более глубокое понимание: Благодаря постоянно оптимизируемым алгоритмам LLM сможет осуществлять более глубокое семантическое понимание, включая эмоции, сарказм и сложные метафоры.
  3. Персонализированное обслуживание: Используя пользовательские данные и машинное обучение, LLM будет предоставлять более персонализированные услуги для удовлетворения конкретных потребностей пользователей.
  4. Междоменная интеграция: LLM будет глубоко интегрирован с медицинской, юридической, образовательной и другими профессиональными областями, чтобы предоставлять индивидуальные решения.
  5. Объясняемость и прозрачность: Чтобы повысить доверие пользователей к LLM, будут улучшены интерпретируемость и прозрачность модели.

4.2 Инструменты с открытым исходным кодом и идеи по улучшению

Инструменты с открытым исходным кодом играют важную роль в развитии LLM. Они не только снижают порог разработки, но и способствуют быстрому обновлению и инновациям технологий. Например, Hugging Face предоставляет ряд библиотек и моделей с открытым исходным кодом, которые позволяют разработчикам легко интегрировать и настраивать LLM. Кроме того, стратегии по улучшению LLM включают:

  • Сжатие модели: Уменьшите размер модели и повысьте эффективность вычислений, что сделает ее более подходящей для работы на периферийных устройствах.
  • Внедрение знаний: Улучшите широту и глубину знаний модели за счет объединения внешней базы знаний с LLM.
  • обучение с подкреплением: Используйте технологию обучения с подкреплением, чтобы оптимизировать процесс принятия решений LLM и повысить его производительность при решении сложных задач.

В ответ на недостатки текущего LLM исследователи предложили некоторые меры по улучшению, такие как заставить LLM использовать внешние инструменты для улучшения понимания контекста с важной недостающей информацией, не включенной в вес LLM, чтобы сформировать более мощный агент; все вместе называются усовершенствованными языковыми моделями (ALM).

рассуждение(Рассуждение): Разбиение сложных задач на более простые подзадачи, которые LM может легче решить самостоятельно или с помощью инструментов.
инструмент(ToO): собирать внешнюю информацию или оказывать влияние на виртуальный или физический мир, воспринимаемый ALM.
Поведение(Действие): вызовите инструмент, который оказывает влияние на виртуальный или физический мир, и наблюдайте за его результатами, включая его в текущий контекст ALM.
В сочетании с: Рассуждения и инструменты могут быть помещены в один и тот же модуль, как за счет расширения контекста LM для лучшего прогнозирования отсутствующих инструментов, так и инструментов, оказывающих влияние на виртуальный или физический мир, которые могут использоваться LM таким же образом; передача.

4.3 Рождение индивидуальных больших моделей

Поскольку конкретные потребности отрасли растут, рождение индивидуальных больших моделей стало неизбежным. Эти модели будут оптимизированы для конкретных отраслей или задач, таких как модели оценки рисков в финансах или модели диагностической помощи в здравоохранении. Пути реализации включают в себя:

  • Обучение конкретным предметным данным: Переобучить модель с использованием отраслевых данных, чтобы повысить ее точность и надежность в этой области.
  • Структурированное объединение знаний: Объедините базу отраслевых знаний с LLM, чтобы улучшить понимание модели профессиональных терминов и концепций.
  • цикл обратной связи с пользователем: Постоянно оптимизируйте производительность модели, собирая отзывы пользователей для обеспечения непрерывного обучения и совершенствования.
    Вставьте сюда описание изображения

4.4 Многоагентное сотрудничество и технологическая парадигма

Мультиагентные системы и нейро+символические технологические парадигмы являются ключевыми направлениями будущего развития. Мультиагентные системы могут моделировать механизмы сотрудничества и конкуренции человеческого общества и решать более сложные задачи. Парадигма нейронной + символической технологии сочетает в себе преимущества глубокого обучения и символического рассуждения для улучшения способности логического рассуждения и интерпретируемости модели. Развитие этих технологий будет способствовать прогрессу LLM в следующих аспектах:

  • Решение сложных задач: Благодаря многоагентному сотрудничеству LLM может более эффективно решать сложные задачи, требующие многоэтапного и многоролевого участия.
  • Представление знаний и рассуждения: Парадигма нейронной + символической технологии расширит возможности LLM в представлении знаний и сложных логических рассуждениях.
    Вставьте сюда описание изображения

4.5 Парадигма разработки приложений нового поколения

Формируется новое поколение парадигмы разработки приложений, основанной на «большой модели + графе знаний». Эта парадигма рассматривает граф знаний как центр данных и знаний и объединяет его с возможностями обработки естественного языка LLM для достижения более интеллектуальной и автоматизированной разработки приложений. Например:

  • ЧатДокумент: Сочетая управление документами и системы вопросов и ответов, LLM может понимать запросы пользователей и предоставлять точные ответы по содержанию документов.
  • ЧатТаблица: В области анализа данных LLM способен понимать запросы на естественном языке и выполнять сложные запросы и анализ данных непосредственно в базе данных.
  • ЧатВеб: Используя API поисковой системы, LLM может понимать вопросы пользователей и предоставлять точные ответы на основе веб-контента.
    Вставьте сюда описание изображения

Подведем итог

Будущее больших языковых моделей полно возможностей, и они будут играть ключевую роль во многих аспектах, таких как технологические инновации, отраслевые приложения и пользовательский опыт. Инструменты с открытым исходным кодом и идеи по улучшению будут способствовать популяризации и оптимизации LLM, индивидуальные большие модели будут отвечать потребностям конкретных отраслей, а парадигмы многоагентного сотрудничества и нейронно-символических технологий будут способствовать дальнейшему развитию интеллектуальных систем. Парадигма разработки приложений нового поколения будет использовать возможности LLM и графов знаний для достижения более интеллектуальной и автоматизированной разработки приложений.