Обмен технологиями

Приложение большой языковой модели — инженерная реализация искусственного интеллекта

2024-07-11

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Каталог статей


Быстрое развитие ИИ в последние годы действительно оказало большое влияние. Однако на самом деле ИИ еще не полностью пересек границу и все еще «саморекламируется» в узком кругу.Но это сильно отличается от того, что было раньше.
Эта статья будет посвящена текущему состоянию больших моделей и расскажет о вещах, связанных с инженерной реализацией. Она также основана на вдохновении и резюме.

Я не буду здесь вдаваться в подробности самого ИИ, а сосредоточусь больше на приложениях верхнего уровня.

Обзор больших языковых моделей

Когда мы говорим о большой языковой модели, мы имеем в виду часть программного обеспечения, которая может «говорить» так же, как человеческий язык.Эти модели удивительны: они способны учитывать контекст и генерировать ответы, которые не только являются последовательными, но и кажутся исходящими от реальных людей.
Эти языковые модели работают путем анализа больших объемов текстовых данных и моделей обучения использованию языка.Они используют эти шаблоны для создания текста, почти неотличимого от того, что говорят или пишут люди.
Если вы когда-либо общались с виртуальным помощником или с агентом службы поддержки клиентов с искусственным интеллектом, вы, вероятно, взаимодействовали с большой языковой моделью, даже не осознавая этого. Эти модели имеют широкий спектр приложений: от чат-ботов до языкового перевода и перевода контента! творчество и многое другое

Что такое большая языковая модель

  • определение : Модель большого языка (LLM) — это предварительно обученная модель обработки естественного языка (NLP), обычно с миллиардами или даже сотнями миллиардов параметров, способная понимать и генерировать текст на естественном языке.Данные обучения для зрелой модели большого языка огромны.
  • Функция: Большие языковые модели могут выполнять различные языковые задачи, такие как классификация текста, анализ настроений, машинный перевод, обобщение текста, системы вопросов и ответов и т. д.
  • техническая основа: На основе архитектуры Transformer с использованием механизма Self-Attention для обработки данных последовательности.
  • развивать: Начиная с ранних моделей RNN и LSTM и заканчивая текущими моделями, такими как BERT и GPT, количество параметров и производительность продолжали улучшаться.

Что такое машинное обучение

  • определение: Машинное обучение — это отрасль искусственного интеллекта, которая позволяет компьютерным системам учиться на данных и принимать решения или прогнозы без явного программирования.
  • тип: Включая обучение с учителем, обучение без учителя, полуконтролируемое обучение и обучение с подкреплением.
  • приложение: Широко используется в распознавании изображений, распознавании речи, системах рекомендаций, прогнозном анализе и других областях.
  • Ключевые идеи: Выбор функций, обучение модели, переоснащение и недостаточное оснащение, оценка модели и т. д.

Что такое глубокое обучение

  • определение: Глубокое обучение — это подмножество машинного обучения, которое использует структуру нейронной сети, аналогичную человеческому мозгу, для изучения сложных шаблонов данных посредством многоуровневых (глубоких) нелинейных преобразований.
  • основные компоненты: Слои нейронной сети, функции активации, функции потерь, алгоритмы оптимизации.
  • Архитектура: Включая сверточную нейронную сеть (CNN), рекуррентную нейронную сеть (RNN), сеть долгой краткосрочной памяти (LSTM) и преобразователь (Transformer) и т. д.
  • приложение: Революционный прогресс был достигнут в области распознавания изображений и речи, обработки естественного языка, автономного вождения и т. д.

Понимание больших языковых моделей

Почему мне нужно открывать отдельную главу для «понимания» больших языковых моделей после обзора больших языковых моделей выше, потому что это позволит вам лучше узнать, что такое большая языковая модель, понять ее верхний предел, а также ее возможности? облегчит нам работу над прикладным уровнем.
Прежде всего, в общих чертах можно сказать, что машинное обучение заключается в поиске специальной сложной «функции», которая может преобразовать наши входные данные в желаемый результат. Например, если мы ожидаем ввести 1 и вывести 5; чтобы ввести 2 и вывести 10, тогда эта функция может быть y=2*x.Или, если мы введем изображение кошки, я хочу, чтобы оно вывело слово «кот», или если я введу «привет», оно выведет «привет» и т. д.

Фактически, по сути это можно рассматривать как математическую задачу. Конечно, реальная проблема будет намного сложнее, чем приведенный выше пример.

История

1. Вначале люди всегда хотели заставить машины думать как люди. В то время люди в основном продвигали «школу полета птиц». Основанная на бионике, когда люди видели летящую птицу, они учились летать, взмахивая ею. крылья. Затем они надеялись заставить машины думать так же, как человек. Но этот эффект не очень хорош: нет «мировых знаний» (мировые знания — это знания по умолчанию в вашем мозгу, которые хорошо известны и инстинктивны без размышлений). Например, «вода течет вниз». является массивным, и трудно решить проблему нескольких значений в одном слове.Вообще говоря, имитировать человеческий мозг слишком сложно, и трудно добиться этого, просто используя коды и функции.

2. Эпоха искусственного интеллекта 2.0: управляемая данными реализация «искусственного интеллекта, основанного на статистике». Почему после появления GPT3, как грибы после дождя, выросли всевозможные крупные модели? На самом деле, большинство компаний уже давно занимаются исследованием ИИ, но в первые дни все переходили реку, нащупывая камни. Хотя планов и мыслей было много, они не осмеливались увеличивать свои инвестиции в обучение и не решались. все они находились в пределах ограниченного объема исследований. Появление GPT3 позволило всем увидеть, что существует определенный метод, который заключается в использовании огромных объемов данных для расчета статистики. Количественные изменения приводят к качественным изменениям. Итак, в успешных случаях все знали, что этот метод осуществим, поэтому все. начало Увеличивать инвестиции и идти по этому пути

3. Большие данные могут сделать скачок в развитии машинного интеллекта; важнейшее значение использования больших объемов данных заключается в том, что они позволяют компьютерам выполнять задачи, которые в прошлом могли делать только люди.

  • Основная идея: на основе статистической информации в большом объеме данных «обучить параметры» для соответствия результатам (суть в «статистике», а не в «бионике»).
  • Основные преимущества: По мере накопления объёма данных система будет продолжать совершенствоваться и становиться всё лучше и лучше;
  • Основные элементы: «большие данные», массивные, многомерные и всеобъемлющие большие данные.
  • «механическое заучивание», основанное на массивных, многомерных и всеобъемлющих больших данных;
    С помощью статистического искусственного интеллекта «проблемы интеллекта» превращаются в «проблемы данных», делая вычисления
    Машины могут решать «неопределенные проблемы», обучаясь на больших данных

Жизненноважный

Таким образом, ключом к проблеме становится вопрос вероятности. В настоящее время большие модели вычисляют вероятность на основе массивных данных, чтобы определить наибольшую вероятность следующего текста или определенного абзаца текста в середине, а затем выводят ее.На самом деле суть не в том, чтобы генерировать новое, а в том, чтобы рассуждать.

Например, спросите его, где находится столица Китая?Ключевое слово, извлеченное с помощью алгоритма, заключается в том, что столица Китая
Затем большая модель на основе массива данных вычисляет, что столица Китая — это наиболее вероятное слово, за которым следует «Пекин», поэтому она выдает правильный результат.

Большие модели полагаются на «механическое заучивание» огромных объемов данных для достижения текущих возможностей.
Поэтому качество данных для обучения больших моделей также очень важно. В то же время мы почти можем думать о верхнем пределе больших моделей.

Система AIGC

AIGC, или контент, генерируемый искусственным интеллектом, — это технология, которая использует алгоритмы машинного обучения для автоматического создания различных типов контента, включая текст, изображения, аудио и видео. Анализируя большие объемы данных, системы AIGC изучают языковые, визуальные и звуковые шаблоны для создания нового контента, который похож или даже неотличим от контента, созданного человеком.
Вся цифровая работа, скорее всего, будет подорвана «большими моделями».
Большая часть нашей текущей работы на прикладном уровне принадлежит системе AIGC.
После GPT3.5 крупные модели уже могут использовать инструменты.
• Плагины и сетевое взаимодействие: компенсируют нехватку памяти самой большой модели, отмечая официальное начало обучения LLM использованию инструментов.
• Функция: LLM учится вызывать API для выполнения сложных задач, что является основной работой серверных инженеров (дайте инструкции Gorilla, и она автоматически вызовет такие модели, как диффузия, для реализации мультимодальных задач, таких как рисование и диалог).
• Позвольте модели «думать»: направьте большие модели на логические возможности, суть которых заключается в «Инструменте памяти планирования».

Реализация инженерных проектов в области искусственного интеллекта

Фактически, реализация проектов ИИ такая же, как и реализация обычных проектов. Суть первоначального создания проекта должна заключаться в четком понимании основных проблем, которые проект призван решить, а затем расширить мышление и затем реализовать. анализ спроса, выбор технологий и т. д.Мы не очень хороши в проектировании больших моделей для уровня приложения. Обычно мы напрямую вызываем API или развертываем локальные большие модели с открытым исходным кодом.

Как приземлиться

Оперативный проект (Этап 1)

Любой, кто хоть немного имел дело с ИИ, может знать, подскажите. В 2022-2023 годах первоначальные исследования ИИ по-прежнему будут основываться на этом, то есть на том, как задавать вопросы, чтобы ИИ лучше понял ваш смысл, обратите внимание на ваш ключ. баллы, а затем предоставить более качественные ответы Гао.
Порог относительно низок, и большинство приложений крупных моделей разрабатываются с использованием Prompt.Возможность удовлетворения некоторых потребностей зависит от возможностей базовой модели.

RAG-поиск (второй этап)

RAG (Retrival-Augmented Generation) — это технология искусственного интеллекта, сочетающая в себе модели поиска и модели генерации. Он расширяет возможности ответа больших языковых моделей (LLM) за счет извлечения соответствующей информации из базы знаний или базы данных и объединения ее с запросами пользователя. Технология RAG может повысить точность и актуальность приложений ИИ, особенно в сценариях, которые связаны со знаниями конкретной предметной области или требуют новейшей информации.
Принцип работы RAG в основном включает в себя два этапа:

  1. Поиск: на основе запроса пользователя RAG использует модель поиска для поиска и извлечения наиболее актуальной информации или документов в базе знаний.
  2. Генерация: полученная информация используется в качестве входных данных для модели генерации вместе с пользовательским запросом, на основе которого модель генерации генерирует ответы или контент.
    Преимущества технологии RAG:
    • Обновление знаний: возможность доступа к самой последней информации, а не только к знаниям во время обучения модели.
    • Уменьшите галлюцинации: уменьшите склонность LLM генерировать неточную или ложную информацию с помощью внешних источников знаний.
    • Безопасность данных: позволяет предприятиям использовать личные данные, не загружая их на сторонние платформы.
    • Экономически эффективно: RAG обеспечивает более экономичное решение, чем переобучение или тонкая настройка больших моделей.
Модели обучения, ориентированные на конкретные функции (этап 3)

Однако этот порог относительно высок, и существуют определенные требования к вычислительной мощности, данным и алгоритмам.

Реализованный бизнес-дизайн

Шаг первый: идеи и исследования

Цель: провести технико-экономическое обоснование, разработать прототип на основе бизнес-требований и создать PromptFlow для проверки ключевых предположений.

  • Основной вклад: четкие бизнес-цели
  • Ключевой результат: проверить, может ли модель большого языка (LLM) соответствовать требованиям задачи, установить или опровергнуть ключевые предположения.
  • Ключевые планы действий:
    • Четко определите варианты использования в бизнесе
    • Выберите подходящую базовую большую модель и подготовьте необходимые данные для последующей точной настройки (SFT) или других целей.
    • Проектируйте и создавайте PromptFlow, формулируйте и проверяйте гипотезы осуществимости.
Шаг 2. Создайте и улучшите

Цель: оценить надежность решений на более широком диапазоне наборов данных и повысить производительность модели с помощью таких методов, как точная настройка (SFT) и генерация с расширенным поиском (RAG).

  • Основные входные данные: бизнес-цели в сочетании с предварительным планом (результаты шага 1).
  • Ключевой результат: зрелое бизнес-решение, готовое к развертыванию в производственной системе.
  • Ключевые планы действий:
    • Проверьте эффективность PromptFlow на образцах данных.
    • Оцените и оптимизируйте PromptFlow и изучите более эффективные подсказки и инструменты.
    • Если ожидаемые цели достигнуты, расширяйтесь до большего набора данных для тестирования и дополнительно улучшайте эффект с помощью SFT, RAG и других технологий.
Шаг 3. Продолжить работу

Цель: Обеспечить стабильную работу системы AIGC, интегрировать системы мониторинга и сигнализации, а также добиться непрерывной интеграции и непрерывного развертывания (CI/CD).

  • Основные входные данные: система AIGC, способная решить конкретную проблему.
  • Ключевые результаты: Процедуры производственного уровня, интегрирующие системы мониторинга и оповещения, а также процессы CI/CD.
  • Ключевые планы действий:
    • Развертывание системы AIGC
    • Интегрируйте возможности мониторинга и оповещения, чтобы гарантировать, что возможности системы встроены в приложения.
    • Установить механизм работы приложения, включая непрерывную итерацию, развертывание и обновление.
      Благодаря этому процессу мы гарантируем, что каждый шаг от проверки концепции до внедрения в производство будет точным, контролируемым и обусловлен бизнес-целями.

Оперативная технология

1. Ведущая роль основных фрагментов контента

Фрагменты основного контента — это текстовая основа, используемая в сочетании с инструкциями для значительного повышения их эффективности.

  1. Определение основного содержания:
    • Основное содержание — это основной текст обработки или преобразования модели, обычно в сочетании с инструкциями для достижения конкретных целей.
  2. Примеры применения:
    • Пример 1. Предоставьте фрагмент текста из Википедии [текст] с инструкцией «Обобщите приведенное выше содержание».
    • Пример 2: Дана таблица, содержащая информацию о пиве [текст], инструкция: «Перечислите в таблице все сорта пива крепостью менее 6 градусов».

2. Стратегия реализации основного контента

Конкретные методы достижения основного содержания, в том числе:

  • Пример: позволяет модели автономно определять действия, которые необходимо выполнить, предоставляя примеры выполнения задачи, а не прямые инструкции.
  • Подсказка: используйте инструкции с подсказками, которые помогут модели шаг за шагом рассуждать и прийти к ответу.
  • Шаблоны: предоставляет многократно используемые рецепты подсказок с заполнителями, позволяющие настраивать их для конкретных случаев использования.

3. Сила примеров (Пример)

Показывая модели, как генерировать выходные данные на основе заданных инструкций, модель способна выводить шаблоны выходных данных, будь то обучение с нулевым, однократным или малократным обучением.

  • компонент:
    • Общее описание миссии.
    • Пример диапазона желаемого результата.
    • Руководство по новым примерам, которые служат отправной точкой для последующих задач.

4. Направляющая роль подсказки (Cue)

Предоставляя подсказки для больших моделей, чтобы направлять их в логических рассуждениях в четком направлении, это похоже на предоставление пошаговой формулы, помогающей модели постепенно получить ответ.

5. Значение настройки шаблонов (Шаблон)

Ценность шаблонов заключается в создании и публикации библиотек подсказок для конкретных областей приложения, оптимизированных для конкретного контекста или примера приложения.

  • Совет по оптимизации: сделайте ответы более релевантными и точными для вашей целевой группы пользователей.
  • Ссылка на ресурс: Пример страницы API OpenAI предоставляет множество ресурсов шаблонов.
  • Назначение ролей модели: улучшите понимание модели актуальности задачи, указав роли идентификации модели (например, система, пользователь, помощник и т. д.).

Расширенные примеры подсказок

# 职位描述:数据分析助手
## 角色
我的主要目标是为用户提供专家级的数据分析建议。利用详尽的数据资源,告诉我您想要分析的股票(提供股票代码)。我将以专家的身份,为您的股票进行基础分析、技
术分析、市场情绪分析以及宏观经济分析。
## 技能
### 技能1:使用Yahoo Finance的'Ticker'搜索股票信息
### 技能2:使用'News'搜索目标公司的最新新闻
### 技能3:使用'Analytics'搜索目标公司的财务数据和分析
## 工作流程
询问用户需要分析哪些股票,并按顺序执行以下分析:
**第一部分:基本面分析:财务报告分析
*目标1:对目标公司的财务状况进行深入分析。
*步骤:
1. 确定分析对象: