Эволюция языковой модели: путь от НЛП к LLM

2024-07-12

В огромной вселенной искусственного интеллекта обработка естественного языка (НЛП) всегда была областью, полной проблем и возможностей. По мере развития технологий мы стали свидетелями перехода от традиционных правил к статистическому машинному обучению, глубокому обучению и предварительно обученным моделям. Сегодня мы стоим на пороге больших языковых моделей (LLM), которые переопределяют способы нашего общения с машинами. В этой статье мы углубимся в историю развития, техническую дорожную карту и влияние LLM на будущую область искусственного интеллекта.

введение

Цель обработки естественного языка (НЛП) — дать машинам возможность понимать, интерпретировать и генерировать человеческий язык. Развитие этой области прошло несколько важных этапов, каждый из которых ознаменовал скачок в глубину понимания языка. От ранних систем, основанных на правилах, до статистических методов обучения, моделей глубокого обучения и современных больших языковых моделей (LLM) — каждый шаг является выходом за пределы предыдущего этапа.
Вставьте сюда описание изображения

От правил к статистике: ранние исследования НЛП

Этап правил (1956-1992)

На заре НЛП исследователи полагались на рукописные правила обработки речи. Стек технологий на этом этапе включает в себя конечные автоматы и системы, основанные на правилах. Например, Apertium — это система машинного перевода на основе правил, которая показывает, как ранние исследователи могли добиться автоматического перевода языков, вручную организуя словари и записывая правила.
Вставьте сюда описание изображения

Стадия статистического машинного обучения (1993-2012 гг.)

Со временем исследователи начали обращаться к статистическим методам обучения, используя такие инструменты, как машины опорных векторов (SVM), скрытые модели Маркова (HMM), модели максимальной энтропии (MaxEnt) и условные случайные поля (CRF). Этот этап характеризуется сочетанием небольшого количества размеченных вручную данных предметной области и ручного проектирования функций, что знаменует переход от написанных вручную правил к машинам, автоматически изучающим знания на основе данных.
Вставьте сюда описание изображения

Прорывы в глубоком обучении: открытие новой эры

Этап глубокого обучения (2013-2018)

Появление глубокого обучения принесло революционные изменения в НЛП. Технологии, представленные энкодером-декодером, сетью краткосрочной памяти (LSTM), вниманием и внедрением, позволяют модели обрабатывать большие наборы данных практически без усилий. Требуется ручное проектирование функций. Система нейронного машинного перевода Google (2016 г.) является представительной работой этого этапа.
Вставьте сюда описание изображения

Появление предварительно обученных моделей: самостоятельное открытие знаний

Предтренировочный этап (2018-2022 гг.)

Появление предварительно обученных моделей знаменует собой еще один скачок в области НЛП. Стек технологий с Трансформером и механизмом внимания в качестве ядра объединяет огромные неразмеченные данные для самостоятельного обучения, генерирует общие знания, а затем адаптируется к конкретным задачам посредством тонкой настройки. Вариативность этого этапа очень высока, поскольку он расширяет диапазон доступных данных от размеченных данных до неразмеченных данных.
Вставьте сюда описание изображения

Новая эра LLM: сочетание интеллекта и универсальности

Этап LLM (2023-?)

LLM представляет собой новейшую разработку языковых моделей, которые обычно используют архитектуру на основе декодера в сочетании с обратной связью с преобразователем и обучением с подкреплением (RLHF). Этот этап характеризуется двухэтапным процессом: предварительная подготовка и согласование с людьми. На этапе предварительного обучения используются массивные немаркированные данные и данные предметной области для генерации знаний посредством самостоятельного обучения. Фаза согласования с участием человека позволяет модели адаптироваться к различным задачам путем согласования привычек использования и ценностей.
Вставьте сюда описание изображения
Оглядываясь назад на различные этапы развития, мы можем увидеть следующие тенденции:

Данные: от данных к знаниям используется все больше и больше данных.будущее:Больше текстовых данных, больше других данных формы→любые данные.
Алгоритм: способность к самовыражению становится все сильнее и сильнее; способность к самостоятельному обучению становится все сильнее и сильнее от профессионального к общему;будущее:Трансформатора на данный момент достаточно, новая модель (следует подчеркнуть эффективность обучения)?→AGI?
Отношения «человек-машина»: путь назад, от инструктора к супервизору/будущее:Сотрудничество человека и машины, машинное обучение у людей→Человеческое обучение у машин?→Машины расширяют границы человеческих знаний

Вставьте сюда описание изображения

Маршрут развития технологий LLM: разнообразные пути

За последние несколько лет развитие технологии LLM показало разнообразные пути, включая режим BERT, режим GPT, режим T5 и т. д. Каждый режим имеет свои особенности и применимые сценарии.
Вставьте сюда описание изображения

Режим BERT (только для энкодера)

Модель BERT подходит для задач понимания естественного языка посредством двухэтапного процесса предварительного обучения двунаправленной языковой модели и точной настройки задачи (предварительная тренировка двунаправленной языковой модели + точная настройка задачи). Предварительное обучение BERT извлекает общие знания из общих данных, а точная настройка извлекает знания предметной области из данных предметной области.
Вставьте сюда описание изображения
Подходящие сценарии задач: более подходящие для понимания естественного языка, конкретные задачи в определенном сценарии, специализированные и легкие;
Вставьте сюда описание изображения

Режим GPT (только для декодера)

Режим GPT разработан на основе процесса предварительного обучения односторонней языковой модели и процесса подсказок или инструкций с нулевым/несколько раз (предварительное обучение односторонней языковой модели + подсказка с нулевым/несколько раз/инструктирование) и подходит для естественного Задача создания языка. Модели в режиме GPT обычно являются крупнейшими доступными LLM и могут решать более широкий круг задач.
Вставьте сюда описание изображения
Применимые сценарии: больше подходят для задач генерации естественного языка. В настоящее время все крупнейшие LLM работают в этом режиме: серия GPT, PaLM, LaMDA..., режим GPT рекомендуется для задач генерации/общих моделей;
Вставьте сюда описание изображения

Режим T5 (Кодер-Декодер)

Режим T5 сочетает в себе характеристики BERT и GPT и подходит для генерации и понимания задач. Задача заполнения пустых полей в режиме T5 (Span Corruption) — это эффективный метод предварительного обучения, который хорошо работает в задачах понимания естественного языка. Два этапа (предварительное обучение односторонней языковой модели + в основном тонкая настройка)
Вставьте сюда описание изображения
Особенности: Похоже на GPT, похоже на Берта.
Применимые сценарии: приемлемы как генерация, так и понимание. С точки зрения эффекта он больше подходит для задач понимания естественного языка. Многие крупные отечественные LLM используют этот режим, если это задача понимания естественного языка в одной области; рекомендуется использовать режим Т5;
Вставьте сюда описание изображения

Почему очень большие LLM работают в режиме GPT?

Super LLM: достижение эффектов нулевого выстрела/несколько выстрелов/инструктирования
Выводы текущего исследования

(Когда размер модели небольшой):

Категория понимания естественного языка: режим T5 работает лучше всего.
Класс генерации естественного языка: режим GPT работает лучше всего.
Нулевой снимок: режим GPT работает лучше всего.
Если после Pretrain ввести многозадачную тонкую настройку, режим Т5 будет работать лучше (вывод сомнительный: текущий экспериментальный Кодер-Декодер имеет в два раза больше параметров только для Декодера. Достоверен ли вывод?)

Выводы текущего исследования (очень крупномасштабные):
Факт: почти все модели LLM, превышающие 100B, поддерживают режим GPT.

возможная причина:
1. Двунаправленное внимание в кодировщике-декодере нарушает способность нулевого выстрела (проверьте).
2. Структура «Кодер-декодер» может уделять внимание только кодировщику высокого уровня при генерации токена. Структура «только декодер» может уделять внимание послойно при генерации токена, и информация является более детальной.
3. Кодер-декодер тренируется «заполнять пробелы» и генерирует последнее слово. Следующий токен. Существует несогласованность. Методы обучения и генерации структуры только для декодера согласованы.

Проблемы и возможности очень крупных LLM

По мере роста размера модели исследователи сталкиваются с проблемой эффективного использования пространства параметров. Исследование модели «Шиншилла» показывает, что, когда данных достаточно, текущий масштаб LLM может быть больше идеального масштаба, и происходит пустая трата пространства параметров. Однако Закон масштабирования также указывает, что чем больше масштаб модели, тем больше данных. и чем полнее обучение, тем лучше эффект от модели LLM. Более реальная идея: сначала сделать его маленьким (GPT 3 не должен быть таким большим), а затем сделать его большим (после полного использования параметров модели продолжайте увеличивать его).
Вставьте сюда описание изображения

Конечно, учитывая, что мультимодальный LLM требует более богатых возможностей восприятия реальной среды, он также выдвигает более высокие требования к параметрам LLM.
Мультимодальный LLM: визуальный ввод (изображения, видео), слуховой ввод (аудио), тактильный ввод (давление).
Вставьте сюда описание изображения
сталкиваются с проблемами: Мультимодальный LLM выглядит довольно хорошо и в значительной степени зависит от больших наборов данных, организованных вручную.

Например, ALIGN: 1,8B графики и текста/LAION: 5,8B графики и текстовых данных (отфильтрованных с помощью CLIP, на данный момент самых больших графических и текстовых данных) в настоящее время представляет собой текст с летающими изображениями?

Обработка изображений: Путь технологии самоконтроля пробуется, но еще не был успешно реализован (сравнительное обучение/MAE)/если он будет успешно реализован, это станет еще одним огромным технологическим прорывом в области искусственного интеллекта;

Если ее удастся решить, ожидается, что некоторые текущие задачи понимания изображений (семантическая сегментация/распознавание и т. д.) будут интегрированы в LLM и исчезнут.

Вставьте сюда описание изображения

Улучшите возможности сложного рассуждения LLM

Хотя текущий LLM обладает определенными возможностями простого рассуждения, у него все еще есть недостатки в сложном рассуждении. Например, такие задачи, как сложение нескольких цифр, остаются проблемой для LLM. Исследователи изучают, как превратить сложные рассуждения в более мелкие модели с помощью технических средств, таких как семантическая декомпозиция.
Вставьте сюда описание изображения
Конечно, эту проблему также можно обойти с помощью аутсорсинга мощностей, например, объединив его с инструментами: вычислительная мощность (внешний калькулятор), запрос новой информации (поисковик) и другие возможности дополняются с помощью внешних инструментов.
Вставьте сюда описание изображения

Взаимодействие между LLM и физическим миром

Концепция воплощенного интеллекта сочетает в себе LLM с робототехникой и использует обучение с подкреплением для получения воплощенного интеллекта посредством взаимодействия с физическим миром. . Например, модель PaLM-E от Google объединяет 540 миллиардов PaLM и 22 миллиарда ViT, демонстрируя потенциал LLM в мультимодальной среде.
Вставьте сюда описание изображения

Другие направления исследований

Приобретение новых знаний: В настоящее время есть определенные трудности, но есть и некоторые методы (LLM+Извлечение)
Исправление старых знаний: в настоящее время имеются некоторые результаты исследований, которые еще необходимо оптимизировать.
Интеграция знаний частной сферы: точная настройка?
Лучшее понимание команд: все еще требуется оптимизация (серьезная ерунда)
Сокращение затрат на обучение: быстрое развитие в ближайшие один-два года
Построение набора данных для китайской оценки: лакмусовая бумажка способностей. В настоящее время существуют некоторые оценочные наборы на английском языке, такие как HELM/BigBench и т. д., но на китайском языке отсутствуют наборы данных для многозадачной, высокой сложности и многоугольной оценки.

Заключение

В этой статье глубоко исследуется история развития, техническая дорожная карта и их влияние на будущую область искусственного интеллекта LLM. Развитие LLM — это не только технологический прогресс, но и глубокое размышление о наших возможностях машинного понимания. От правил до статистики, глубокого обучения и предварительной подготовки — каждый шаг открывает нам новые перспективы и инструменты. Сегодня мы стоим на пороге новой эры крупномасштабных языковых моделей, сталкиваясь с беспрецедентными возможностями и проблемами.

Обмен технологиями