Обмен технологиями

«Глубокий анализ» ChatGPT2: языковая модель для многозадачного обучения без учителя (2019)

2024-07-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Резюме статьи

Ниже приводится мое личное резюме после прочтения всей статьи, содержащей основное содержание статьи ChatGPT-2. Вы можете прочитать только главу [Резюме статьи].

набор данных

Я сделал самодельный веб-сканер. Некоторые сканируемые веб-страницы взяты из социальных платформ. Эти веб-страницы фильтруются вручную.окончательный сгенерированный
Набор данных веб-текста
, содержащий 45 миллионов ссылок. Другая часть поступает с новостных сайтов. По состоянию на декабрь 2017 года общий объем данных достигает 8 000 000 статей с общим объемом текстового контента 40 ГБ.В статье также упоминается, что тексты, включая Википедию и другие тексты, также включены в набор обучающих данных.
В нем принимают участие миллионы людей по всему миру.
для создания и очистки набора данных, используемого для обучения GPT-2.

Входное представление

разработал
Гибридное представление ввода, которое сочетает в себе представление на уровне слова и представление на уровне байта.
. В предыдущих библиотеках уровня слов было удалено большое количество повторяющихся слов, а для улучшения возможностей обобщения было введено представление на уровне байтов.

Представление на уровне слова имеет априорные преимущества, а представление на уровне байта имеет преимущества обобщения.

Модель

Для GPT1 были внесены некоторые изменения:

1. Переместите нормализацию слоя на вход каждого подблока.

2. Добавьте дополнительную нормализацию слоя после блока самообслуживания.

3. Улучшен метод инициализации (при инициализации вес остаточного слоя расширяется кратно 1/√N, N — количество остаточных слоев).

4. Расширение словаря, расширение сегментации слов, расширение набора команд и увеличение размера пакетной обработки.

5.GPT содержит 117000000 параметров,
GPT-2 содержит 1542000000 параметров.

эксперимент

Поскольку мы тренируемся только один раз, но хотим наблюдать за работой модели в различных подразделениях, все эксперименты можно классифицировать как
Обучение с нулевым выстрелом

Тестовые заданияКакой аспект модели тестируется?Результаты теста
детские книгиОпределить различные типы словарного запасаACC улучшен с 85,7 до 93,3.
ЛАМБАДА-тестВозможность выявления длинных зависимостей в текстеPPL99,8 снижен до 8,63
Задача схемы Виноградарассуждения здравого смысла63,7% увеличился до 70,7%
Понимание прочитанногоМодель должна иметь определенные возможности памяти.4 теста и 3 обновленных исторических рекорда
Краткое содержаниеВозможность извлечения краткого изложения новостных статей.В соответствии с историческими результатами
переводитьВозможности перевода автоматического обучения больших моделейАнглийский перевод оставляет желать лучшего, тогда как французский перевод достигает эталонного уровня.
Вопросы и ответыСпособность модели правильно отвечать на правдоподобные вопросы.Точность увеличена в 5,3 раза
Подведем итог

Основное содержание документа GPT-2 можно резюмировать одним предложением:
На основе модели GPT автор увеличил размер модели и размер набора обучающих данных и обнаружил, что GPT-2 может автоматически адаптироваться и завершать обучение целям задач в различных областях НЛП.

Например, мы одновременно вводим наборы данных с текстом ежедневного разговора и текстом новостного отчета в фиксированную языковую модель, и этот набор данных достаточно велик, модель достаточно велика, а время обучения достаточно велико. Окончательная модель будет иметь возможность различать различные сценарии ежедневных разговоров и новостных репортажей. Мало того, модель также автоматически получит некоторые новые возможности, такие как возможность писать сводки новостей.

Это означает, что большие языковые модели обладают сильными возможностями обобщения, но это также означает, что
Большие языковые модели будут потенциально автономными
. Затем в этой статье представлены экспериментальные результаты для нескольких независимых областей, перечисленных автором.

По сравнению с документом GPT, в котором упоминался только большой набор данных, описание LLM (большая языковая модель) начало появляться в документе GPT-2.


Интерпретация оригинального текста статьи

Адрес оригинальной статьи: https://cdn.openai.com/better-language-models/language_models_are_uns.