«Глубокий анализ» ChatGPT2: языковая модель для многозадачного обучения без учителя (2019)

2024-07-12

Резюме статьи

Ниже приводится мое личное резюме после прочтения всей статьи, содержащей основное содержание статьи ChatGPT-2. Вы можете прочитать только главу [Резюме статьи].

набор данных

Я сделал самодельный веб-сканер. Некоторые сканируемые веб-страницы взяты из социальных платформ. Эти веб-страницы фильтруются вручную.окончательный сгенерированный
Набор данных веб-текста
, содержащий 45 миллионов ссылок. Другая часть поступает с новостных сайтов. По состоянию на декабрь 2017 года общий объем данных достигает 8 000 000 статей с общим объемом текстового контента 40 ГБ.В статье также упоминается, что тексты, включая Википедию и другие тексты, также включены в набор обучающих данных.
В нем принимают участие миллионы людей по всему миру.
для создания и очистки набора данных, используемого для обучения GPT-2.

Входное представление

разработал
Гибридное представление ввода, которое сочетает в себе представление на уровне слова и представление на уровне байта.
. В предыдущих библиотеках уровня слов было удалено большое количество повторяющихся слов, а для улучшения возможностей обобщения было введено представление на уровне байтов.

Представление на уровне слова имеет априорные преимущества, а представление на уровне байта имеет преимущества обобщения.

Модель

Для GPT1 были внесены некоторые изменения:

1. Переместите нормализацию слоя на вход каждого подблока.

2. Добавьте дополнительную нормализацию слоя после блока самообслуживания.

3. Улучшен метод инициализации (при инициализации вес остаточного слоя расширяется кратно 1/√N, N — количество остаточных слоев).

4. Расширение словаря, расширение сегментации слов, расширение набора команд и увеличение размера пакетной обработки.

5.GPT содержит 117000000 параметров,
GPT-2 содержит 1542000000 параметров.
。

эксперимент

Поскольку мы тренируемся только один раз, но хотим наблюдать за работой модели в различных подразделениях, все эксперименты можно классифицировать как
Обучение с нулевым выстрелом
。

Тестовые задания	Какой аспект модели тестируется?	Результаты теста
детские книги	Определить различные типы словарного запаса	ACC улучшен с 85,7 до 93,3.
ЛАМБАДА-тест	Возможность выявления длинных зависимостей в тексте	PPL99,8 снижен до 8,63
Задача схемы Винограда	рассуждения здравого смысла	63,7% увеличился до 70,7%
Понимание прочитанного	Модель должна иметь определенные возможности памяти.	4 теста и 3 обновленных исторических рекорда
Краткое содержание	Возможность извлечения краткого изложения новостных статей.	В соответствии с историческими результатами
переводить	Возможности перевода автоматического обучения больших моделей	Английский перевод оставляет желать лучшего, тогда как французский перевод достигает эталонного уровня.
Вопросы и ответы	Способность модели правильно отвечать на правдоподобные вопросы.	Точность увеличена в 5,3 раза

Подведем итог

Основное содержание документа GPT-2 можно резюмировать одним предложением:
На основе модели GPT автор увеличил размер модели и размер набора обучающих данных и обнаружил, что GPT-2 может автоматически адаптироваться и завершать обучение целям задач в различных областях НЛП.
。

Например, мы одновременно вводим наборы данных с текстом ежедневного разговора и текстом новостного отчета в фиксированную языковую модель, и этот набор данных достаточно велик, модель достаточно велика, а время обучения достаточно велико. Окончательная модель будет иметь возможность различать различные сценарии ежедневных разговоров и новостных репортажей. Мало того, модель также автоматически получит некоторые новые возможности, такие как возможность писать сводки новостей.

Это означает, что большие языковые модели обладают сильными возможностями обобщения, но это также означает, что
Большие языковые модели будут потенциально автономными
. Затем в этой статье представлены экспериментальные результаты для нескольких независимых областей, перечисленных автором.

По сравнению с документом GPT, в котором упоминался только большой набор данных, описание LLM (большая языковая модель) начало появляться в документе GPT-2.

Интерпретация оригинального текста статьи

Адрес оригинальной статьи: https://cdn.openai.com/better-language-models/language_models_are_uns.

Обмен технологиями