"Análisis profundo" ChatGPT2: modelo de lenguaje para el aprendizaje multitarea no supervisado (2019)

2024-07-12

Resumen del artículo

El siguiente es mi resumen personal después de leer el artículo completo, que contiene el contenido principal del artículo ChatGPT-2. Solo puede leer el capítulo [Resumen del artículo].

conjunto de datos

Hice un rastreador web casero. Algunas de las páginas web rastreadas provienen de plataformas sociales. Estas páginas web se filtran manualmente.final generado
Conjunto de datos de texto web
, que contiene 45 millones de enlaces. La otra parte proviene de sitios web de noticias. A diciembre de 2017, el volumen total de datos alcanza los 8.000.000 de artículos, con un total de 40 GB de contenido de texto.El artículo también menciona que los textos que incluyen Wikipedia y otros textos también se incluyen en el conjunto de datos de entrenamiento, por
Participan millones de personas en todo el mundo
para crear y limpiar el conjunto de datos utilizado para el entrenamiento de GPT-2.

Representación de entrada

diseñó un
Representación de entrada híbrida que combina representación a nivel de palabra y representación a nivel de byte
. Para las bibliotecas a nivel de palabras anteriores, se eliminó una gran cantidad de palabras repetidas y se introdujo la representación a nivel de bytes para mejorar las capacidades de generalización.

La representación a nivel de palabra tiene ventajas a priori y la representación a nivel de byte tiene ventajas de generalización.

Modelo

Se han realizado algunas modificaciones para GPT1:

1. Mueva la normalización de capa a la entrada de cada subbloque.

2. Agregue normalización de capa adicional después del bloque de atención personal.

3. Se mejoró el método de inicialización (durante la inicialización, el peso de la capa residual se expande en un múltiplo de 1/√N, N es el número de capas residuales).

4. Ampliación del diccionario, expansión de la segmentación de palabras, expansión del conjunto de instrucciones y expansión del tamaño del procesamiento por lotes.

5.GPT contiene 117000000 parámetros,
GPT-2 contiene 1542000000 parámetros
。

experimento

Debido a que solo entrenamos una vez, pero queremos observar el desempeño del modelo en varias subdivisiones, todos los experimentos se pueden clasificar como
Aprendizaje de tiro cero
。

Artículos de prueba	¿Qué aspecto del modelo se prueba?	Resultados de la prueba
Libros para niños	Identificar diferentes tipos de vocabulario.	ACC mejoró de 85,7 a 93,3
prueba LAMBADA	La capacidad de identificar dependencias largas en el texto.	PPL99.8 reducido a 8.63
Desafío del esquema de Winograd	razonamiento de sentido común	63,7% aumentó a 70,7%
comprensión lectora	El modelo debe tener ciertas capacidades de memoria.	4 pruebas y 3 registros históricos actualizados
Resumen	La capacidad de extraer resúmenes de artículos de noticias.	En línea con resultados históricos
traducir	Capacidades de traducción del aprendizaje automático de modelos grandes.	La traducción al inglés es deficiente, mientras que la traducción al francés alcanza el nivel de referencia.
Preguntas y respuestas	La capacidad de un modelo para responder correctamente a preguntas plausibles.	La precisión aumentó 5,3 veces

Resumir

El contenido central del documento GPT-2 se puede resumir en una frase: es decir
Basado en el modelo GPT, el autor aumentó el tamaño del modelo y el tamaño del conjunto de datos de entrenamiento y descubrió que GPT-2 puede adaptarse y completar automáticamente el aprendizaje de los objetivos de la tarea en diferentes campos de la PNL.
。

Por ejemplo, ingresamos conjuntos de datos de texto de conversaciones diarias y texto de informes de noticias en un modelo de lenguaje fijo al mismo tiempo, y este conjunto de datos es lo suficientemente grande, el modelo es lo suficientemente grande y el tiempo de entrenamiento es lo suficientemente largo. El modelo final tendrá la capacidad de distinguir diferentes escenarios de conversaciones diarias e informes de noticias. No solo eso, el modelo también tendrá automáticamente algunas capacidades nuevas, como la capacidad de escribir resúmenes de noticias.

Esto significa que los modelos de lenguaje grandes tienen fuertes capacidades de generalización, pero también significa que
Los grandes modelos de lenguaje serán potencialmente autónomos
. Luego, este artículo presenta resultados experimentales para varias áreas independientes enumeradas por el autor.

En comparación con el artículo de GPT que solo mencionaba un gran conjunto de datos, la descripción de LLM (modelo de lenguaje grande) comenzó a aparecer en el artículo de GPT-2.

Interpretación del texto original del artículo.

Dirección del artículo original: https://cdn.openai.com/better-language-models/language_models_are_uns

Compartir tecnología