Mi información de contacto
Correomesophia@protonmail.com
2024-07-12
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
El siguiente es mi resumen personal después de leer el artículo completo, que contiene el contenido principal del artículo ChatGPT-2. Solo puede leer el capítulo [Resumen del artículo].
Hice un rastreador web casero. Algunas de las páginas web rastreadas provienen de plataformas sociales. Estas páginas web se filtran manualmente.final generado
Conjunto de datos de texto web
, que contiene 45 millones de enlaces. La otra parte proviene de sitios web de noticias. A diciembre de 2017, el volumen total de datos alcanza los 8.000.000 de artículos, con un total de 40 GB de contenido de texto.El artículo también menciona que los textos que incluyen Wikipedia y otros textos también se incluyen en el conjunto de datos de entrenamiento, por
Participan millones de personas en todo el mundo
para crear y limpiar el conjunto de datos utilizado para el entrenamiento de GPT-2.
diseñó un
Representación de entrada híbrida que combina representación a nivel de palabra y representación a nivel de byte
. Para las bibliotecas a nivel de palabras anteriores, se eliminó una gran cantidad de palabras repetidas y se introdujo la representación a nivel de bytes para mejorar las capacidades de generalización.
La representación a nivel de palabra tiene ventajas a priori y la representación a nivel de byte tiene ventajas de generalización.
Se han realizado algunas modificaciones para GPT1:
1. Mueva la normalización de capa a la entrada de cada subbloque.
2. Agregue normalización de capa adicional después del bloque de atención personal.
3. Se mejoró el método de inicialización (durante la inicialización, el peso de la capa residual se expande en un múltiplo de 1/√N, N es el número de capas residuales).
4. Ampliación del diccionario, expansión de la segmentación de palabras, expansión del conjunto de instrucciones y expansión del tamaño del procesamiento por lotes.
5.GPT contiene 117000000 parámetros,
GPT-2 contiene 1542000000 parámetros
。
Debido a que solo entrenamos una vez, pero queremos observar el desempeño del modelo en varias subdivisiones, todos los experimentos se pueden clasificar como
Aprendizaje de tiro cero
。
Artículos de prueba | ¿Qué aspecto del modelo se prueba? | Resultados de la prueba |
---|---|---|
Libros para niños | Identificar diferentes tipos de vocabulario. | ACC mejoró de 85,7 a 93,3 |
prueba LAMBADA | La capacidad de identificar dependencias largas en el texto. | PPL99.8 reducido a 8.63 |
Desafío del esquema de Winograd | razonamiento de sentido común | 63,7% aumentó a 70,7% |
comprensión lectora | El modelo debe tener ciertas capacidades de memoria. | 4 pruebas y 3 registros históricos actualizados |
Resumen | La capacidad de extraer resúmenes de artículos de noticias. | En línea con resultados históricos |
traducir | Capacidades de traducción del aprendizaje automático de modelos grandes. | La traducción al inglés es deficiente, mientras que la traducción al francés alcanza el nivel de referencia. |
Preguntas y respuestas | La capacidad de un modelo para responder correctamente a preguntas plausibles. | La precisión aumentó 5,3 veces |
El contenido central del documento GPT-2 se puede resumir en una frase: es decir
Basado en el modelo GPT, el autor aumentó el tamaño del modelo y el tamaño del conjunto de datos de entrenamiento y descubrió que GPT-2 puede adaptarse y completar automáticamente el aprendizaje de los objetivos de la tarea en diferentes campos de la PNL.
。
Por ejemplo, ingresamos conjuntos de datos de texto de conversaciones diarias y texto de informes de noticias en un modelo de lenguaje fijo al mismo tiempo, y este conjunto de datos es lo suficientemente grande, el modelo es lo suficientemente grande y el tiempo de entrenamiento es lo suficientemente largo. El modelo final tendrá la capacidad de distinguir diferentes escenarios de conversaciones diarias e informes de noticias. No solo eso, el modelo también tendrá automáticamente algunas capacidades nuevas, como la capacidad de escribir resúmenes de noticias.
Esto significa que los modelos de lenguaje grandes tienen fuertes capacidades de generalización, pero también significa que
Los grandes modelos de lenguaje serán potencialmente autónomos
. Luego, este artículo presenta resultados experimentales para varias áreas independientes enumeradas por el autor.
En comparación con el artículo de GPT que solo mencionaba un gran conjunto de datos, la descripción de LLM (modelo de lenguaje grande) comenzó a aparecer en el artículo de GPT-2.
Dirección del artículo original: https://cdn.openai.com/better-language-models/language_models_are_uns