gptpdf de LLM: introducción a gptpdf, métodos de instalación y uso, y guía detallada de aplicaciones de casos

2024-07-08

Tabla de contenido

El primer paso es utilizar la biblioteca PyMuPDF para analizar todas las áreas que no son de texto del PDF y marcarlas, como por ejemplo:

En el segundo paso, utilice un modelo visual grande (como GPT-4o) para analizar y obtener un archivo de rebajas.

Cómo instalar y usar gptpdf

1. Instalación

2. uso

Interpretar el código test.py

3. API

Aplicación de caso de gptpdf

Introducción a gptpdf

gptpdf es una herramienta que utiliza principalmente modelos de lenguaje visual grande (como GPT-4o) para analizar PDF en rebajas.Nuestro enfoque es muy simple (sólo 293 líneas de código) pero casiAnaliza perfectamente tipografía, fórmulas matemáticas, tablas, imágenes, gráficos, etc. . El precio promedio por página es de solo $ 0,013 y utilizamos la biblioteca GeneralAgent para interactuar con la API de OpenAI. pdfgpt-ui es una herramienta de visualización basada en gptpdf.

dirección de github：GitHub - CosmosShadow/gptpdf: Cómo usar GPT para analizar archivos PDF

1、Flujo de procesamiento

El primer paso es utilizar la biblioteca PyMuPDF para analizar todas las áreas que no son de texto del PDF y marcarlas, como por ejemplo:

En el segundo paso, utilice un modelo visual grande (como GPT-4o) para analizar y obtener un archivo de rebajas.

Cómo instalar y usar gptpdf

1、Instalar

pip install gptpdf

2、usar

from gptpdf import parse_pdf

api_key = 'Your OpenAI API Key'
content, image_paths = parse_pdf(pdf_path, api_key=api_key)
print(content)

Para obtener más información, consulte prueba/test.py

DIRECCIÓN:https://github.com/CosmosShadow/gptpdf/blob/main/test/test.py

Interpretar el código test.py

import os

# 从 .env 文件中加载环境变量
import dotenv
dotenv.load_dotenv()

def test_use_api_key():
    from gptpdf import parse_pdf
    pdf_path = '../examples/attention_is_all_you_need.pdf'
    output_dir = '../examples/attention_is_all_you_need/'
    # 从环境变量中获取 OPENAI_API_KEY 和 OPENAI_API_BASE
    api_key = os.getenv('OPENAI_API_KEY')
    base_url = os.getenv('OPENAI_API_BASE')
    # 手动提供 OPENAI_API_KEY 和 OPENAI_API_BASE
    content, image_paths = parse_pdf(pdf_path, output_dir=output_dir, api_key=api_key, base_url=base_url, model='gpt-4o', gpt_worker=6)
    # 输出解析后的内容和图像路径
    print(content)
    print(image_paths)
    # 同时会生成 output_dir/output.md 文件

def test_use_env():
    from gptpdf import parse_pdf
    pdf_path = '../examples/attention_is_all_you_need.pdf'
    output_dir = '../examples/attention_is_all_you_need/'
    # 使用环境变量中的 OPENAI_API_KEY 和 OPENAI_API_BASE
    content, image_paths = parse_pdf(pdf_path, output_dir=output_dir, model='gpt-4o', verbose=True)
    # 输出解析后的内容和图像路径
    print(content)
    print(image_paths)
    # 同时会生成 output_dir/output.md 文件

def test_azure():
    from gptpdf import parse_pdf
    # Azure API Key
    api_key = '8ef0b4df45e444079cd5a4xxxxx' 
    # Azure API 基础 URL
    base_url = 'https://xxx.openai.azure.com/' 
    # Azure 部署的模型 ID 名称（不是 OpenAI 模型名称）
    model = 'azure_xxxx'

    pdf_path = '../examples/attention_is_all_you_need.pdf'
    output_dir = '../examples/attention_is_all_you_need/'
    # 使用提供的 Azure API Key 和基础 URL
    content, image_paths = parse_pdf(pdf_path, output_dir=output_dir, api_key=api_key, base_url=base_url, model=model, verbose=True)
    # 输出解析后的内容和图像路径
    print(content)
    print(image_paths)

if __name__ == '__main__':
    # 取消注释以运行特定的测试函数
    # test_use_api_key()
    # test_use_env()
    test_azure()

3. API

analizar_pdf(ruta_pdf, directorio_salida='./', clave_api=Ninguna, url_base=Ninguna, modelo='gpt-4o', verbose=Falso)
Analice el archivo pdf en un archivo de rebajas y devuelva el contenido de las rebajas y una lista de todas las rutas de imágenes.

ruta_pdf:ruta del archivo pdf
directorio_de_salida : Directorio de salida.Almacene todas las imágenes y archivos de rebajas
Clave API : Clave API OpenAI (opcional). Si no se proporciona, se utiliza la variable de entorno OPENAI_API_KEY.
URL base : URL base de OpenAI. (opcional). Si no se proporciona, se utiliza la variable de entorno OPENAI_BASE_URL.
modelo : Modelo grande multimodal en formato API OpenAI, el valor predeterminado es "gpt-4o". Si necesita utilizar otros modelos como

Compartir tecnología