Обмен технологиями

gptpdf LLM: введение в gptpdf, методы установки и использования, а также подробное руководство по конкретным случаям применения.

2024-07-08

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

gptpdf LLM: введение в gptpdf, методы установки и использования, а также подробное руководство по конкретным случаям применения.

Оглавление

Введение в gptpdf

1. Процесс обработки

Первый шаг — использовать библиотеку PyMuPDF для анализа всех нетекстовых областей PDF-файла и их маркировки, например:

На втором этапе используйте большую визуальную модель (например, GPT-4o) для анализа и получения файла уценки.

Как установить и использовать gptpdf

1. Установка

2. Используйте

Интерпретация кода test.py

3. API-интерфейс

Пример применения gptpdf


Введение в gptpdf

gptpdf — это инструмент, который в основном использует визуальные модели большого языка (например, GPT-4o) для анализа PDF в уценке.Наш подход очень прост (всего 293 строки кода), но почтиПрекрасно разбирать типографику, математические формулы, таблицы, картинки, диаграммы и т.д. . Средняя цена за страницу составляет всего 0,013 доллара США, и для взаимодействия с API OpenAI мы используем библиотеку GeneralAgent. pdfgpt-ui — инструмент визуализации, основанный на gptpdf.

Адрес ГитхабаGitHub - CosmosShadow/gptpdf: использование GPT для анализа PDF

1、Процесс обработки

Первый шаг — использовать библиотеку PyMuPDF для анализа всех нетекстовых областей PDF-файла и их маркировки, например:

На втором этапе используйте большую визуальную модель (например, GPT-4o) для анализа и получения файла уценки.

Как установить и использовать gptpdf

1、Установить

pip install gptpdf

2、использовать

from gptpdf import parse_pdf

api_key = 'Your OpenAI API Key'
content, image_paths = parse_pdf(pdf_path, api_key=api_key)
print(content)

Для получения дополнительной информации см. test/test.py.

адрес:https://github.com/CosmosShadow/gptpdf/blob/main/test/test.py

Интерпретация кода test.py

import os

# 从 .env 文件中加载环境变量
import dotenv
dotenv.load_dotenv()

def test_use_api_key():
    from gptpdf import parse_pdf
    pdf_path = '../examples/attention_is_all_you_need.pdf'
    output_dir = '../examples/attention_is_all_you_need/'
    # 从环境变量中获取 OPENAI_API_KEY 和 OPENAI_API_BASE
    api_key = os.getenv('OPENAI_API_KEY')
    base_url = os.getenv('OPENAI_API_BASE')
    # 手动提供 OPENAI_API_KEY 和 OPENAI_API_BASE
    content, image_paths = parse_pdf(pdf_path, output_dir=output_dir, api_key=api_key, base_url=base_url, model='gpt-4o', gpt_worker=6)
    # 输出解析后的内容和图像路径
    print(content)
    print(image_paths)
    # 同时会生成 output_dir/output.md 文件

def test_use_env():
    from gptpdf import parse_pdf
    pdf_path = '../examples/attention_is_all_you_need.pdf'
    output_dir = '../examples/attention_is_all_you_need/'
    # 使用环境变量中的 OPENAI_API_KEY 和 OPENAI_API_BASE
    content, image_paths = parse_pdf(pdf_path, output_dir=output_dir, model='gpt-4o', verbose=True)
    # 输出解析后的内容和图像路径
    print(content)
    print(image_paths)
    # 同时会生成 output_dir/output.md 文件

def test_azure():
    from gptpdf import parse_pdf
    # Azure API Key
    api_key = '8ef0b4df45e444079cd5a4xxxxx' 
    # Azure API 基础 URL
    base_url = 'https://xxx.openai.azure.com/' 
    # Azure 部署的模型 ID 名称(不是 OpenAI 模型名称)
    model = 'azure_xxxx'

    pdf_path = '../examples/attention_is_all_you_need.pdf'
    output_dir = '../examples/attention_is_all_you_need/'
    # 使用提供的 Azure API Key 和基础 URL
    content, image_paths = parse_pdf(pdf_path, output_dir=output_dir, api_key=api_key, base_url=base_url, model=model, verbose=True)
    # 输出解析后的内容和图像路径
    print(content)
    print(image_paths)

if __name__ == '__main__':
    # 取消注释以运行特定的测试函数
    # test_use_api_key()
    # test_use_env()
    test_azure()

3. API-интерфейс

parse_pdf(pdf_path, output_dir='./', api_key=Нет, base_url=Нет, model='gpt-4o', verbose=Ложь)
Разберите PDF-файл в файл уценки и верните содержимое уценки и список всех путей к изображениям.

  • pdf_путь:путь к файлу PDF

  • выходной_каталог : Выходной каталог.Храните все изображения и файлы уценки.

  • api_key :Ключ OpenAI API (необязательно). Если она не указана, используется переменная среды OPENAI_API_KEY.

  • базовый_url : базовый URL-адрес OpenAI. (необязательный). Если она не указана, используется переменная среды OPENAI_BASE_URL.

  • модель : Мультимодальная большая модель в формате OpenAI API, по умолчанию — «gpt-4o». Если вам нужно использовать другие модели, такие как