gptpdf von LLMs: Einführung in gptpdf, Installations- und Verwendungsmethoden und ausführlicher Leitfaden für Fallanwendungen

2024-07-08

Inhaltsverzeichnis

Einführung in gptpdf

1. Verarbeitungsprozess

Der erste Schritt besteht darin, die PyMuPDF-Bibliothek zu verwenden, um alle Nicht-Textbereiche der PDF-Datei zu analysieren und zu markieren, wie zum Beispiel:

Verwenden Sie im zweiten Schritt ein großes visuelles Modell (z. B. GPT-4o), um eine Markdown-Datei zu analysieren und zu erhalten.

So installieren und verwenden Sie gptpdf

1. Installation

2. Verwendung

Test.py-Code interpretieren

3. API

Fallanwendung von gptpdf

Einführung in gptpdf

gptpdf ist ein Tool, das hauptsächlich visuelle große Sprachmodelle (wie GPT-4o) verwendet, um PDF in Markdown zu analysieren.Unser Ansatz ist sehr einfach (nur 293 Zeilen Code), aber fastAnalysieren Sie Typografie, mathematische Formeln, Tabellen, Bilder, Diagramme usw. perfekt. . Der durchschnittliche Preis pro Seite beträgt nur 0,013 $ und wir verwenden die GeneralAgent-Bibliothek, um mit der OpenAI-API zu interagieren. pdfgpt-ui ist ein Visualisierungstool, das auf gptpdf basiert.

Github-Adresse：GitHub - CosmosShadow/gptpdf: Verwenden von GPT zum Parsen von PDF

1、Verarbeitungsablauf

Der erste Schritt besteht darin, die PyMuPDF-Bibliothek zu verwenden, um alle Nicht-Textbereiche der PDF-Datei zu analysieren und zu markieren, wie zum Beispiel:

Verwenden Sie im zweiten Schritt ein großes visuelles Modell (z. B. GPT-4o), um eine Markdown-Datei zu analysieren und zu erhalten.

So installieren und verwenden Sie gptpdf

1、Installieren

pip install gptpdf

2、verwenden

from gptpdf import parse_pdf

api_key = 'Your OpenAI API Key'
content, image_paths = parse_pdf(pdf_path, api_key=api_key)
print(content)

Weitere Informationen finden Sie unter test/test.py

Adresse:https://github.com/CosmosShadow/gptpdf/blob/main/test/test.py

Test.py-Code interpretieren

import os

# 从 .env 文件中加载环境变量
import dotenv
dotenv.load_dotenv()

def test_use_api_key():
    from gptpdf import parse_pdf
    pdf_path = '../examples/attention_is_all_you_need.pdf'
    output_dir = '../examples/attention_is_all_you_need/'
    # 从环境变量中获取 OPENAI_API_KEY 和 OPENAI_API_BASE
    api_key = os.getenv('OPENAI_API_KEY')
    base_url = os.getenv('OPENAI_API_BASE')
    # 手动提供 OPENAI_API_KEY 和 OPENAI_API_BASE
    content, image_paths = parse_pdf(pdf_path, output_dir=output_dir, api_key=api_key, base_url=base_url, model='gpt-4o', gpt_worker=6)
    # 输出解析后的内容和图像路径
    print(content)
    print(image_paths)
    # 同时会生成 output_dir/output.md 文件

def test_use_env():
    from gptpdf import parse_pdf
    pdf_path = '../examples/attention_is_all_you_need.pdf'
    output_dir = '../examples/attention_is_all_you_need/'
    # 使用环境变量中的 OPENAI_API_KEY 和 OPENAI_API_BASE
    content, image_paths = parse_pdf(pdf_path, output_dir=output_dir, model='gpt-4o', verbose=True)
    # 输出解析后的内容和图像路径
    print(content)
    print(image_paths)
    # 同时会生成 output_dir/output.md 文件

def test_azure():
    from gptpdf import parse_pdf
    # Azure API Key
    api_key = '8ef0b4df45e444079cd5a4xxxxx' 
    # Azure API 基础 URL
    base_url = 'https://xxx.openai.azure.com/' 
    # Azure 部署的模型 ID 名称（不是 OpenAI 模型名称）
    model = 'azure_xxxx'

    pdf_path = '../examples/attention_is_all_you_need.pdf'
    output_dir = '../examples/attention_is_all_you_need/'
    # 使用提供的 Azure API Key 和基础 URL
    content, image_paths = parse_pdf(pdf_path, output_dir=output_dir, api_key=api_key, base_url=base_url, model=model, verbose=True)
    # 输出解析后的内容和图像路径
    print(content)
    print(image_paths)

if __name__ == '__main__':
    # 取消注释以运行特定的测试函数
    # test_use_api_key()
    # test_use_env()
    test_azure()

3. API

parse_pdf(pdf_Pfad, Ausgabeverzeichnis='./', API-Schlüssel=Keine, Basis-URL=Keine, Modell='gpt-4o', ausführlich=Falsch)
Analysieren Sie die PDF-Datei in eine Markdown-Datei und geben Sie den Markdown-Inhalt und eine Liste aller Bildpfade zurück.

pdf_Pfad:pdf-Dateipfad
Ausgabeverzeichnis : Ausgabe Verzeichnis.Speichern Sie alle Bilder und Markdown-Dateien
API-Schlüssel :OpenAI-API-Schlüssel (optional). Wenn nicht angegeben, wird die Umgebungsvariable OPENAI_API_KEY verwendet.
Basis-URL : OpenAI-Basis-URL. (Optional). Wenn nicht angegeben, wird die Umgebungsvariable OPENAI_BASE_URL verwendet.
Modell : Multimodales großes Modell im OpenAI-API-Format, Standard ist „gpt-4o“. Wenn Sie andere Modelle verwenden müssen, z

Technologieaustausch