gptpdf des LLM : introduction à gptpdf, méthodes d'installation et d'utilisation, et guide détaillé des applications de cas

2024-07-08

Table des matières

Introduction à gptpdf

1. Processus de traitement

La première étape consiste à utiliser la bibliothèque PyMuPDF pour analyser toutes les zones non textuelles du PDF et les marquer, telles que :

Dans la deuxième étape, utilisez un grand modèle visuel (tel que GPT-4o) pour analyser et obtenir un fichier markdown.

Comment installer et utiliser gptpdf

1.Installation

2. Utiliser

Interpréter le code test.py

3. API

Cas d'application de gptpdf

Introduction à gptpdf

gptpdf est un outil qui utilise principalement de grands modèles de langage visuels (tels que GPT-4o) pour analyser le PDF en markdown.Notre approche est très simple (seulement 293 lignes de code) mais presqueAnalysez parfaitement la typographie, les formules mathématiques, les tableaux, les images, les graphiques, etc. . Le prix moyen par page n'est que de 0,013 $ et nous utilisons la bibliothèque GeneralAgent pour interagir avec l'API OpenAI. pdfgpt-ui est un outil de visualisation basé sur gptpdf.

Adresse GitHub：GitHub - CosmosShadow/gptpdf : Utilisation de GPT pour analyser un PDF

1、Flux de traitement

La première étape consiste à utiliser la bibliothèque PyMuPDF pour analyser toutes les zones non textuelles du PDF et les marquer, telles que :

Dans la deuxième étape, utilisez un grand modèle visuel (tel que GPT-4o) pour analyser et obtenir un fichier markdown.

Comment installer et utiliser gptpdf

1、Installer

pip install gptpdf

2、utiliser

from gptpdf import parse_pdf

api_key = 'Your OpenAI API Key'
content, image_paths = parse_pdf(pdf_path, api_key=api_key)
print(content)

Pour plus d'informations, consultez test/test.py

adresse:https://github.com/CosmosShadow/gptpdf/blob/main/test/test.py

Interpréter le code test.py

import os

# 从 .env 文件中加载环境变量
import dotenv
dotenv.load_dotenv()

def test_use_api_key():
    from gptpdf import parse_pdf
    pdf_path = '../examples/attention_is_all_you_need.pdf'
    output_dir = '../examples/attention_is_all_you_need/'
    # 从环境变量中获取 OPENAI_API_KEY 和 OPENAI_API_BASE
    api_key = os.getenv('OPENAI_API_KEY')
    base_url = os.getenv('OPENAI_API_BASE')
    # 手动提供 OPENAI_API_KEY 和 OPENAI_API_BASE
    content, image_paths = parse_pdf(pdf_path, output_dir=output_dir, api_key=api_key, base_url=base_url, model='gpt-4o', gpt_worker=6)
    # 输出解析后的内容和图像路径
    print(content)
    print(image_paths)
    # 同时会生成 output_dir/output.md 文件

def test_use_env():
    from gptpdf import parse_pdf
    pdf_path = '../examples/attention_is_all_you_need.pdf'
    output_dir = '../examples/attention_is_all_you_need/'
    # 使用环境变量中的 OPENAI_API_KEY 和 OPENAI_API_BASE
    content, image_paths = parse_pdf(pdf_path, output_dir=output_dir, model='gpt-4o', verbose=True)
    # 输出解析后的内容和图像路径
    print(content)
    print(image_paths)
    # 同时会生成 output_dir/output.md 文件

def test_azure():
    from gptpdf import parse_pdf
    # Azure API Key
    api_key = '8ef0b4df45e444079cd5a4xxxxx' 
    # Azure API 基础 URL
    base_url = 'https://xxx.openai.azure.com/' 
    # Azure 部署的模型 ID 名称（不是 OpenAI 模型名称）
    model = 'azure_xxxx'

    pdf_path = '../examples/attention_is_all_you_need.pdf'
    output_dir = '../examples/attention_is_all_you_need/'
    # 使用提供的 Azure API Key 和基础 URL
    content, image_paths = parse_pdf(pdf_path, output_dir=output_dir, api_key=api_key, base_url=base_url, model=model, verbose=True)
    # 输出解析后的内容和图像路径
    print(content)
    print(image_paths)

if __name__ == '__main__':
    # 取消注释以运行特定的测试函数
    # test_use_api_key()
    # test_use_env()
    test_azure()

3. API

analyser_pdf(pdf_path, output_dir='./', api_key=Aucun, base_url=Aucun, modèle='gpt-4o', verbose=False)
Analysez le fichier pdf dans un fichier markdown et renvoyez le contenu markdown et une liste de tous les chemins d'image.

chemin_pdf:chemin du fichier pdf
répertoire_de_sortie : Répertoire de sortie.Stockez toutes les images et fichiers de démarques
clé API :Clé API OpenAI (facultatif). Si elle n'est pas fournie, la variable d'environnement OPENAI_API_KEY est utilisée.
base_url : URL de base OpenAI. (facultatif). Si elle n'est pas fournie, la variable d'environnement OPENAI_BASE_URL est utilisée.
modèle : Grand modèle multimodal au format OpenAI API, la valeur par défaut est "gpt-4o". Si vous devez utiliser d'autres modèles comme

Partage de technologie