Condivisione della tecnologia

gptpdf di LLM: introduzione a gptpdf, metodi di installazione e utilizzo e guida dettagliata alle applicazioni dei casi

2024-07-08

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

gptpdf di LLM: introduzione a gptpdf, metodi di installazione e utilizzo e guida dettagliata alle applicazioni dei casi

Sommario

Introduzione a gptpdf

1. Processo di trattamento

Il primo passo è utilizzare la libreria PyMuPDF per analizzare tutte le aree non di testo del PDF e contrassegnarle, come ad esempio:

Nel secondo passaggio, utilizza un modello visivo di grandi dimensioni (come GPT-4o) per analizzare e ottenere un file di markdown.

Come installare e utilizzare gptpdf

1. Installazione

2. Utilizzare

Interpreta il codice test.py

3、API

Caso di applicazione di gptpdf


Introduzione a gptpdf

gptpdf è uno strumento che utilizza principalmente modelli di linguaggio visivo di grandi dimensioni (come GPT-4o) per analizzare PDF in markdown.Il nostro approccio è molto semplice (solo 293 righe di codice) ma quasiAnalizza perfettamente tipografia, formule matematiche, tabelle, immagini, grafici, ecc. . Il prezzo medio per pagina è di soli $ 0,013 e utilizziamo la libreria GeneralAgent per interagire con l'API OpenAI. pdfgpt-ui è uno strumento di visualizzazione basato su gptpdf.

Indirizzo GithubGitHub - CosmosShadow/gptpdf: Utilizzo di GPT per analizzare PDF

1、Flusso di elaborazione

Il primo passo è utilizzare la libreria PyMuPDF per analizzare tutte le aree non di testo del PDF e contrassegnarle, come ad esempio:

Nel secondo passaggio, utilizza un modello visivo di grandi dimensioni (come GPT-4o) per analizzare e ottenere un file di markdown.

Come installare e utilizzare gptpdf

1、Installare

pip install gptpdf

2、utilizzo

from gptpdf import parse_pdf

api_key = 'Your OpenAI API Key'
content, image_paths = parse_pdf(pdf_path, api_key=api_key)
print(content)

Per ulteriori informazioni, vedere test/test.py

indirizzo:Italiano: Italiano: https://github.com/CosmosShadow/gptpdf/blob/main/test/test.py

Interpreta il codice test.py

import os

# 从 .env 文件中加载环境变量
import dotenv
dotenv.load_dotenv()

def test_use_api_key():
    from gptpdf import parse_pdf
    pdf_path = '../examples/attention_is_all_you_need.pdf'
    output_dir = '../examples/attention_is_all_you_need/'
    # 从环境变量中获取 OPENAI_API_KEY 和 OPENAI_API_BASE
    api_key = os.getenv('OPENAI_API_KEY')
    base_url = os.getenv('OPENAI_API_BASE')
    # 手动提供 OPENAI_API_KEY 和 OPENAI_API_BASE
    content, image_paths = parse_pdf(pdf_path, output_dir=output_dir, api_key=api_key, base_url=base_url, model='gpt-4o', gpt_worker=6)
    # 输出解析后的内容和图像路径
    print(content)
    print(image_paths)
    # 同时会生成 output_dir/output.md 文件

def test_use_env():
    from gptpdf import parse_pdf
    pdf_path = '../examples/attention_is_all_you_need.pdf'
    output_dir = '../examples/attention_is_all_you_need/'
    # 使用环境变量中的 OPENAI_API_KEY 和 OPENAI_API_BASE
    content, image_paths = parse_pdf(pdf_path, output_dir=output_dir, model='gpt-4o', verbose=True)
    # 输出解析后的内容和图像路径
    print(content)
    print(image_paths)
    # 同时会生成 output_dir/output.md 文件

def test_azure():
    from gptpdf import parse_pdf
    # Azure API Key
    api_key = '8ef0b4df45e444079cd5a4xxxxx' 
    # Azure API 基础 URL
    base_url = 'https://xxx.openai.azure.com/' 
    # Azure 部署的模型 ID 名称(不是 OpenAI 模型名称)
    model = 'azure_xxxx'

    pdf_path = '../examples/attention_is_all_you_need.pdf'
    output_dir = '../examples/attention_is_all_you_need/'
    # 使用提供的 Azure API Key 和基础 URL
    content, image_paths = parse_pdf(pdf_path, output_dir=output_dir, api_key=api_key, base_url=base_url, model=model, verbose=True)
    # 输出解析后的内容和图像路径
    print(content)
    print(image_paths)

if __name__ == '__main__':
    # 取消注释以运行特定的测试函数
    # test_use_api_key()
    # test_use_env()
    test_azure()

3、API

analizzare_pdf(pdf_path, output_dir='./', api_key=None, base_url=None, model='gpt-4o', verbose=False)
Analizza il file pdf in un file markdown e restituisce il contenuto markdown e un elenco di tutti i percorsi delle immagini.

  • percorso_pdf:percorso del file pdf

  • directory_di_uscita : Cartella di destinazione.Memorizza tutte le immagini e i file di markdown

  • chiave_api :Chiave API OpenAI (opzionale). Se non fornita, viene utilizzata la variabile di ambiente OPENAI_API_KEY.

  • URL di base : URL di base OpenAI. (opzionale). Se non fornita, viene utilizzata la variabile di ambiente OPENAI_BASE_URL.

  • modello : modello multimodale di grandi dimensioni in formato API OpenAI, l'impostazione predefinita è "gpt-4o". Se è necessario utilizzare altri modelli come