技術共有

LLM の gptpdf: gptpdf の概要、インストールと使用方法、および事例アプリケーションの詳細ガイド

2024-07-08

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

LLM の gptpdf: gptpdf の概要、インストールと使用方法、および事例アプリケーションの詳細ガイド

目次

gptpdf の概要

1.加工工程

最初のステップは、PyMuPDF ライブラリを使用して PDF のすべての非テキスト領域を解析し、次のようにマークを付けることです。

2 番目のステップでは、大規模なビジュアル モデル (GPT-4o など) を使用してマークダウン ファイルを解析し、取得します。

gptpdfのインストールと使用方法

1. インストール

2. 使用する

test.pyコードを解釈する

3、API

gptpdfの応用例


gptpdf の概要

gptpdf は、主にビジュアルラージ言語モデル (GPT-4o など) を使用して PDF をマークダウンに解析するツールです。私たちのアプローチは非常にシンプル (コードはわずか 293 行) ですが、タイポグラフィ、数式、表、写真、チャートなどを完璧に解析します。 。ページあたりの平均価格はわずか 0.013 ドルで、OpenAI API との対話には GeneralAgent lib を使用します。 pdfgpt-ui は gptpdf をベースにした視覚化ツールです。

GithubアドレスGitHub - CosmosShadow/gptpdf: GPT を使用して PDF を解析する

1、処理の流れ

最初のステップは、PyMuPDF ライブラリを使用して PDF のすべての非テキスト領域を解析し、次のようにマークを付けることです。

2 番目のステップでは、大規模なビジュアル モデル (GPT-4o など) を使用してマークダウン ファイルを解析し、取得します。

gptpdfのインストールと使用方法

1、インストール

pip install gptpdf

2、使用

from gptpdf import parse_pdf

api_key = 'Your OpenAI API Key'
content, image_paths = parse_pdf(pdf_path, api_key=api_key)
print(content)

詳細については、test/test.py を参照してください。

住所:https://github.com/CosmosShadow/gptpdf/blob/main/test/test.py

test.pyコードを解釈する

import os

# 从 .env 文件中加载环境变量
import dotenv
dotenv.load_dotenv()

def test_use_api_key():
    from gptpdf import parse_pdf
    pdf_path = '../examples/attention_is_all_you_need.pdf'
    output_dir = '../examples/attention_is_all_you_need/'
    # 从环境变量中获取 OPENAI_API_KEY 和 OPENAI_API_BASE
    api_key = os.getenv('OPENAI_API_KEY')
    base_url = os.getenv('OPENAI_API_BASE')
    # 手动提供 OPENAI_API_KEY 和 OPENAI_API_BASE
    content, image_paths = parse_pdf(pdf_path, output_dir=output_dir, api_key=api_key, base_url=base_url, model='gpt-4o', gpt_worker=6)
    # 输出解析后的内容和图像路径
    print(content)
    print(image_paths)
    # 同时会生成 output_dir/output.md 文件

def test_use_env():
    from gptpdf import parse_pdf
    pdf_path = '../examples/attention_is_all_you_need.pdf'
    output_dir = '../examples/attention_is_all_you_need/'
    # 使用环境变量中的 OPENAI_API_KEY 和 OPENAI_API_BASE
    content, image_paths = parse_pdf(pdf_path, output_dir=output_dir, model='gpt-4o', verbose=True)
    # 输出解析后的内容和图像路径
    print(content)
    print(image_paths)
    # 同时会生成 output_dir/output.md 文件

def test_azure():
    from gptpdf import parse_pdf
    # Azure API Key
    api_key = '8ef0b4df45e444079cd5a4xxxxx' 
    # Azure API 基础 URL
    base_url = 'https://xxx.openai.azure.com/' 
    # Azure 部署的模型 ID 名称(不是 OpenAI 模型名称)
    model = 'azure_xxxx'

    pdf_path = '../examples/attention_is_all_you_need.pdf'
    output_dir = '../examples/attention_is_all_you_need/'
    # 使用提供的 Azure API Key 和基础 URL
    content, image_paths = parse_pdf(pdf_path, output_dir=output_dir, api_key=api_key, base_url=base_url, model=model, verbose=True)
    # 输出解析后的内容和图像路径
    print(content)
    print(image_paths)

if __name__ == '__main__':
    # 取消注释以运行特定的测试函数
    # test_use_api_key()
    # test_use_env()
    test_azure()

3、API

解析_pdf(pdf_path、output_dir='./'、api_key=なし、base_url=なし、model='gpt-4o'、verbose=False)
PDF ファイルをマークダウン ファイルに解析し、マークダウン コンテンツとすべての画像パスのリストを返します。

  • pdf_パス:pdf ファイルパス

  • 出力ディレクトリ : 出力ディレクトリ。すべての画像とマークダウン ファイルを保存する

  • APIキー : OpenAI API キー (オプション)。指定しない場合は、OPENAI_API_KEY 環境変数が使用されます。

  • ベースURL : OpenAI のベース URL。 (オプション)。指定しない場合は、OPENAI_BASE_URL 環境変数が使用されます。

  • モデル : OpenAI API 形式のマルチモーダル大規模モデル、デフォルトは「gpt-4o」です。 他のモデルを使用する必要がある場合は、