Berbagi teknologi

gptpdf LLM: Pengantar gptpdf, metode instalasi dan penggunaan, dan panduan terperinci untuk aplikasi kasus

2024-07-08

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

gptpdf LLM: Pengantar gptpdf, metode instalasi dan penggunaan, dan panduan terperinci untuk aplikasi kasus

Daftar isi

Pengantar gptpdf

1. Proses pengolahan

Langkah pertama adalah menggunakan perpustakaan PyMuPDF untuk mengurai semua area non-teks di PDF dan menandainya, seperti:

Pada langkah kedua, gunakan model visual besar (seperti GPT-4o) untuk mengurai dan mendapatkan file penurunan harga.

Cara menginstal dan menggunakan gptpdf

1. Instalasi

2. Gunakan

Interpretasikan kode test.py

3.API

Penerapan kasus gptpdf


Pengantar gptpdf

gptpdf adalah alat yang terutama menggunakan model bahasa visual besar (seperti GPT-4o) untuk mengurai PDF menjadi penurunan harga.Pendekatan kami sangat sederhana (hanya 293 baris kode) namun hampirMengurai tipografi, rumus matematika, tabel, gambar, bagan, dll dengan sempurna. . Harga rata-rata per halaman hanya $0,013, dan kami menggunakan lib GeneralAgent untuk berinteraksi dengan OpenAI API. pdfgpt-ui adalah alat visualisasi berdasarkan gptpdf.

Alamat GithubGitHub - CosmosShadow/gptpdf: Menggunakan GPT untuk mengurai PDF

1、Aliran pemrosesan

Langkah pertama adalah menggunakan perpustakaan PyMuPDF untuk mengurai semua area non-teks di PDF dan menandainya, seperti:

Pada langkah kedua, gunakan model visual besar (seperti GPT-4o) untuk mengurai dan mendapatkan file penurunan harga.

Cara menginstal dan menggunakan gptpdf

1、Install

pip install gptpdf

2、menggunakan

from gptpdf import parse_pdf

api_key = 'Your OpenAI API Key'
content, image_paths = parse_pdf(pdf_path, api_key=api_key)
print(content)

Untuk informasi lebih lanjut, lihat tes/test.py

alamat:https://github.com/CosmosShadow/gptpdf/blob/main/test/test.py

Interpretasikan kode test.py

import os

# 从 .env 文件中加载环境变量
import dotenv
dotenv.load_dotenv()

def test_use_api_key():
    from gptpdf import parse_pdf
    pdf_path = '../examples/attention_is_all_you_need.pdf'
    output_dir = '../examples/attention_is_all_you_need/'
    # 从环境变量中获取 OPENAI_API_KEY 和 OPENAI_API_BASE
    api_key = os.getenv('OPENAI_API_KEY')
    base_url = os.getenv('OPENAI_API_BASE')
    # 手动提供 OPENAI_API_KEY 和 OPENAI_API_BASE
    content, image_paths = parse_pdf(pdf_path, output_dir=output_dir, api_key=api_key, base_url=base_url, model='gpt-4o', gpt_worker=6)
    # 输出解析后的内容和图像路径
    print(content)
    print(image_paths)
    # 同时会生成 output_dir/output.md 文件

def test_use_env():
    from gptpdf import parse_pdf
    pdf_path = '../examples/attention_is_all_you_need.pdf'
    output_dir = '../examples/attention_is_all_you_need/'
    # 使用环境变量中的 OPENAI_API_KEY 和 OPENAI_API_BASE
    content, image_paths = parse_pdf(pdf_path, output_dir=output_dir, model='gpt-4o', verbose=True)
    # 输出解析后的内容和图像路径
    print(content)
    print(image_paths)
    # 同时会生成 output_dir/output.md 文件

def test_azure():
    from gptpdf import parse_pdf
    # Azure API Key
    api_key = '8ef0b4df45e444079cd5a4xxxxx' 
    # Azure API 基础 URL
    base_url = 'https://xxx.openai.azure.com/' 
    # Azure 部署的模型 ID 名称(不是 OpenAI 模型名称)
    model = 'azure_xxxx'

    pdf_path = '../examples/attention_is_all_you_need.pdf'
    output_dir = '../examples/attention_is_all_you_need/'
    # 使用提供的 Azure API Key 和基础 URL
    content, image_paths = parse_pdf(pdf_path, output_dir=output_dir, api_key=api_key, base_url=base_url, model=model, verbose=True)
    # 输出解析后的内容和图像路径
    print(content)
    print(image_paths)

if __name__ == '__main__':
    # 取消注释以运行特定的测试函数
    # test_use_api_key()
    # test_use_env()
    test_azure()

3.API

parse_pdf(pdf_path, output_dir='./', api_key=Tidak Ada, base_url=Tidak Ada, model='gpt-4o', verbose=Salah)
Parsing file pdf menjadi file penurunan harga dan kembalikan konten penurunan harga dan daftar semua jalur gambar.

  • jalur_pdf: jalur file pdf

  • keluaran_dir : Direktori keluaran.Simpan semua gambar dan file penurunan harga

  • kunci API :Kunci API OpenAI (opsional). Jika tidak disediakan, variabel lingkungan OPENAI_API_KEY akan digunakan.

  • url_dasar : URL dasar OpenAI. (opsional). Jika tidak disediakan, variabel lingkungan OPENAI_BASE_URL akan digunakan.

  • model : Model besar multi-modal dalam format OpenAI API, defaultnya adalah "gpt-4o". Jika Anda perlu menggunakan model lain seperti