Teknologian jakaminen

LLM:ien gptpdf: Johdatus gptpdf:ään, asennus- ja käyttötavat sekä yksityiskohtainen opas tapaussovelluksiin

2024-07-08

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

LLM:ien gptpdf: Johdatus gptpdf:ään, asennus- ja käyttötavat sekä yksityiskohtainen opas tapaussovelluksiin

Sisällysluettelo

Johdatus gptpdf-tiedostoon

1. Käsittelyprosessi

Ensimmäinen askel on käyttää PyMuPDF-kirjastoa kaikkien PDF-tiedoston ei-tekstialueiden jäsentämiseen ja merkitsemiseen, kuten:

Käytä toisessa vaiheessa suurta visuaalista mallia (kuten GPT-4o) jäsentämään ja hankkimaan merkintätiedosto.

Kuinka asentaa ja käyttää gptpdf

1. Asennus

2. Käytä

Tulkitse test.py-koodi

3, API

Tapaushakemus gptpdf


Johdatus gptpdf-tiedostoon

gptpdf on työkalu, joka käyttää pääasiassa visuaalisia suuria kielimalleja (kuten GPT-4o) PDF-tiedostojen jäsentämiseen merkintöihin.Lähestymistapamme on hyvin yksinkertainen (vain 293 koodiriviä), mutta melkeinTäydellisesti jäsentää typografiaa, matemaattisia kaavoja, taulukoita, kuvia, kaavioita jne. . Keskimääräinen sivuhinta on vain 0,013 dollaria, ja käytämme GeneralAgent lib -ohjelmaa vuorovaikutuksessa OpenAI API:n kanssa. pdfgpt-ui on gptpdf-pohjainen visualisointityökalu.

Githubin osoiteGitHub – CosmosShadow/gptpdf: GPT:n käyttäminen PDF:n jäsentämiseen

1、Käsittelykulku

Ensimmäinen askel on käyttää PyMuPDF-kirjastoa kaikkien PDF-tiedoston ei-tekstialueiden jäsentämiseen ja merkitsemiseen, kuten:

Käytä toisessa vaiheessa suurta visuaalista mallia (kuten GPT-4o) jäsentämään ja hankkimaan merkintätiedosto.

Kuinka asentaa ja käyttää gptpdf

1、Asentaa

pip install gptpdf

2、käyttää

from gptpdf import parse_pdf

api_key = 'Your OpenAI API Key'
content, image_paths = parse_pdf(pdf_path, api_key=api_key)
print(content)

Lisätietoja on osoitteessa test/test.py

osoite:https://github.com/CosmosShadow/gptpdf/blob/main/test/test.py

Tulkitse test.py-koodi

import os

# 从 .env 文件中加载环境变量
import dotenv
dotenv.load_dotenv()

def test_use_api_key():
    from gptpdf import parse_pdf
    pdf_path = '../examples/attention_is_all_you_need.pdf'
    output_dir = '../examples/attention_is_all_you_need/'
    # 从环境变量中获取 OPENAI_API_KEY 和 OPENAI_API_BASE
    api_key = os.getenv('OPENAI_API_KEY')
    base_url = os.getenv('OPENAI_API_BASE')
    # 手动提供 OPENAI_API_KEY 和 OPENAI_API_BASE
    content, image_paths = parse_pdf(pdf_path, output_dir=output_dir, api_key=api_key, base_url=base_url, model='gpt-4o', gpt_worker=6)
    # 输出解析后的内容和图像路径
    print(content)
    print(image_paths)
    # 同时会生成 output_dir/output.md 文件

def test_use_env():
    from gptpdf import parse_pdf
    pdf_path = '../examples/attention_is_all_you_need.pdf'
    output_dir = '../examples/attention_is_all_you_need/'
    # 使用环境变量中的 OPENAI_API_KEY 和 OPENAI_API_BASE
    content, image_paths = parse_pdf(pdf_path, output_dir=output_dir, model='gpt-4o', verbose=True)
    # 输出解析后的内容和图像路径
    print(content)
    print(image_paths)
    # 同时会生成 output_dir/output.md 文件

def test_azure():
    from gptpdf import parse_pdf
    # Azure API Key
    api_key = '8ef0b4df45e444079cd5a4xxxxx' 
    # Azure API 基础 URL
    base_url = 'https://xxx.openai.azure.com/' 
    # Azure 部署的模型 ID 名称(不是 OpenAI 模型名称)
    model = 'azure_xxxx'

    pdf_path = '../examples/attention_is_all_you_need.pdf'
    output_dir = '../examples/attention_is_all_you_need/'
    # 使用提供的 Azure API Key 和基础 URL
    content, image_paths = parse_pdf(pdf_path, output_dir=output_dir, api_key=api_key, base_url=base_url, model=model, verbose=True)
    # 输出解析后的内容和图像路径
    print(content)
    print(image_paths)

if __name__ == '__main__':
    # 取消注释以运行特定的测试函数
    # test_use_api_key()
    # test_use_env()
    test_azure()

3, API

parse_pdf(pdf_path, output_dir='./', api_key=Ei mitään, base_url=Ei mitään, model='gpt-4o', verbose=False)
Jäsennä pdf-tiedosto merkintätiedostoksi ja palauta merkintäsisältö ja luettelo kaikista kuvapoluista.

  • pdf_polku:pdf tiedostopolku

  • output_dir : Lähtöhakemisto.Tallenna kaikki kuvat ja merkintätiedostot

  • api_avain :OpenAI API-avain (valinnainen). Jos sitä ei ole annettu, OPENAI_API_KEY-ympäristömuuttujaa käytetään.

  • base_url : OpenAI-perus-URL-osoite. (valinnainen). Jos sitä ei ole annettu, OPENAI_BASE_URL-ympäristömuuttujaa käytetään.

  • malli : Multimodaalinen suuri malli OpenAI API-muodossa, oletus on "gpt-4o". Jos haluat käyttää muita malleja, kuten