Κοινή χρήση τεχνολογίας

gptpdf των LLMs: Εισαγωγή στο gptpdf, μέθοδοι εγκατάστασης και χρήσης και λεπτομερής οδηγός για εφαρμογές περιπτώσεων

2024-07-08

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

gptpdf των LLMs: Εισαγωγή στο gptpdf, μέθοδοι εγκατάστασης και χρήσης και λεπτομερής οδηγός για εφαρμογές περιπτώσεων

Πίνακας περιεχομένων

Εισαγωγή στο gptpdf

1. Διαδικασία επεξεργασίας

Το πρώτο βήμα είναι να χρησιμοποιήσετε τη βιβλιοθήκη PyMuPDF για να αναλύσετε όλες τις περιοχές εκτός κειμένου του PDF και να τις επισημάνετε, όπως:

Στο δεύτερο βήμα, χρησιμοποιήστε ένα μεγάλο οπτικό μοντέλο (όπως το GPT-4o) για να αναλύσετε και να αποκτήσετε ένα αρχείο σήμανσης.

Πώς να εγκαταστήσετε και να χρησιμοποιήσετε το gptpdf

1. Εγκατάσταση

2. Χρήση

Ερμηνεύστε τον κώδικα test.py

3, API

Εφαρμογή περίπτωσης gptpdf


Εισαγωγή στο gptpdf

Το gptpdf είναι ένα εργαλείο που χρησιμοποιεί κυρίως οπτικά μοντέλα μεγάλων γλωσσών (όπως το GPT-4o) για την ανάλυση του PDF σε markdown.Η προσέγγισή μας είναι πολύ απλή (μόνο 293 γραμμές κώδικα) αλλά σχεδόνΑναλύστε τέλεια την τυπογραφία, τους μαθηματικούς τύπους, τους πίνακες, τις εικόνες, τα γραφήματα κ.λπ. . Η μέση τιμή ανά σελίδα είναι μόνο 0,013 $ και χρησιμοποιούμε το GeneralAgent lib για να αλληλεπιδράσουμε με το OpenAI API. Το pdfgpt-ui είναι ένα εργαλείο οπτικοποίησης που βασίζεται στο gptpdf.

Διεύθυνση GithubGitHub - CosmosShadow/gptpdf: Χρήση GPT για ανάλυση PDF

1、Ροή επεξεργασίας

Το πρώτο βήμα είναι να χρησιμοποιήσετε τη βιβλιοθήκη PyMuPDF για να αναλύσετε όλες τις περιοχές εκτός κειμένου του PDF και να τις επισημάνετε, όπως:

Στο δεύτερο βήμα, χρησιμοποιήστε ένα μεγάλο οπτικό μοντέλο (όπως το GPT-4o) για να αναλύσετε και να αποκτήσετε ένα αρχείο σήμανσης.

Πώς να εγκαταστήσετε και να χρησιμοποιήσετε το gptpdf

1、Εγκαθιστώ

pip install gptpdf

2、χρήση

from gptpdf import parse_pdf

api_key = 'Your OpenAI API Key'
content, image_paths = parse_pdf(pdf_path, api_key=api_key)
print(content)

Για περισσότερες πληροφορίες, ανατρέξτε στο test/test.py

διεύθυνση:https://github.com/CosmosShadow/gptpdf/blob/main/test/test.py

Ερμηνεύστε τον κώδικα test.py

import os

# 从 .env 文件中加载环境变量
import dotenv
dotenv.load_dotenv()

def test_use_api_key():
    from gptpdf import parse_pdf
    pdf_path = '../examples/attention_is_all_you_need.pdf'
    output_dir = '../examples/attention_is_all_you_need/'
    # 从环境变量中获取 OPENAI_API_KEY 和 OPENAI_API_BASE
    api_key = os.getenv('OPENAI_API_KEY')
    base_url = os.getenv('OPENAI_API_BASE')
    # 手动提供 OPENAI_API_KEY 和 OPENAI_API_BASE
    content, image_paths = parse_pdf(pdf_path, output_dir=output_dir, api_key=api_key, base_url=base_url, model='gpt-4o', gpt_worker=6)
    # 输出解析后的内容和图像路径
    print(content)
    print(image_paths)
    # 同时会生成 output_dir/output.md 文件

def test_use_env():
    from gptpdf import parse_pdf
    pdf_path = '../examples/attention_is_all_you_need.pdf'
    output_dir = '../examples/attention_is_all_you_need/'
    # 使用环境变量中的 OPENAI_API_KEY 和 OPENAI_API_BASE
    content, image_paths = parse_pdf(pdf_path, output_dir=output_dir, model='gpt-4o', verbose=True)
    # 输出解析后的内容和图像路径
    print(content)
    print(image_paths)
    # 同时会生成 output_dir/output.md 文件

def test_azure():
    from gptpdf import parse_pdf
    # Azure API Key
    api_key = '8ef0b4df45e444079cd5a4xxxxx' 
    # Azure API 基础 URL
    base_url = 'https://xxx.openai.azure.com/' 
    # Azure 部署的模型 ID 名称(不是 OpenAI 模型名称)
    model = 'azure_xxxx'

    pdf_path = '../examples/attention_is_all_you_need.pdf'
    output_dir = '../examples/attention_is_all_you_need/'
    # 使用提供的 Azure API Key 和基础 URL
    content, image_paths = parse_pdf(pdf_path, output_dir=output_dir, api_key=api_key, base_url=base_url, model=model, verbose=True)
    # 输出解析后的内容和图像路径
    print(content)
    print(image_paths)

if __name__ == '__main__':
    # 取消注释以运行特定的测试函数
    # test_use_api_key()
    # test_use_env()
    test_azure()

3, API

parse_pdf(pdf_path, output_dir='./', api_key=Καμία, base_url=Καμία, model='gpt-4o', verbose=False)
Αναλύστε το αρχείο pdf σε ένα αρχείο σήμανσης και επιστρέψτε το περιεχόμενο σήμανσης και μια λίστα με όλες τις διαδρομές εικόνας.

  • pdf_pathΔιαδρομή αρχείου :pdf

  • output_dir : Κατάλογο εξόδου.Αποθηκεύστε όλες τις εικόνες και τα αρχεία σήμανσης

  • api_key :Κλειδί OpenAI API (προαιρετικό). Εάν δεν παρέχεται, χρησιμοποιείται η μεταβλητή περιβάλλοντος OPENAI_API_KEY.

  • base_url : OpenAI βασική διεύθυνση URL. (προαιρετικός). Εάν δεν παρέχεται, χρησιμοποιείται η μεταβλητή περιβάλλοντος OPENAI_BASE_URL.

  • μοντέλο : Πολυτροπικό μεγάλο μοντέλο σε μορφή OpenAI API, η προεπιλογή είναι "gpt-4o". Εάν πρέπει να χρησιμοποιήσετε άλλα μοντέλα όπως π.χ