2024-07-08
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
gptpdf des LLM : introduction à gptpdf, méthodes d'installation et d'utilisation, et guide détaillé des applications de cas
Table des matières
Comment installer et utiliser gptpdf
gptpdf est un outil qui utilise principalement de grands modèles de langage visuels (tels que GPT-4o) pour analyser le PDF en markdown.Notre approche est très simple (seulement 293 lignes de code) mais presqueAnalysez parfaitement la typographie, les formules mathématiques, les tableaux, les images, les graphiques, etc. . Le prix moyen par page n'est que de 0,013 $ et nous utilisons la bibliothèque GeneralAgent pour interagir avec l'API OpenAI. pdfgpt-ui est un outil de visualisation basé sur gptpdf.
Adresse GitHub:GitHub - CosmosShadow/gptpdf : Utilisation de GPT pour analyser un PDF
pip install gptpdf
from gptpdf import parse_pdf
api_key = 'Your OpenAI API Key'
content, image_paths = parse_pdf(pdf_path, api_key=api_key)
print(content)
Pour plus d'informations, consultez test/test.py
adresse:https://github.com/CosmosShadow/gptpdf/blob/main/test/test.py
import os
# 从 .env 文件中加载环境变量
import dotenv
dotenv.load_dotenv()
def test_use_api_key():
from gptpdf import parse_pdf
pdf_path = '../examples/attention_is_all_you_need.pdf'
output_dir = '../examples/attention_is_all_you_need/'
# 从环境变量中获取 OPENAI_API_KEY 和 OPENAI_API_BASE
api_key = os.getenv('OPENAI_API_KEY')
base_url = os.getenv('OPENAI_API_BASE')
# 手动提供 OPENAI_API_KEY 和 OPENAI_API_BASE
content, image_paths = parse_pdf(pdf_path, output_dir=output_dir, api_key=api_key, base_url=base_url, model='gpt-4o', gpt_worker=6)
# 输出解析后的内容和图像路径
print(content)
print(image_paths)
# 同时会生成 output_dir/output.md 文件
def test_use_env():
from gptpdf import parse_pdf
pdf_path = '../examples/attention_is_all_you_need.pdf'
output_dir = '../examples/attention_is_all_you_need/'
# 使用环境变量中的 OPENAI_API_KEY 和 OPENAI_API_BASE
content, image_paths = parse_pdf(pdf_path, output_dir=output_dir, model='gpt-4o', verbose=True)
# 输出解析后的内容和图像路径
print(content)
print(image_paths)
# 同时会生成 output_dir/output.md 文件
def test_azure():
from gptpdf import parse_pdf
# Azure API Key
api_key = '8ef0b4df45e444079cd5a4xxxxx'
# Azure API 基础 URL
base_url = 'https://xxx.openai.azure.com/'
# Azure 部署的模型 ID 名称(不是 OpenAI 模型名称)
model = 'azure_xxxx'
pdf_path = '../examples/attention_is_all_you_need.pdf'
output_dir = '../examples/attention_is_all_you_need/'
# 使用提供的 Azure API Key 和基础 URL
content, image_paths = parse_pdf(pdf_path, output_dir=output_dir, api_key=api_key, base_url=base_url, model=model, verbose=True)
# 输出解析后的内容和图像路径
print(content)
print(image_paths)
if __name__ == '__main__':
# 取消注释以运行特定的测试函数
# test_use_api_key()
# test_use_env()
test_azure()
analyser_pdf(pdf_path, output_dir='./', api_key=Aucun, base_url=Aucun, modèle='gpt-4o', verbose=False)
Analysez le fichier pdf dans un fichier markdown et renvoyez le contenu markdown et une liste de tous les chemins d'image.
chemin_pdf:chemin du fichier pdf
répertoire_de_sortie : Répertoire de sortie.Stockez toutes les images et fichiers de démarques
clé API :Clé API OpenAI (facultatif). Si elle n'est pas fournie, la variable d'environnement OPENAI_API_KEY est utilisée.
base_url : URL de base OpenAI. (facultatif). Si elle n'est pas fournie, la variable d'environnement OPENAI_BASE_URL est utilisée.
modèle : Grand modèle multimodal au format OpenAI API, la valeur par défaut est "gpt-4o". Si vous devez utiliser d'autres modèles comme