LangChain: prompt template_developdoc per modelli multimodali di grandi dimensioni

LangChain: modello di richiesta per modelli multimodali di grandi dimensioni

2024-07-12

Elenco degli articoli

1. Come trasferire direttamente i dati multimodali al modello
2. Come utilizzare i prompt multimodali

1. Come trasferire direttamente i dati multimodali al modello

Qui mostriamo come passare l'input multimodale direttamente al modello. Per altri provider di modelli che supportano l'input multimodale, langchain fornisce la logica intrinseca nella classe per la conversione nel formato desiderato.
Il modo più comune per passare un'immagine è come una stringa di byte. Questo dovrebbe funzionare per la maggior parte dei gruppi di modelli.

import base64
import httpx

image_url = "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
image_data = base64.b64encode(httpx.get(image_url).content).decode("utf-8")

message = HumanMessage(
    content=[
        {"type": "text", "text": "describe the weather in this image"},
        {
            "type": "image_url",
            "image_url": {"url": f"data:image/jpeg;base64,{image_data}"},
        },
    ],
)
response = model.invoke([message])
print(response.content)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

Possiamo fornire l'URL dell'immagine direttamente nel blocco di contenuti di tipo "URL_immagine". Tieni presente, tuttavia, che solo alcuni fornitori di modelli supportano questa funzionalità.

message = HumanMessage(
    content=[
        {"type": "text", "text": "describe the weather in this image"},
        {"type": "image_url", "image_url": {"url": image_url}},
    ],
)
response = model.invoke([message])
print(response.content)
1
2
3
4
5
6
7
8

Possiamo anche caricare più immagini.

message = HumanMessage(
    content=[
        {"type": "text", "text": "are these two images the same?"},
        {"type": "image_url", "image_url": {"url": image_url}},
        {"type": "image_url", "image_url": {"url": image_url}},
    ],
)
response = model.invoke([message])
print(response.content)
1
2
3
4
5
6
7
8
9

2. Come utilizzare i prompt multimodali

Qui descriviamo come utilizzare i modelli di prompt per formattare gli input multimodali per i modelli.

import base64
import httpx

image_url = "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
image_data = base64.b64encode(httpx.get(image_url).content).decode("utf-8")

prompt = ChatPromptTemplate.from_messages(
    [
        ("system", "Describe the image provided"),
        (
            "user",
            [
                {
                    "type": "image_url",
                    "image_url": {"url": "data:image/jpeg;base64,{image_data}"},
                }
            ],
        ),
    ]
)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

Possiamo anche passare più immagini al modello.

prompt = ChatPromptTemplate.from_messages(
    [
        ("system", "compare the two pictures provided"),
        (
            "user",
            [
                {
                    "type": "image_url",
                    "image_url": {"url": "data:image/jpeg;base64,{image_data1}"},
                },
                {
                    "type": "image_url",
                    "image_url": {"url": "data:image/jpeg;base64,{image_data2}"},
                },
            ],
        ),
    ]
)

chain = prompt | model

response = chain.invoke({"image_data1": image_data, "image_data2": image_data})
print(response.content)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23

Condivisione della tecnologia

LangChain: modello di richiesta per modelli multimodali di grandi dimensioni

Elenco degli articoli

1. Come trasferire direttamente i dati multimodali al modello

2. Come utilizzare i prompt multimodali

Profilo personale

le mie informazioni di contatto