LangChain - prompt template_developdoc para grandes modelos multimodais

LangChain - modelo de prompt para grandes modelos multimodais

2024-07-12

Diretório de artigos

1. Como transferir dados multimodais diretamente para o modelo
2. Como usar prompts multimodais

1. Como transferir dados multimodais diretamente para o modelo

Aqui demonstramos como passar a entrada multimodal diretamente para o modelo. Para outros provedores de modelos que suportam entrada multimodal, o langchain fornece lógica inerente à classe para converter para o formato desejado.
A maneira mais comum de passar uma imagem é como uma string de bytes. Isso deve funcionar para a maioria dos conjuntos de modelos.

import base64
import httpx

image_url = "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
image_data = base64.b64encode(httpx.get(image_url).content).decode("utf-8")

message = HumanMessage(
    content=[
        {"type": "text", "text": "describe the weather in this image"},
        {
            "type": "image_url",
            "image_url": {"url": f"data:image/jpeg;base64,{image_data}"},
        },
    ],
)
response = model.invoke([message])
print(response.content)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

Podemos fornecer diretamente o URL da imagem no bloco de conteúdo do tipo "image_URL". Observe, entretanto, que apenas alguns fornecedores de modelos oferecem suporte a esse recurso.

message = HumanMessage(
    content=[
        {"type": "text", "text": "describe the weather in this image"},
        {"type": "image_url", "image_url": {"url": image_url}},
    ],
)
response = model.invoke([message])
print(response.content)
1
2
3
4
5
6
7
8

Também podemos fazer upload de várias imagens.

message = HumanMessage(
    content=[
        {"type": "text", "text": "are these two images the same?"},
        {"type": "image_url", "image_url": {"url": image_url}},
        {"type": "image_url", "image_url": {"url": image_url}},
    ],
)
response = model.invoke([message])
print(response.content)
1
2
3
4
5
6
7
8
9

2. Como usar prompts multimodais

Aqui, descrevemos como usar modelos de prompt para formatar entradas multimodais para modelos.

import base64
import httpx

image_url = "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
image_data = base64.b64encode(httpx.get(image_url).content).decode("utf-8")

prompt = ChatPromptTemplate.from_messages(
    [
        ("system", "Describe the image provided"),
        (
            "user",
            [
                {
                    "type": "image_url",
                    "image_url": {"url": "data:image/jpeg;base64,{image_data}"},
                }
            ],
        ),
    ]
)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

Também podemos passar várias imagens para o modelo.

prompt = ChatPromptTemplate.from_messages(
    [
        ("system", "compare the two pictures provided"),
        (
            "user",
            [
                {
                    "type": "image_url",
                    "image_url": {"url": "data:image/jpeg;base64,{image_data1}"},
                },
                {
                    "type": "image_url",
                    "image_url": {"url": "data:image/jpeg;base64,{image_data2}"},
                },
            ],
        ),
    ]
)

chain = prompt | model

response = chain.invoke({"image_data1": image_data, "image_data2": image_data})
print(response.content)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23

Compartilhamento de tecnologia

LangChain - modelo de prompt para grandes modelos multimodais

Diretório de artigos

1. Como transferir dados multimodais diretamente para o modelo

2. Como usar prompts multimodais

Perfil pessoal

minhas informações de contato