LangChain - マルチモーダル大規模モデル用のプロンプト template

LangChain - マルチモーダル大規模モデル用のプロンプトテンプレート

2024-07-12

記事ディレクトリ

1. マルチモーダルデータをモデルに直接転送する方法
2. 多峰性プロンプトの使用方法

1. マルチモーダルデータをモデルに直接転送する方法

ここでは、マルチモーダル入力をモデルに直接渡す方法を示します。マルチモーダル入力をサポートする他のモデルプロバイダーの場合、langchain は、目的の形式に変換するためのクラス内に固有のロジックを提供します。
画像を渡す最も一般的な方法は、バイト文字列として渡すことです。これは、ほとんどのモデルアンサンブルで機能するはずです。

import base64
import httpx

image_url = "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
image_data = base64.b64encode(httpx.get(image_url).content).decode("utf-8")

message = HumanMessage(
    content=[
        {"type": "text", "text": "describe the weather in this image"},
        {
            "type": "image_url",
            "image_url": {"url": f"data:image/jpeg;base64,{image_data}"},
        },
    ],
)
response = model.invoke([message])
print(response.content)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

画像 URL は、「image_URL」タイプのコンテンツブロックに直接指定できます。ただし、この機能をサポートしているのは一部のモデルプロバイダーだけであることに注意してください。

message = HumanMessage(
    content=[
        {"type": "text", "text": "describe the weather in this image"},
        {"type": "image_url", "image_url": {"url": image_url}},
    ],
)
response = model.invoke([message])
print(response.content)
1
2
3
4
5
6
7
8

複数の画像をアップロードすることも可能です。

message = HumanMessage(
    content=[
        {"type": "text", "text": "are these two images the same?"},
        {"type": "image_url", "image_url": {"url": image_url}},
        {"type": "image_url", "image_url": {"url": image_url}},
    ],
)
response = model.invoke([message])
print(response.content)
1
2
3
4
5
6
7
8
9

2. 多峰性プロンプトの使用方法

ここでは、プロンプトテンプレートを使用してモデルのマルチモーダル入力をフォーマットする方法について説明します。

import base64
import httpx

image_url = "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
image_data = base64.b64encode(httpx.get(image_url).content).decode("utf-8")

prompt = ChatPromptTemplate.from_messages(
    [
        ("system", "Describe the image provided"),
        (
            "user",
            [
                {
                    "type": "image_url",
                    "image_url": {"url": "data:image/jpeg;base64,{image_data}"},
                }
            ],
        ),
    ]
)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

複数の画像をモデルに渡すこともできます。

prompt = ChatPromptTemplate.from_messages(
    [
        ("system", "compare the two pictures provided"),
        (
            "user",
            [
                {
                    "type": "image_url",
                    "image_url": {"url": "data:image/jpeg;base64,{image_data1}"},
                },
                {
                    "type": "image_url",
                    "image_url": {"url": "data:image/jpeg;base64,{image_data2}"},
                },
            ],
        ),
    ]
)

chain = prompt | model

response = chain.invoke({"image_data1": image_data, "image_data2": image_data})
print(response.content)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23

技術共有

LangChain - マルチモーダル大規模モデル用のプロンプトテンプレート

記事ディレクトリ

1. マルチモーダルデータをモデルに直接転送する方法

2. 多峰性プロンプトの使用方法

個人プロフィール

私の連絡先情報

技術共有

LangChain - マルチモーダル大規模モデル用のプロンプト テンプレート

記事ディレクトリ

1. マルチモーダルデータをモデルに直接転送する方法

2. 多峰性プロンプトの使用方法

個人プロフィール

私の連絡先情報

LangChain - マルチモーダル大規模モデル用のプロンプトテンプレート