Guides · マルチモーダル

マルチモーダル

ビジョン対応モデルに画像とテキストを送信する。

概要

マルチモーダルモデルは、1 回のリクエストでテキストと画像の両方を処理できます。これにより、画像分析、ドキュメント理解、図表の解釈、ビジュアル Q&A などのユースケースが実現します。

画像入力に対応するモデルには qwen3.6-plus、Claude Sonnet/Opus、Gemini などがあります。

messages 配列に image_url コンテンツタイプを使用して画像を渡してください：

TypeScript

1	const completion = await client.chat.completions.create({
2	model: 'qwen3.6-plus',
3	messages: [
4	{
5	role: 'user',
6	content: [
7	{ type: 'text', text: 'この画像には何が写っていますか？' },
8	{
9	type: 'image_url',
10	image_url: { url: 'https://example.com/photo.jpg' },
11	},
12	],
13	},
14	],
15	});

Base64 エンコードされた画像を送信することもできます。画像が公開アクセスできない場合に便利です：

TypeScript

1	const base64Image = fs.readFileSync('photo.jpg', 'base64');
2
3	const completion = await client.chat.completions.create({
4	model: 'claude-sonnet-4',
5	messages: [
6	{
7	role: 'user',
8	content: [
9	{ type: 'text', text: 'この画像を説明してください' },
10	{
11	type: 'image_url',
12	image_url: {
13	url: `data:image/jpeg;base64,${base64Image}`,
14	},
15	},
16	],
17	},
18	],
19	});

サポートされるフォーマット：JPEG、PNG、GIF、WebP。最大サイズはモデルによって異なります（通常 20MB）。

モデルの input_modalities フィールドを確認して、画像入力がサポートされているかどうかを確認してください。image 入力モダリティを持つモデルはマルチモーダルリクエストを受け付けます。

モデルページの「入力モダリティ」フィルターでマルチモーダルモデルを検索できます。