マルチモーダル

ビジョン対応モデルに画像とテキストを送信する。

概要

マルチモーダルモデルは、1 回のリクエストでテキストと画像の両方を処理できます。これにより、画像分析、ドキュメント理解、図表の解釈、ビジュアル Q&A などのユースケースが実現します。

画像入力に対応するモデルには GPT-4o、Claude Sonnet/Opus、Gemini などがあります。

画像を送信する

messages 配列に image_url コンテンツタイプを使用して画像を渡してください:

TypeScript
1const completion = await client.chat.completions.create({
2 model: 'gpt-4o',
3 messages: [
4 {
5 role: 'user',
6 content: [
7 { type: 'text', text: 'この画像には何が写っていますか?' },
8 {
9 type: 'image_url',
10 image_url: { url: 'https://example.com/photo.jpg' },
11 },
12 ],
13 },
14 ],
15});

Base64 画像

Base64 エンコードされた画像を送信することもできます。画像が公開アクセスできない場合に便利です:

TypeScript
1const base64Image = fs.readFileSync('photo.jpg', 'base64');
2
3const completion = await client.chat.completions.create({
4 model: 'claude-sonnet-4',
5 messages: [
6 {
7 role: 'user',
8 content: [
9 { type: 'text', text: 'この画像を説明してください' },
10 {
11 type: 'image_url',
12 image_url: {
13 url: `data:image/jpeg;base64,${base64Image}`,
14 },
15 },
16 ],
17 },
18 ],
19});

サポートされるフォーマット:JPEG、PNG、GIF、WebP。最大サイズはモデルによって異なります(通常 20MB)。

対応モデル

モデルの inputModalities フィールドを確認して、画像入力がサポートされているかどうかを確認してください。Image 入力モダリティを持つモデルはマルチモーダルリクエストを受け付けます。

モデルページ の「入力モダリティ」フィルターでマルチモーダルモデルを検索できます。