マルチモーダル
ビジョン対応モデルに画像とテキストを送信する。
概要
マルチモーダルモデルは、1 回のリクエストでテキストと画像の両方を処理できます。これにより、画像分析、ドキュメント理解、図表の解釈、ビジュアル Q&A などのユースケースが実現します。
画像入力に対応するモデルには GPT-4o、Claude Sonnet/Opus、Gemini などがあります。
画像を送信する
messages 配列に image_url コンテンツタイプを使用して画像を渡してください:
TypeScript
| 1 | const completion = await client.chat.completions.create({ |
| 2 | model: 'gpt-4o', |
| 3 | messages: [ |
| 4 | { |
| 5 | role: 'user', |
| 6 | content: [ |
| 7 | { type: 'text', text: 'この画像には何が写っていますか?' }, |
| 8 | { |
| 9 | type: 'image_url', |
| 10 | image_url: { url: 'https://example.com/photo.jpg' }, |
| 11 | }, |
| 12 | ], |
| 13 | }, |
| 14 | ], |
| 15 | }); |
Base64 画像
Base64 エンコードされた画像を送信することもできます。画像が公開アクセスできない場合に便利です:
TypeScript
| 1 | const base64Image = fs.readFileSync('photo.jpg', 'base64'); |
| 2 | |
| 3 | const completion = await client.chat.completions.create({ |
| 4 | model: 'claude-sonnet-4', |
| 5 | messages: [ |
| 6 | { |
| 7 | role: 'user', |
| 8 | content: [ |
| 9 | { type: 'text', text: 'この画像を説明してください' }, |
| 10 | { |
| 11 | type: 'image_url', |
| 12 | image_url: { |
| 13 | url: `data:image/jpeg;base64,${base64Image}`, |
| 14 | }, |
| 15 | }, |
| 16 | ], |
| 17 | }, |
| 18 | ], |
| 19 | }); |
サポートされるフォーマット:JPEG、PNG、GIF、WebP。最大サイズはモデルによって異なります(通常 20MB)。
対応モデル
モデルの inputModalities フィールドを確認して、画像入力がサポートされているかどうかを確認してください。Image 入力モダリティを持つモデルはマルチモーダルリクエストを受け付けます。
モデルページ の「入力モダリティ」フィルターでマルチモーダルモデルを検索できます。