Multimodal
Envoyez des images et du texte aux modèles dotés de capacités visuelles.
Vue d'ensemble
Les modèles multimodaux peuvent traiter simultanément du texte et des images dans une seule requête. Cela ouvre la voie à l'analyse d'images, la compréhension de documents, l'interprétation de graphiques et les questions-réponses visuelles.
Les modèles prenant en charge les images en entrée incluent GPT-4o, Claude Sonnet/Opus et Gemini.
Envoyer des images
Utilisez le type de contenu image_url dans le tableau messages pour transmettre des images :
| 1 | const completion = await client.chat.completions.create({ |
| 2 | model: 'gpt-4o', |
| 3 | messages: [ |
| 4 | { |
| 5 | role: 'user', |
| 6 | content: [ |
| 7 | { type: 'text', text: "Qu'y a-t-il dans cette image ?" }, |
| 8 | { |
| 9 | type: 'image_url', |
| 10 | image_url: { url: 'https://example.com/photo.jpg' }, |
| 11 | }, |
| 12 | ], |
| 13 | }, |
| 14 | ], |
| 15 | }); |
Images en Base64
Vous pouvez également envoyer des images encodées en base64, utiles lorsque l'image n'est pas accessible publiquement :
| 1 | const base64Image = fs.readFileSync('photo.jpg', 'base64'); |
| 2 | |
| 3 | const completion = await client.chat.completions.create({ |
| 4 | model: 'claude-sonnet-4', |
| 5 | messages: [ |
| 6 | { |
| 7 | role: 'user', |
| 8 | content: [ |
| 9 | { type: 'text', text: 'Décrivez cette image' }, |
| 10 | { |
| 11 | type: 'image_url', |
| 12 | image_url: { |
| 13 | url: `data:image/jpeg;base64,${base64Image}`, |
| 14 | }, |
| 15 | }, |
| 16 | ], |
| 17 | }, |
| 18 | ], |
| 19 | }); |
Formats pris en charge : JPEG, PNG, GIF, WebP. La taille maximale varie selon le modèle (généralement 20 Mo).
Modèles pris en charge
Vérifiez le champ inputModalities d'un modèle pour confirmer qu'il accepte des images en entrée. Les modèles dotés de la modalité d'entrée Image acceptent les requêtes multimodales.
Utilisez le filtre « Modalités d'entrée » sur la page Modèles pour trouver les modèles multimodaux.