Multimodal

Envoyez des images et du texte aux modèles dotés de capacités visuelles.

Vue d'ensemble

Les modèles multimodaux peuvent traiter simultanément du texte et des images dans une seule requête. Cela ouvre la voie à l'analyse d'images, la compréhension de documents, l'interprétation de graphiques et les questions-réponses visuelles.

Les modèles prenant en charge les images en entrée incluent GPT-4o, Claude Sonnet/Opus et Gemini.

Envoyer des images

Utilisez le type de contenu image_url dans le tableau messages pour transmettre des images :

TypeScript
1const completion = await client.chat.completions.create({
2 model: 'gpt-4o',
3 messages: [
4 {
5 role: 'user',
6 content: [
7 { type: 'text', text: "Qu'y a-t-il dans cette image ?" },
8 {
9 type: 'image_url',
10 image_url: { url: 'https://example.com/photo.jpg' },
11 },
12 ],
13 },
14 ],
15});

Images en Base64

Vous pouvez également envoyer des images encodées en base64, utiles lorsque l'image n'est pas accessible publiquement :

TypeScript
1const base64Image = fs.readFileSync('photo.jpg', 'base64');
2
3const completion = await client.chat.completions.create({
4 model: 'claude-sonnet-4',
5 messages: [
6 {
7 role: 'user',
8 content: [
9 { type: 'text', text: 'Décrivez cette image' },
10 {
11 type: 'image_url',
12 image_url: {
13 url: `data:image/jpeg;base64,${base64Image}`,
14 },
15 },
16 ],
17 },
18 ],
19});

Formats pris en charge : JPEG, PNG, GIF, WebP. La taille maximale varie selon le modèle (généralement 20 Mo).

Modèles pris en charge

Vérifiez le champ inputModalities d'un modèle pour confirmer qu'il accepte des images en entrée. Les modèles dotés de la modalité d'entrée Image acceptent les requêtes multimodales.

Utilisez le filtre « Modalités d'entrée » sur la page Modèles pour trouver les modèles multimodaux.