Multimodal
Bilder und Text an vision-fähige Modelle senden.
Übersicht
Multimodale Modelle können Text und Bilder in einer einzigen Anfrage verarbeiten. Dies ermöglicht Anwendungsfälle wie Bildanalyse, Dokumentenverständnis, Diagramminterpretation und visuelles Frage-Antwort-System.
Modelle mit Bildunterstützung sind unter anderem GPT-4o, Claude Sonnet/Opus und Gemini.
Bilder senden
Verwenden Sie den Inhaltstyp image_url im Array messages, um Bilder zu übermitteln:
| 1 | const completion = await client.chat.completions.create({ |
| 2 | model: 'gpt-4o', |
| 3 | messages: [ |
| 4 | { |
| 5 | role: 'user', |
| 6 | content: [ |
| 7 | { type: 'text', text: 'Was ist auf diesem Bild zu sehen?' }, |
| 8 | { |
| 9 | type: 'image_url', |
| 10 | image_url: { url: 'https://example.com/photo.jpg' }, |
| 11 | }, |
| 12 | ], |
| 13 | }, |
| 14 | ], |
| 15 | }); |
Base64-Bilder
Sie können auch base64-kodierte Bilder senden – nützlich, wenn das Bild nicht öffentlich zugänglich ist:
| 1 | const base64Image = fs.readFileSync('photo.jpg', 'base64'); |
| 2 | |
| 3 | const completion = await client.chat.completions.create({ |
| 4 | model: 'claude-sonnet-4', |
| 5 | messages: [ |
| 6 | { |
| 7 | role: 'user', |
| 8 | content: [ |
| 9 | { type: 'text', text: 'Beschreiben Sie dieses Bild' }, |
| 10 | { |
| 11 | type: 'image_url', |
| 12 | image_url: { |
| 13 | url: `data:image/jpeg;base64,${base64Image}`, |
| 14 | }, |
| 15 | }, |
| 16 | ], |
| 17 | }, |
| 18 | ], |
| 19 | }); |
Unterstützte Formate: JPEG, PNG, GIF, WebP. Die maximale Dateigröße variiert je nach Modell (in der Regel 20 MB).
Unterstützte Modelle
Prüfen Sie das Feld inputModalities eines Modells, um zu bestätigen, ob Bildeingaben unterstützt werden. Modelle mit der Eingabe-Modalität Image akzeptieren multimodale Anfragen.
Verwenden Sie den Filter „Eingabe-Modalitäten" auf der Modellseite, um multimodale Modelle zu finden.