Multimodal
Bilder und Text an vision-fähige Modelle senden.
Übersicht
Multimodale Modelle können Text und Bilder in einer einzigen Anfrage verarbeiten. Dies ermöglicht Anwendungsfälle wie Bildanalyse, Dokumentenverständnis, Diagramminterpretation und visuelles Frage-Antwort-System.
Modelle mit Bildunterstützung sind unter anderem qwen3.6-plus, Claude Sonnet/Opus und Gemini.
Bilder senden
Verwenden Sie den Inhaltstyp image_url im Array messages, um Bilder zu übermitteln:
| 1 | const completion = await client.chat.completions.create({ |
| 2 | model: 'qwen3.6-plus', |
| 3 | messages: [ |
| 4 | { |
| 5 | role: 'user', |
| 6 | content: [ |
| 7 | { type: 'text', text: 'Was ist auf diesem Bild zu sehen?' }, |
| 8 | { |
| 9 | type: 'image_url', |
| 10 | image_url: { url: 'https://example.com/photo.jpg' }, |
| 11 | }, |
| 12 | ], |
| 13 | }, |
| 14 | ], |
| 15 | }); |
Base64-Bilder
Sie können auch base64-kodierte Bilder senden – nützlich, wenn das Bild nicht öffentlich zugänglich ist:
| 1 | const base64Image = fs.readFileSync('photo.jpg', 'base64'); |
| 2 | |
| 3 | const completion = await client.chat.completions.create({ |
| 4 | model: 'claude-sonnet-4', |
| 5 | messages: [ |
| 6 | { |
| 7 | role: 'user', |
| 8 | content: [ |
| 9 | { type: 'text', text: 'Beschreiben Sie dieses Bild' }, |
| 10 | { |
| 11 | type: 'image_url', |
| 12 | image_url: { |
| 13 | url: `data:image/jpeg;base64,${base64Image}`, |
| 14 | }, |
| 15 | }, |
| 16 | ], |
| 17 | }, |
| 18 | ], |
| 19 | }); |
Unterstützte Formate: JPEG, PNG, GIF, WebP. Die maximale Dateigröße variiert je nach Modell (in der Regel 20 MB).
Unterstützte Modelle
Prüfen Sie das Feld input_modalities eines Modells, um zu bestätigen, ob Bildeingaben unterstützt werden. Modelle mit der Eingabe-Modalität image akzeptieren multimodale Anfragen.
Verwenden Sie den Filter „Eingabe-Modalitäten" auf der Modellseite, um multimodale Modelle zu finden.