Skip to content
Guides · Multimodal

Multimodal

Bilder und Text an vision-fähige Modelle senden.


Übersicht

Multimodale Modelle können Text und Bilder in einer einzigen Anfrage verarbeiten. Dies ermöglicht Anwendungsfälle wie Bildanalyse, Dokumentenverständnis, Diagramminterpretation und visuelles Frage-Antwort-System.

Modelle mit Bildunterstützung sind unter anderem qwen3.6-plus, Claude Sonnet/Opus und Gemini.

Bilder senden

Verwenden Sie den Inhaltstyp image_url im Array messages, um Bilder zu übermitteln:

TypeScript
1const completion = await client.chat.completions.create({
2 model: 'qwen3.6-plus',
3 messages: [
4 {
5 role: 'user',
6 content: [
7 { type: 'text', text: 'Was ist auf diesem Bild zu sehen?' },
8 {
9 type: 'image_url',
10 image_url: { url: 'https://example.com/photo.jpg' },
11 },
12 ],
13 },
14 ],
15});

Base64-Bilder

Sie können auch base64-kodierte Bilder senden – nützlich, wenn das Bild nicht öffentlich zugänglich ist:

TypeScript
1const base64Image = fs.readFileSync('photo.jpg', 'base64');
2
3const completion = await client.chat.completions.create({
4 model: 'claude-sonnet-4',
5 messages: [
6 {
7 role: 'user',
8 content: [
9 { type: 'text', text: 'Beschreiben Sie dieses Bild' },
10 {
11 type: 'image_url',
12 image_url: {
13 url: `data:image/jpeg;base64,${base64Image}`,
14 },
15 },
16 ],
17 },
18 ],
19});

Unterstützte Formate: JPEG, PNG, GIF, WebP. Die maximale Dateigröße variiert je nach Modell (in der Regel 20 MB).

Unterstützte Modelle

Prüfen Sie das Feld input_modalities eines Modells, um zu bestätigen, ob Bildeingaben unterstützt werden. Modelle mit der Eingabe-Modalität image akzeptieren multimodale Anfragen.

Verwenden Sie den Filter „Eingabe-Modalitäten" auf der Modellseite, um multimodale Modelle zu finden.