Guides · Multimodal

Multimodal

Bilder und Text an vision-fähige Modelle senden.

Übersicht

Multimodale Modelle können Text und Bilder in einer einzigen Anfrage verarbeiten. Dies ermöglicht Anwendungsfälle wie Bildanalyse, Dokumentenverständnis, Diagramminterpretation und visuelles Frage-Antwort-System.

Modelle mit Bildunterstützung sind unter anderem qwen3.6-plus, Claude Sonnet/Opus und Gemini.

Bilder senden

Verwenden Sie den Inhaltstyp image_url im Array messages, um Bilder zu übermitteln:

TypeScript

1	const completion = await client.chat.completions.create({
2	model: 'qwen3.6-plus',
3	messages: [
4	{
5	role: 'user',
6	content: [
7	{ type: 'text', text: 'Was ist auf diesem Bild zu sehen?' },
8	{
9	type: 'image_url',
10	image_url: { url: 'https://example.com/photo.jpg' },
11	},
12	],
13	},
14	],
15	});

Base64-Bilder

Sie können auch base64-kodierte Bilder senden – nützlich, wenn das Bild nicht öffentlich zugänglich ist:

TypeScript

1	const base64Image = fs.readFileSync('photo.jpg', 'base64');
2
3	const completion = await client.chat.completions.create({
4	model: 'claude-sonnet-4',
5	messages: [
6	{
7	role: 'user',
8	content: [
9	{ type: 'text', text: 'Beschreiben Sie dieses Bild' },
10	{
11	type: 'image_url',
12	image_url: {
13	url: `data:image/jpeg;base64,${base64Image}`,
14	},
15	},
16	],
17	},
18	],
19	});

Unterstützte Formate: JPEG, PNG, GIF, WebP. Die maximale Dateigröße variiert je nach Modell (in der Regel 20 MB).

Unterstützte Modelle

Prüfen Sie das Feld input_modalities eines Modells, um zu bestätigen, ob Bildeingaben unterstützt werden. Modelle mit der Eingabe-Modalität image akzeptieren multimodale Anfragen.

Verwenden Sie den Filter „Eingabe-Modalitäten" auf der Modellseite, um multimodale Modelle zu finden.