Multimodal

Bilder und Text an vision-fähige Modelle senden.

Übersicht

Multimodale Modelle können Text und Bilder in einer einzigen Anfrage verarbeiten. Dies ermöglicht Anwendungsfälle wie Bildanalyse, Dokumentenverständnis, Diagramminterpretation und visuelles Frage-Antwort-System.

Modelle mit Bildunterstützung sind unter anderem GPT-4o, Claude Sonnet/Opus und Gemini.

Bilder senden

Verwenden Sie den Inhaltstyp image_url im Array messages, um Bilder zu übermitteln:

TypeScript
1const completion = await client.chat.completions.create({
2 model: 'gpt-4o',
3 messages: [
4 {
5 role: 'user',
6 content: [
7 { type: 'text', text: 'Was ist auf diesem Bild zu sehen?' },
8 {
9 type: 'image_url',
10 image_url: { url: 'https://example.com/photo.jpg' },
11 },
12 ],
13 },
14 ],
15});

Base64-Bilder

Sie können auch base64-kodierte Bilder senden – nützlich, wenn das Bild nicht öffentlich zugänglich ist:

TypeScript
1const base64Image = fs.readFileSync('photo.jpg', 'base64');
2
3const completion = await client.chat.completions.create({
4 model: 'claude-sonnet-4',
5 messages: [
6 {
7 role: 'user',
8 content: [
9 { type: 'text', text: 'Beschreiben Sie dieses Bild' },
10 {
11 type: 'image_url',
12 image_url: {
13 url: `data:image/jpeg;base64,${base64Image}`,
14 },
15 },
16 ],
17 },
18 ],
19});

Unterstützte Formate: JPEG, PNG, GIF, WebP. Die maximale Dateigröße variiert je nach Modell (in der Regel 20 MB).

Unterstützte Modelle

Prüfen Sie das Feld inputModalities eines Modells, um zu bestätigen, ob Bildeingaben unterstützt werden. Modelle mit der Eingabe-Modalität Image akzeptieren multimodale Anfragen.

Verwenden Sie den Filter „Eingabe-Modalitäten" auf der Modellseite, um multimodale Modelle zu finden.