Guides · 멀티모달

멀티모달

비전 지원 모델에 이미지와 텍스트를 함께 전송합니다.

개요

멀티모달 모델은 단일 요청에서 텍스트와 이미지를 동시에 처리할 수 있습니다. 이를 통해 이미지 분석, 문서 이해, 차트 해석, 시각적 질의응답 등 다양한 시나리오가 가능합니다.

이미지 입력을 지원하는 모델에는 qwen3.6-plus, Claude Sonnet/Opus, Gemini 등이 있습니다.

messages 배열에 image_url 콘텐츠 타입을 사용하여 이미지를 전달합니다:

TypeScript

1	const completion = await client.chat.completions.create({
2	model: 'qwen3.6-plus',
3	messages: [
4	{
5	role: 'user',
6	content: [
7	{ type: 'text', text: '이 이미지에 무엇이 있나요?' },
8	{
9	type: 'image_url',
10	image_url: { url: 'https://example.com/photo.jpg' },
11	},
12	],
13	},
14	],
15	});

Base64로 인코딩된 이미지도 전송할 수 있습니다. 이미지가 공개적으로 접근 불가한 경우에 유용합니다:

TypeScript

1	const base64Image = fs.readFileSync('photo.jpg', 'base64');
2
3	const completion = await client.chat.completions.create({
4	model: 'claude-sonnet-4',
5	messages: [
6	{
7	role: 'user',
8	content: [
9	{ type: 'text', text: '이 이미지를 설명해 주세요' },
10	{
11	type: 'image_url',
12	image_url: {
13	url: `data:image/jpeg;base64,${base64Image}`,
14	},
15	},
16	],
17	},
18	],
19	});

지원 형식: JPEG, PNG, GIF, WebP. 최대 크기는 모델에 따라 다릅니다 (일반적으로 20MB).

모델의 input_modalities 필드를 확인하여 이미지 입력 지원 여부를 알 수 있습니다. image 입력 모달리티가 있는 모델은 멀티모달 요청을 받을 수 있습니다.

모델 페이지에서 "입력 모달리티" 필터를 사용하여 멀티모달 모델을 찾으세요.