멀티모달

비전 지원 모델에 이미지와 텍스트를 함께 전송합니다.

개요

멀티모달 모델은 단일 요청에서 텍스트와 이미지를 동시에 처리할 수 있습니다. 이를 통해 이미지 분석, 문서 이해, 차트 해석, 시각적 질의응답 등 다양한 시나리오가 가능합니다.

이미지 입력을 지원하는 모델에는 GPT-4o, Claude Sonnet/Opus, Gemini 등이 있습니다.

이미지 전송

messages 배열에 image_url 콘텐츠 타입을 사용하여 이미지를 전달합니다:

TypeScript
1const completion = await client.chat.completions.create({
2 model: 'gpt-4o',
3 messages: [
4 {
5 role: 'user',
6 content: [
7 { type: 'text', text: '이 이미지에 무엇이 있나요?' },
8 {
9 type: 'image_url',
10 image_url: { url: 'https://example.com/photo.jpg' },
11 },
12 ],
13 },
14 ],
15});

Base64 이미지

Base64로 인코딩된 이미지도 전송할 수 있습니다. 이미지가 공개적으로 접근 불가한 경우에 유용합니다:

TypeScript
1const base64Image = fs.readFileSync('photo.jpg', 'base64');
2
3const completion = await client.chat.completions.create({
4 model: 'claude-sonnet-4',
5 messages: [
6 {
7 role: 'user',
8 content: [
9 { type: 'text', text: '이 이미지를 설명해 주세요' },
10 {
11 type: 'image_url',
12 image_url: {
13 url: `data:image/jpeg;base64,${base64Image}`,
14 },
15 },
16 ],
17 },
18 ],
19});

지원 형식: JPEG, PNG, GIF, WebP. 최대 크기는 모델에 따라 다릅니다 (일반적으로 20MB).

지원 모델

모델의 inputModalities 필드를 확인하여 이미지 입력 지원 여부를 알 수 있습니다. Image 입력 모달리티가 있는 모델은 멀티모달 요청을 받을 수 있습니다.

모델 페이지에서 "입력 모달리티" 필터를 사용하여 멀티모달 모델을 찾으세요.