멀티모달
비전 지원 모델에 이미지와 텍스트를 함께 전송합니다.
개요
멀티모달 모델은 단일 요청에서 텍스트와 이미지를 동시에 처리할 수 있습니다. 이를 통해 이미지 분석, 문서 이해, 차트 해석, 시각적 질의응답 등 다양한 시나리오가 가능합니다.
이미지 입력을 지원하는 모델에는 GPT-4o, Claude Sonnet/Opus, Gemini 등이 있습니다.
이미지 전송
messages 배열에 image_url 콘텐츠 타입을 사용하여 이미지를 전달합니다:
TypeScript
| 1 | const completion = await client.chat.completions.create({ |
| 2 | model: 'gpt-4o', |
| 3 | messages: [ |
| 4 | { |
| 5 | role: 'user', |
| 6 | content: [ |
| 7 | { type: 'text', text: '이 이미지에 무엇이 있나요?' }, |
| 8 | { |
| 9 | type: 'image_url', |
| 10 | image_url: { url: 'https://example.com/photo.jpg' }, |
| 11 | }, |
| 12 | ], |
| 13 | }, |
| 14 | ], |
| 15 | }); |
Base64 이미지
Base64로 인코딩된 이미지도 전송할 수 있습니다. 이미지가 공개적으로 접근 불가한 경우에 유용합니다:
TypeScript
| 1 | const base64Image = fs.readFileSync('photo.jpg', 'base64'); |
| 2 | |
| 3 | const completion = await client.chat.completions.create({ |
| 4 | model: 'claude-sonnet-4', |
| 5 | messages: [ |
| 6 | { |
| 7 | role: 'user', |
| 8 | content: [ |
| 9 | { type: 'text', text: '이 이미지를 설명해 주세요' }, |
| 10 | { |
| 11 | type: 'image_url', |
| 12 | image_url: { |
| 13 | url: `data:image/jpeg;base64,${base64Image}`, |
| 14 | }, |
| 15 | }, |
| 16 | ], |
| 17 | }, |
| 18 | ], |
| 19 | }); |
지원 형식: JPEG, PNG, GIF, WebP. 최대 크기는 모델에 따라 다릅니다 (일반적으로 20MB).
지원 모델
모델의 inputModalities 필드를 확인하여 이미지 입력 지원 여부를 알 수 있습니다. Image 입력 모달리티가 있는 모델은 멀티모달 요청을 받을 수 있습니다.
모델 페이지에서 "입력 모달리티" 필터를 사용하여 멀티모달 모델을 찾으세요.