광고 / Ad
2025년 게시판 보기

[콕스 백과사전] 멀티모달(Multimodal)

멀티모달 기술을 설명하는 이미지 / 사진 제미나이로 생성
멀티모달 기술을 설명하는 이미지 / 사진 제미나이로 생성
멀티모달 기술을 설명하는 이미지 / 사진 제미나이로 생성 멀티모달 기술을 설명하는 이미지 / 사진 제미나이로 생성

멀티모달(Multimodal)을 한마디로 설명하면, 텍스트·이미지·음성·영상 등 서로 다른 형태의 정보를 동시에 이해하고 처리하는 인공지능 기술이다.

초창기 AI는 주로 하나의 데이터 유형만 다뤘다. 예를 들어 텍스트 기반 챗봇은 글만 이해했고, 이미지 인식 모델은 사진만 분석했다. 이를 단일모달(Single Modal) 시스템이라고 부른다.

반면 멀티모달 AI는 사진을 보고 설명을 생성하거나 음성을 듣고 텍스트로 변환한 뒤 내용을 요약하고 영상과 자막을 함께 분석하는 등 여러 정보를 통합적으로 이해한다.

사람은 대화를 할 때 상대의 말(음성)뿐 아니라 표정(이미지), 맥락(텍스트 정보)까지 함께 해석한다. AI도 복합 정보를 처리할 수 있어야 보다 인간에 가까운 판단을 내릴 수 있다. 그래서 멀티모달은 차세대 인공지능 경쟁의 핵심 기술로 평가받는다.

멀티모달 기술은 이미 다양한 분야에서 활용되고 있다. 음성을 듣고 화면 속 정보를 분석해 답변 제공하는 AI 비서, 카메라 영상, 레이더, 센서 데이터를 동시에 분석하는 자율주행차 기술, 영상 촬영 결과와 환자 기록을 함께 분석해 진단을 보조하는 스마트 의료 등이 대표적인 예다.

현재 챗GPT로 생성형 AI 시장을 선도하는 오픈AI는 텍스트뿐 아니라 이미지와 음성을 함께 처리하는 모델을 선보였고, Google 역시 멀티모달 기반 AI 모델 ‘제미나이(Gemini)’를 통해 시장 경쟁에 나서고 있다.

0 Comments
남성 여름 쿨링 스판 초경량 밴딩 슬랙스 정장 바지
그레이 남자 학생지갑 남학생 심플 남성반지갑 캐주얼 빈티지
(별별창고) 마이웨이 문신 쿨토시 팔토시 타투 골프 여름 운전 발토시 살색 다리
플라워 모이스쳐링 3종세트 여성에멀젼 화장품세트
PN 압력솥 김빼기 안전밸브 블랙펄 - 대
캐논 MF 4780w 정품토너 검정 CRG 328 프린터.
키보드 클리커 딸깍이 키캡키링4구 마시멜로
아이리버 블루투스이어폰 무선 커널형 이어폰 IB-T4030BT (화이트)
붙이는 몰딩 벽지보수 셀프인테리어 걸레받이 시트지 4컬러 1m
무타공 면도기 스텐 거치대 걸이
철제 더블 옷장 무타공 튼튼한 스탠드 옷걸이 행거
화장품 수납정리대 파우더룸 메이크업 브러쉬
농심 짜파게티 만능소스 280g X 2개
도시락가방 보냉백 런치백 토트백
플라워 5단 미니 암막 양산 우산 자외선차단 초경량
러닝 마라톤 운동 숏츠 반바지 레깅스 스포츠 사이클 헬스 트레이닝복 팬츠

2컬러 방수 자동차용품 차량용품 다용도 휴지통걸이
칠성상회
FX-4000 리필심(153 ID 흑 1.0 모나미)
칠성상회

맨위로↑