GPT-4o에 견줄만한 카카오 'Kanana-o'…성능테스트 결과 발표

카카오가 텍스트·음성·이미지를 동시에 이해하는 멀티모달 AI 기술의 성능이 글로벌 주요 모델과 비교해 손색이 없는 벤치마크 결과를 공개했다.
카카오는 12일 테크블로그를 통해 통합 멀티모달 언어모델 'Kanana-o'와 멀티모달 임베딩 모델 'Kanana-v-embedding'의 개발 과정과 성능을 발표했다.
Kanana-o는 텍스트·음성·이미지를 동시에 이해하고 실시간 답변하는 모델로 5월 첫 공개됐다.
기존 모델이 음성 대화 시 답변이 단순해지는 한계를 극복하기 위해 지시이행 능력을 고도화해 사용자의 숨은 의도와 복잡한 요구사항까지 파악한다. 자체 데이터셋으로 요약·감정 및 의도 해석·오류 수정·번역 등 다양한 과업 수행이 가능하다.
고품질 음성 데이터와 DPO 기술로 억양·감정·호흡을 학습시켜 기쁨·슬픔·분노·공포 등 상황별 감정 표현 능력을 향상시켰다. 한국어 음성 인식·합성·감정 인식에서 월등히 높은 벤치마크를 기록했다.
Kanana-v-embedding은 이미지 기반 검색 핵심 기술로, 텍스트로 이미지를 검색하거나 이미지 관련 정보·문서를 검색한다. '경복궁'·'붕어빵' 같은 고유명사는 물론 오타가 포함된 단어도 문맥으로 파악하고, '한복 입고 찍은 단체 사진' 같은 복합 조건도 정확히 이해한다. 현재 카카오 내부 광고 소재 유사도 분석 시스템에 적용 중이다.
카카오는 온 디바이스 환경 멀티모달 모델 경량화 연구와 MoE 구조 적용 고성능 모델 'Kanana-2' 개발을 준비 중이다.








