경제산업 / Economy
2025년 이전 게시판 보기

GPT-4o에 견줄만한 카카오 'Kanana-o'…성능테스트 결과 발표

Kanana-o와 글로벌 경쟁모델 벤치마크 성능을 비교한 그래프 / 사진 카카오 
Kanana-o와 글로벌 경쟁모델 벤치마크 성능을 비교한 그래프 / 사진 카카오 
Kanana-o와 글로벌 경쟁모델 벤치마크 성능을 비교한 그래프 / 사진 카카오  Kanana-o와 글로벌 경쟁모델 벤치마크 성능을 비교한 그래프 / 사진 카카오 

카카오가 텍스트·음성·이미지를 동시에 이해하는 멀티모달 AI 기술의 성능이 글로벌 주요 모델과 비교해 손색이 없는 벤치마크 결과를 공개했다. 

카카오는 12일 테크블로그를 통해 통합 멀티모달 언어모델 'Kanana-o'와 멀티모달 임베딩 모델 'Kanana-v-embedding'의 개발 과정과 성능을 발표했다. 

Kanana-o는 텍스트·음성·이미지를 동시에 이해하고 실시간 답변하는 모델로 5월 첫 공개됐다.

기존 모델이 음성 대화 시 답변이 단순해지는 한계를 극복하기 위해 지시이행 능력을 고도화해 사용자의 숨은 의도와 복잡한 요구사항까지 파악한다. 자체 데이터셋으로 요약·감정 및 의도 해석·오류 수정·번역 등 다양한 과업 수행이 가능하다.

고품질 음성 데이터와 DPO 기술로 억양·감정·호흡을 학습시켜 기쁨·슬픔·분노·공포 등 상황별 감정 표현 능력을 향상시켰다. 한국어 음성 인식·합성·감정 인식에서 월등히 높은 벤치마크를 기록했다.

Kanana-v-embedding 벤치마크 성능 비교 결과를 나타내는 그래프 / 사진 카카오 Kanana-v-embedding 벤치마크 성능 비교 결과를 나타내는 그래프 / 사진 카카오

Kanana-v-embedding은 이미지 기반 검색 핵심 기술로, 텍스트로 이미지를 검색하거나 이미지 관련 정보·문서를 검색한다. '경복궁'·'붕어빵' 같은 고유명사는 물론 오타가 포함된 단어도 문맥으로 파악하고, '한복 입고 찍은 단체 사진' 같은 복합 조건도 정확히 이해한다. 현재 카카오 내부 광고 소재 유사도 분석 시스템에 적용 중이다.

카카오는 온 디바이스 환경 멀티모달 모델 경량화 연구와 MoE 구조 적용 고성능 모델 'Kanana-2' 개발을 준비 중이다.

0 Comments
집게형 미니핀 앞머리 옆머리 작은 머리핀 앞머리핀
운동화 셀프 수선 패치 10P
남성 4컬러 아웃도어 트레킹 운동화
남성 긴팔 티셔츠 이너웨어 운동복 슬림핏 헬스티셔츠
갤럭시 와이드5 지갑 다이어리케이스 핸드폰 스탠딩 카드포켓 E426S
TBZ Coms 카드리더기 2 in 1 C타입 USB 3.0 TF Micro SD SD FW001
삼성정품 SL-M4070FX용 흑백레이저프린터토너
OSM-1005969 스마트톡 크리스탈 하트 8컬러
도어스토퍼/문 고정장치 말발굽 도어스톱 말굽 방문
4단 신발 정리함 수납 조립식 선반 현관 신발장
벨로 실버헤어라인 전기 전등 1로 2구 스위치
디귿철제 슬라이드 슬라이딩 수납함 소형
만세 핸드 스퀴지 욕실 화장실 유리창 물기제거 청소
흑설탕(삼양 15K)
리스테린 토탈케어 검케어 마일드 750ml X 2개
코텍 줌 전지가위202 대형 원예 조경 분재 전정 꽃 가지치기 적과 과수원 벌초 가위

PVC 안전 경고 테이프
칠성상회
종이나라 디자인 양면색상지 4절 09 흰분홍 (10개입)
칠성상회

맨위로↑