TTA, '벡터 유사도'로 AI 생성 콘텐츠 검증하는 표준 제시

특정 벡터 유사도 기반 AI 생성 콘텐츠 검증 시스템을 적용하기 전, 후 상황을 비교한 이미지 / 사진 TTA

챗GPT, 나노바나나 등 생성형 AI가 일상에 빠르게 스며들면서 누구나 손쉽게 이미지와 영상을 만드는 시대가 열렸다. 올 상반기에는 지브리, 심슨 가족 등 유명 애니메이션 화풍을 모방한 프로필 이미지 생성이 SNS에서 큰 인기를 끌기도 했다.

하지만 기술의 확산과 함께 부작용도 커지고 있다. 일부 앱에서 의도치 않은 유해 콘텐츠가 생성되거나, 딥페이크 등 심각한 사회적 문제로 이어질 수 있다는 우려가 제기되고 있다. 생성형 AI는 방대한 딥러닝 모델을 통해 학습과 생성 과정을 내부적으로 처리하기 때문에, 부적절한 데이터가 학습에 사용되어도 이를 추적하고 통제하기 어렵다는 게 전문가들의 지적이다.

한국정보통신기술협회(TTA)는 생성형 AI의 학습 및 생성 과정을 검증하기 위한 새로운 표준을 내놓는다. '벡터 유사도 기반 콘텐츠 검증 지침'이 그 주인공이다.

이 표준은 검증 기준이 되는 '참조 데이터셋'과 분석 대상인 'AI 생성 콘텐츠'에서 각각 특징 벡터를 추출해 비교하는 방식이다. 특징 벡터는 AI 모델의 은닉 계층에서 추출된 콘텐츠의 고유한 특성을 수치로 표현한 데이터를 말한다.

구체적으로는 작가별 그림체, 선정적·폭력적 콘텐츠 등 검증에 활용 가능한 유사 데이터로 참조 데이터셋을 구성한다. 여기서 특징 벡터를 추출해 참조 벡터 DB에 등록하고, AI가 콘텐츠를 생성하는 과정에서 나오는 특징 벡터와 코사인 유사도를 계산한다. 유사도가 미리 정한 임계값을 초과하면, 해당 콘텐츠가 참조 데이터셋의 영향을 받아 생성된 것으로 판단하는 방식이다.

이 표준이 제정될 경우 실질적인 활용도가 높을 것으로 기대된다. 저작권 분쟁이 발생했을 때 AI 생성 콘텐츠가 특정 작가의 작품을 무단으로 학습했는지 입증하는 근거로 활용할 수 있다. 또한 유사도가 높은 참조 데이터가 선정적이거나 폭력적인 콘텐츠인 경우, 이를 유해 콘텐츠로 판단해 사전에 차단할 수 있다.

이번 표준은 한국전자기술연구원과 다차원영상기술표준화포럼이 제안했으며, TTA 메타버스 콘텐츠 프로젝트그룹(PG610)에서 연내 제정을 목표로 추진 중이다. PG610은 앞서 불법촬영 음란영상물 필터링을 위한 특징 데이터베이스 제작 지침 등 디지털 콘텐츠 관련 200건의 표준을 제정한 바 있다.

손승현 TTA 회장은 "AI가 학습하는 데이터와 생성하는 콘텐츠는 디지털 사회의 핵심 자원이자 중요한 비즈니스 모델이 될 것이다"며 "TTA는 AI의 악의적 활용을 방지하고 안전한 디지털 콘텐츠 생태계 조성에 앞장서겠다"고 밝혔다.

한편, TTA는 11월 3일부터 5일까지 열리는 'GISC 2025'에서 AI, 양자, 사이버보안 등 글로벌 ICT 표준화 동향과 미래 표준·특허 전략을 공유할 예정이다.