[보안뉴스 조재호 기자] 알리바바는 자사 인공지능(AI) 큐원(Qwen) 시리즈의 멀티모달 모델 ‘Qwen2.5-Omni-7B’를 공개했다고 31일 밝혔다.
이번 모델은 멀티모달 기능에 방점이 찍혔다. 텍스트와 이미지, 음성, 영상 등 다양한 형태의 입력 정보를 처리해 텍스트나 음성으로 답변한다. 70억개의 파라미터를 지닌 가벼운 모델로 모바일이나 노트북, 에지 디바이스에 최적화됐다.

▲[자료: 알리바바 클라우드]
콤팩트한 설계에도 성능 저하 없이 강력한 멀티모달 처리 기능을 제공해 지능형 음성 애플리케이션처럼 민첩하고 비용 효율적인 AI 에이전트 개발에 적합한 모델이라고 회사측은 설명했다. 지능형 고객 응대 시스템이나 영상 속 음식의 조리법 가이드 제공, 시각장애인 음성 안내 등에 활용 가능하다.
Qwen2.5-Omni-7B은 허깅페이스와 깃허브에서 오픈소스로 공개됐다. 큐원 챗이나 알리바클라우드의 오픈소스 커뮤니티 모델스코프에서도 만나볼 수 있다.
회사는 이 모델이 비슷한 규모의 단일 모달리티 특화 모델과 비교해도 뒤처지지 않는다고 소개했다. 특히 실시간 음성 상호작용과 종단간 음성 명령어 이행 등에서 높은 벤치마크 성적을 보였다.

▲[자료: 알리바바 클라우드]
이러한 성적은 텍스트 생성(Thinker)과 음성 합성(Talker)을 분리해 서로 다른 모달 간의 간섭을 최소화하는 ‘Thinker-Talker’ 아키텍처와 비디오 입력과 오디오를 잘 동기화하는 임베딩 기술 ‘TMRoPE’(Time-aligned Multimodal RoPE), 저지연 오디오 응답을 위한 블록와이즈 스트리밍 처리(Block-wise Streaming Processing) 등을 적용한 결과다.
아울러 Qwen2.5-Omni-7B는 인컨텍스트 러닝(ICL·in-context learning)을 통해 상황과 맥락에 따른 음성 이해와 생성 능력을 올렸다. 강화학습(RL·Reinforcement Learning) 기반 최적화로 생성 안정성 향상과 함께 음성 응답의 발음 오류나 부자연스러운 정지 현상 등을 줄였다.
[조재호 기자(sw@boannews.com)]
<저작권자: 보안뉴스(www.boannews.com) 무단전재-재배포금지>