VoxCPM2: 토크나이저 없는 다국어 음성 디자인과 복제
VoxCPM2는 토크나이저 없이 30개 언어로 자연스러운 음성을 생성하며, 200만 시간 이상의 다국어 음성 데이터를 학습한 20억 매개변수 오픈소스 TTS 모델입니다. 음성 디자인, 제어 가능한 음성 복제, 48kHz 고음질 오디오 출력을 지원하며 상업적 이용이 가능합니다.
이 모델은 음성 토큰화 과정을 생략하여 훨씬 자연스럽고 표현력이 풍부한 음성을 생성하는 것이 핵심입니다. 단순히 음성을 복제하는 것을 넘어, 자연어 설명을 통해 새로운 음색을 디자인하거나 기존 음성의 감정, 속도 등을 정밀하게 제어하며 복제할 수 있다는 점에서 차별화됩니다.
미디어, 게임, 교육 콘텐츠 제작사와 AI 비서 및 디지털 휴먼 개발사가 가장 먼저 이 기술의 영향을 받을 것입니다. 다국어 더빙, 개인화된 오디오북, 가상 인플루언서 음성, 몰입형 게임 캐릭터 음성 등 다양한 분야로 빠르게 확산될 것으로 예상됩니다.
특정 음성 톤이나 감정을 가진 캐릭터 음성을 스크립트만으로 생성하거나, 이미 존재하는 음성 클립을 기반으로 새로운 스타일을 입히는 등 기존에는 불가능했던 창의적인 음성 콘텐츠 제작이 가능해집니다. 이를 통해 개인 창작자부터 대규모 프로덕션까지 음성 콘텐츠 생산의 진입 장벽이 낮아지고, 고품질 맞춤형 음성 시장이 빠르게 성장할 것입니다.
예를 들어, 광고 대행사 팀은 캠페인 타겟에 맞는 다양한 연령대와 성별의 목소리를 텍스트 설명만으로 손쉽게 디자인하여 A/B 테스트에 활용할 수 있습니다. 또한, 오픈소스 특성상 스타트업이나 인디 개발팀이 적은 비용으로 고품질 다국어 AI 보이스 앱, 교육용 음성 도구 등 2차 파생 서비스를 상용화하여 새로운 시장을 창출할 잠재력이 큽니다.
원문 보기Related reads