VoxCPM2: 토크나이저 없는 다국어 음성 합성의 혁신
VoxCPM2는 토크나이저 없이 작동하는 다국어 TTS 시스템으로, 30개 언어를 지원하며 48kHz 스튜디오 품질의 음성을 생성합니다. 이 모델은 200만 시간 이상의 방대한 다국어 음성 데이터로 훈련된 20억 개 매개변수 규모의 최신 버전입니다.
기존 TTS의 이산 토큰화 단계를 건너뛰어 더욱 자연스럽고 표현력이 풍부한 음성 합성이 가능해졌습니다. 이는 음성 생성의 품질과 유연성을 획기적으로 향상시키는 기술적 진보를 의미합니다.
음성 디자인 기능으로 텍스트 설명만으로 새로운 목소리를 만들거나, 짧은 음성 클립으로 원본의 뉘앙스를 유지하며 감정까지 조절하는 음성 복제가 가능해질 것입니다. 사용자들은 더욱 정교하고 맞춤화된 음성 콘텐츠를 제작할 수 있게 됩니다.
다국어 지원과 고품질 오디오 출력 덕분에 글로벌 콘텐츠 제작 및 접근성이 크게 향상될 것입니다. 또한 실시간 스트리밍 기능은 라이브 방송이나 대화형 AI 분야에 새로운 가능성을 열어줍니다.
오디오북 제작, 게임 캐릭터 보이스, 다국어 고객 서비스, 맞춤형 AI 비서 등 다양한 분야에서 활용될 수 있습니다. 특히 오픈소스 라이선스로 인해 상업적 용도로도 자유롭게 사용 가능하여 개발자들에게 큰 기회가 될 것입니다.
원문 보기Related reads