[오픈소스] VibeVoice: 마이크로소프트의 혁신적인 음성 AI 모델 가족을 소개할게요!

[오늘의 딥다이브 요약] 안녕하세요! 오늘은 마이크로소프트가 선보인 아주 흥미로운 오픈소스 프로젝트, VibeVoice에 대해 알아볼 거예요. VibeVoice는 음성-텍스트 변환(ASR)과 텍스트-음성 변환(TTS)을 아우르는 차세대 음성 AI 모델들의 집합체라고 할 수 있어요. 특히 초저프레임(7.5Hz) 연속 음성 토크나이저와 LLM 기반의 넥스트 토큰 확산(Next-token Diffusion) 프레임워크를 사용해서 긴 오디오도 효율적이면서도 고품질로 처리하는 게 핵심 기술이랍니다. 최근에는 ASR 모델이 Hugging Face Transformers에 통합되어 더욱 쉽게 접근할 수 있게 되었어요. [왜 주목해야 할까요?] VibeVoice는 여러모로 정말 눈여겨볼 만한데요. 첫째, 7.5Hz라는 혁신적인 토크나이저 덕분에 긴 오디오를 처리할 때 엄청난 효율성을 자랑하면서도 음질은 그대로 유지한다고 해요. 둘째, ASR 모델이 60분 길이의 오디오도 한 번에 처리해서 '누가, 언제, 무엇을 말했는지' 구조화된 정보로 뽑아내고, 50개 이상의 언어를 지원하는 다국어 능력까지 갖췄어요. 셋째, 실시간 TTS 모델인 VibeVoice-Realtime-0.5B는 스트리밍 입력도 처리할 수 있어서 라이브 서비스나 대화형 AI에 아주 유용할 것 같아요. 마지막으로, 마이크로소프트가 책임감 있는 AI 사용을 강조하며 일부 TTS 코드 접근을 제한하기도 했지만, 여전히 다양한 리소스를 오픈소스로 공개하며 연구와 개발 커뮤니티에 기여하고 있다는 점도 긍정적입니다. [우리도 써볼 수 있을까?] 네, 물론이죠! VibeVoice는 개발자들이 쉽게 접근하고 활용할 수 있도록 다양한 방법을 제공하고 있어요. VibeVoice-ASR 모델은 이제 Hugging Face Transformers 라이브러리를 통해 바로 사용할 수 있고요, ASR 플레이그라운드에서 직접 체험해볼 수도 있습니다. 실시간 TTS 모델인 VibeVoice-Realtime-0.5B는 구글 Colab에서 바로 실행해 볼 수 있는 데모를 제공하고 있어요. 심지어 ASR 모델의 파인튜닝 코드까지 공개되어 있어서 여러분의 프로젝트에 맞춰 모델을 최적화하는 것도 가능합니다. 다만, 초기 공개되었던 VibeVoice-TTS-1.5B 모델은 현재 비활성화되어 있다는 점은 참고해주세요. vLLM 추론도 지원해서 빠른 성능을 기대할 수 있을 거예요!

원문 보기

같이 보면 좋은 글

OpenSource

[오픈소스] freeCodeCamp: 코딩, 이제 무료로 전문가처럼 배우세요!

OpenSource

[오픈소스] hermes-agent: 어디서든 나를 돕는 자율학습 AI 에이전트!

OpenSource

[오픈소스] luongnv89: 어라? 아직은 베일에 싸인 후원자 페이지!