ChatTTS - 텍스트 음성 변환

ChatTTS

채팅TTS 알아보기

ChatTTS 는 LLM 어시스턴트와 같은 대화 시나리오를 위해 특별히 설계된 텍스트 음성 변환 모델입니다. 영어와 중국어를 모두 지원합니다. 중국어와 영어로 구성된 100,000시간 이상의 학습을 거친 모델입니다. 

ChatTTS 기능

  • 대화형 TTS: ChatTTS는 대화 기반 작업에 최적화되어 자연스럽고 표현력 있는 음성 합성이 가능합니다. 여러 명의 화자를 지원하므로 대화형 대화가 용이합니다.
  • 세밀한 제어: 이 모델은 웃음, 멈춤, 감탄사 등 세분화된 운율적 특징을 예측하고 제어할 수 있었습니다.
  • 더 나은 프러포즈: ChatTTS는 운율 측면에서 대부분의 오픈 소스 TTS 모델을 능가합니다. 추가 연구 및 개발을 지원하기 위해 사전 학습된 모델을 제공합니다.

자주 묻는 질문

얼마나 많은 VRAM이 필요한가요? 속도를 유추하는 것은 어떨까요?

30초 오디오 클립의 경우 최소 4GB의 GPU 메모리가 필요합니다. 4090D GPU의 경우 초당 약 7개의 시맨틱 토큰에 해당하는 오디오를 생성할 수 있습니다. 실시간 계수(RTF)는 약 0.65입니다.

멀티 스피커 또는 오디오 품질 저하와 같은 문제로 모델 안정성이 충분하지 않습니다.

이는 일반적으로 자동 회귀 모델(바크 및 밸리용)에서 발생하는 문제입니다. 일반적으로 피하기 어렵습니다. 적절한 결과를 찾기 위해 여러 샘플을 시도해 볼 수 있습니다.

웃음 외에 다른 감정을 통제할 수 있을까요? 다른 감정도 통제할 수 있을까요?

현재 출시된 모델에서 토큰 수준의 제어 단위는 [웃음], [uv_break], [lbreak] 뿐입니다. 향후 버전에서는 추가적인 감정 제어 기능을 갖춘 모델을 오픈소스화할 수 있습니다.

공유

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다