FastAPI backend, web UI, CosyVoice3/F5-TTS setup scripts, and handoff docs for GPU PC continuation. Co-authored-by: Cursor <cursoragent@cursor.com>
Reference 음성 샘플
내 목소리로 TTS를 만들려면 조용한 환경에서 아래 길이별로 녹음하세요.
권장 녹음 방식
- 마이크와 입 사이 거리를 일정하게 유지 (15~20cm)
- 평서문으로 자연스럽게 읽기 (연기·과장 금지)
- 포맷: mono WAV, 24kHz (또는 16kHz)
- 파일명 예시:
my_voice_30s.wavmy_voice_1m.wavmy_voice_3m.wav
reference 텍스트
녹음한 내용과 동일한 대본을 my_voice_ref.txt에 저장하세요.
F5-TTS는 이 텍스트가 필수이고, CosyVoice는 WAV만으로도 동작하지만 품질 비교 시 동일 샘플을 사용하세요.
예시 대본 (약 30초)
안녕하세요. 저는 한국어 음성 합성 테스트를 위한 참조 음성을 녹음하고 있습니다.
오늘은 날씨가 맑고, 목소리가 자연스럽게 들리도록 천천히 말하겠습니다.
숫자도 포함해 볼게요. 회의는 3월 15일 오후 2시에 있습니다.
전처리
./scripts/prepare_reference.sh samples/my_voice_30s.wav
기본 샘플 (모델 설치 검증용)
모델 설치 직후에는 F5-TTS 기본 예제 음성으로 먼저 테스트할 수 있습니다:
./scripts/run_ab_compare.py --ref-audio auto
auto는 F5-TTS 패키지 내장 영어 샘플을 사용합니다. 한국어 품질 비교는 본인 녹음 샘플로 다시 실행하세요.