Files
voice.sori.studio/samples/README.md
zenn 7101fdcd65 Initial commit: Korean voice-cloning TTS prototype
FastAPI backend, web UI, CosyVoice3/F5-TTS setup scripts, and handoff docs for GPU PC continuation.

Co-authored-by: Cursor <cursoragent@cursor.com>
2026-06-04 13:36:37 +09:00

43 lines
1.4 KiB
Markdown

# Reference 음성 샘플
내 목소리로 TTS를 만들려면 **조용한 환경**에서 아래 길이별로 녹음하세요.
## 권장 녹음 방식
1. 마이크와 입 사이 거리를 일정하게 유지 (15~20cm)
2. 평서문으로 자연스럽게 읽기 (연기·과장 금지)
3. 포맷: **mono WAV, 24kHz** (또는 16kHz)
4. 파일명 예시:
- `my_voice_30s.wav`
- `my_voice_1m.wav`
- `my_voice_3m.wav`
## reference 텍스트
녹음한 내용과 **동일한 대본**을 `my_voice_ref.txt`에 저장하세요.
F5-TTS는 이 텍스트가 필수이고, CosyVoice는 WAV만으로도 동작하지만 품질 비교 시 동일 샘플을 사용하세요.
### 예시 대본 (약 30초)
```
안녕하세요. 저는 한국어 음성 합성 테스트를 위한 참조 음성을 녹음하고 있습니다.
오늘은 날씨가 맑고, 목소리가 자연스럽게 들리도록 천천히 말하겠습니다.
숫자도 포함해 볼게요. 회의는 3월 15일 오후 2시에 있습니다.
```
## 전처리
```bash
./scripts/prepare_reference.sh samples/my_voice_30s.wav
```
## 기본 샘플 (모델 설치 검증용)
모델 설치 직후에는 F5-TTS 기본 예제 음성으로 먼저 테스트할 수 있습니다:
```bash
./scripts/run_ab_compare.py --ref-audio auto
```
`auto`는 F5-TTS 패키지 내장 영어 샘플을 사용합니다. 한국어 품질 비교는 **본인 녹음 샘플**로 다시 실행하세요.