voice.sori.studio/samples/README.md

# Reference 음성 샘플

내 목소리로 TTS를 만들려면 **조용한 환경**에서 아래 길이별로 녹음하세요.

## 권장 녹음 방식

1. 마이크와 입 사이 거리를 일정하게 유지 (15~20cm)
2. 평서문으로 자연스럽게 읽기 (연기·과장 금지)
3. 포맷: **mono WAV, 24kHz** (또는 16kHz)
4. 파일명 예시:
   - `my_voice_30s.wav`
   - `my_voice_1m.wav`
   - `my_voice_3m.wav`

## reference 텍스트

녹음한 내용과 **동일한 대본**을 `my_voice_ref.txt`에 저장하세요.
F5-TTS는 이 텍스트가 필수이고, CosyVoice는 WAV만으로도 동작하지만 품질 비교 시 동일 샘플을 사용하세요.

### 예시 대본 (약 30초)

```
안녕하세요. 저는 한국어 음성 합성 테스트를 위한 참조 음성을 녹음하고 있습니다.
오늘은 날씨가 맑고, 목소리가 자연스럽게 들리도록 천천히 말하겠습니다.
숫자도 포함해 볼게요. 회의는 3월 15일 오후 2시에 있습니다.
```

## 전처리

```bash
./scripts/prepare_reference.sh samples/my_voice_30s.wav
```

## 기본 샘플 (모델 설치 검증용)

모델 설치 직후에는 F5-TTS 기본 예제 음성으로 먼저 테스트할 수 있습니다:

```bash
./scripts/run_ab_compare.py --ref-audio auto
```

`auto`는 F5-TTS 패키지 내장 영어 샘플을 사용합니다. 한국어 품질 비교는 **본인 녹음 샘플**로 다시 실행하세요.