# 声音克隆与混合方案（2026-06-14）

## 需求
张哥要克隆雨燕直播主播的声音（男声，好听），并与李永乐老师的声音混合，用于视频配音。

## 当前限制
1. **本服务器无GPU** — 无法运行深度学习声音克隆模型（如Coqui TTS、So-VITS、RVC等）
2. **QQ语音消息不可存** — 临时URL下载400，网关只转录文字
3. **无免费在线API确认可用** — 大部分声音克隆API要付费或要注册绑卡

## 可行路径（按可行性排序）

### 方案A：用户Windows PC本地运行RVC（最推荐）
- RVC (Retrieval-based Voice Conversion) 开源
- 4GB VRAM可用，RVC的WebUI可以跑
- 流程：录主播声音→训练小模型→实时转换→输出音频
- 张哥PC有4GB显卡

### 方案B：频谱特征手动混合（服务器可做，质量较低）
- 用Python (librosa) 提取两人声音的频谱特征
- 分析：基频、共振峰、语速、音色特征
- 混合：加权平均声学特征 → 用World声码器合成
- 质量：不如深度学习自然，但能用

### 方案C：edge-tts近似模仿
- 用现有TTS声音（YunxiNeural男声）加效果器调EQ/混响
- 做不到真正克隆，但能调出接近的效果

## 需要用户提供的素材
1. 主播声音：2-3分钟清晰录音（无背景噪音，对话或解说均可）
2. 李永乐老师声音：从B站/YouTube找公开课音频
3. 文件格式：MP3/WAV，不要用QQ语音

## 工具依赖
```bash
pip install librosa soundfile numpy scipy  # 服务器可装
# 或 RVC WebUI (Windows PC, 4GB VRAM)
```

## 频谱分析内容（参考）
- 基频(F0)：决定音高/性别感知
- 共振峰(F1-F3)：决定音色/声道特征
- MFCC：决定说话人身份特征
- 混合策略：取中值 + 非线性映射