# 数字人/口型同步视频工具调研（2026-06-19）

## 背景

张哥想用自己的照片生成"数字人说话"视频，用于科技/科普频道解说。他看到一个别人用Hermes Agent做的数字人视频（一个月前的视频，还不是对方最好的效果），效果很好。

## 服务器限制

- 无GPU：无法运行本地数字人软件（SadTalker、Wav2Lip、MuseTalk等都需要GPU）
- CPU推理一个30秒视频需要1-2小时，不实际
- 只能用在线API或网页服务

## 免费可用方案

### 1. 剪映数字人（推荐起步）
- 张哥电脑上已有剪映
- 免费：每天2-3次，每次最长30秒
- 效果：口型同步好，支持上传照片作为形象
- 需连接网络下载模型

### 2. Vidnoz（网页，无需安装）
- 免费：每天3次，每次30秒
- 效果：口型同步基本准确，有水印
- 网页上传照片+输入文本即可生成

### 3. Hedra（网页，高质量）
- 免费：每天约10次
- 效果：口型同步顶尖，表情自然
- 排队较长，高峰可能几小时

### 4. HeyGen
- 免费：每月1分钟
- 效果：最专业
- 免费额度太少

## 付费方案

### D-ID（最推荐）
- $5.9/月 = 约5分钟视频
- 效果最好，可API调用
- 可以集成到Hermes自动化流程：写文案→调API→生成视频→ffmpeg后期→发布
- 使用入门：注册后上传照片作为source_url，输入文本，指定语音

## 基础替代方案（无口型同步）

用ffmpeg静态照片+配音+字幕：
```bash
ffmpeg -loop 1 -i 照片.jpg -i 音频.mp3 \
  -vf "scale=1080:1920:force_original_aspect_ratio=decrease,pad=1080:1920:(ow-iw)/2:(oh-ih)/2:black,subtitles=字幕.srt" \
  -c:v libx264 -preset ultrafast -c:a aac -shortest \
  输出.mp4
```
可加Ken Burns效果（缓慢缩放）增加动感。