AI 数字人

什么是 AI 数字人？

AI 数字人可以把一张头像图片和一段音频合成为会说话的数字人视频。上传人物图片，选择音频后，Voicv 会根据声音驱动人物口型和表情。

音频既可以来自你已经生成完成的 TTS 结果，也可以直接上传本地音频文件。选择 TTS 时会展示对应文案；上传音频时视频直接按音频生成，不需要填写文案。

数字人视频按真实音频时长和分辨率扣除视频积分。720p 适合快速预览和轻量发布，1080p 适合更清晰的正式成片。

准备一张头像图片和一段音频，就可以在 Voicv 中生成可播放、可下载的数字人视频。

上传自己的头像图片，或使用页面下方的模板图片。建议使用光线清晰、面部无遮挡、正面或接近正面的图片。

可以选择已完成的 TTS 音频并试听，也可以上传自己的 MP3、WAV、AAC、OGG 或 WebM 音频文件。

选择 720p 或 1080p，并可在高级选项中调整 Video prompt，用来控制镜头、姿态和动作风格。

提交任务后，在右侧最近任务中查看进度。完成后可以在线播放、下载或删除结果。

Voicv 把头像、音频、积分和任务历史放在同一个工作流里，让数字人视频生成更直接。

不需要拍摄真人视频，只需要一张人物图和一段声音，就能快速制作讲解、课程、口播和社媒内容。

可以复用 Voicv 已完成的 TTS，也可以上传自己的录音。两种来源都使用同一套视频生成流程。

视频积分按音频整数秒计费：720p 每秒 3,000 credits，1080p 每秒 5,000 credits。不足 1 秒按 1 秒计费。

最近任务会保留在页面中，方便你查看状态、播放成片、下载视频或清理旧结果。

了解头像图片、音频来源、积分扣除、分辨率和生成结果的常见规则。

应该上传什么样的头像图片？

建议使用清晰的人像图片，面部可见、无遮挡、光线自然。正面或接近正面的图片通常更容易生成稳定的数字人视频。

可以同时支持 TTS 音频和自己上传的音频吗？

可以。你可以选择 Voicv 中已完成的 TTS 音频，也可以直接上传本地音频文件。上传音频模式不需要填写文案。

为什么选择 TTS 后文案不能修改？

文案来自选中的 TTS 结果，保持只读可以避免页面文案和实际用于生成视频的音频不一致。

视频积分怎么计算？

系统会按选中或上传音频的整数秒计费。720p 每秒 3,000 credits，1080p 每秒 5,000 credits，不足 1 秒按 1 秒计费。

720p 和 1080p 应该怎么选？

720p 更适合快速预览和轻量分享；1080p 更适合正式发布、客户交付或需要更高清晰度的场景。

生成数字人视频需要多久？

耗时取决于音频长度、分辨率和队列情况。短音频通常会在任务列表中从生成中直接进入已完成状态。

如果生成失败会怎样？

如果视频生成失败且已经扣除了视频积分，系统会按任务状态退还视频积分。原本的 TTS 结果不会被修改。

生成的视频可以商用吗？

是否可商用取决于你的套餐、头像图片权利和音频权利。请确保你拥有上传人像和录音的使用授权。

上传头像图片，选择 TTS 音频或上传自己的音频，用 Voicv 快速创建 AI 数字人。