AI 数字人

文案来自选中的 TTS 音频,生成视频时会直接使用该音频。

视频积分按音频整数秒计费:720p 每秒 3,000 credits,1080p 每秒 5,000 credits。音频时长必须大于 1 秒。

什么是 AI 数字人?

AI 数字人可以把一张头像图片和一段音频合成为会说话的数字人视频。上传人物图片,选择音频后,Voicv 会根据声音驱动人物口型和表情。

音频既可以来自你已经生成完成的 TTS 结果,也可以直接上传本地音频文件。选择 TTS 时会展示对应文案;上传音频时视频直接按音频生成,不需要填写文案。

数字人视频按真实音频时长和分辨率扣除视频积分。720p 适合快速预览和轻量发布,1080p 适合更清晰的正式成片。

4 步生成数字人视频

准备一张头像图片和一段音频,就可以在 Voicv 中生成可播放、可下载的数字人视频。

1

第一步:选择头像图片

上传自己的头像图片,或使用页面下方的模板图片。建议使用光线清晰、面部无遮挡、正面或接近正面的图片。

2

第二步:选择或上传音频

可以选择已完成的 TTS 音频并试听,也可以上传自己的 MP3、WAV、AAC、OGG 或 WebM 音频文件。

3

第三步:设置视频选项

选择 720p 或 1080p,并可在高级选项中调整 Video prompt,用来控制镜头、姿态和动作风格。

4

第四步:生成并下载

提交任务后,在右侧最近任务中查看进度。完成后可以在线播放、下载或删除结果。

为什么用 Voicv 生成数字人视频?

Voicv 把头像、音频、积分和任务历史放在同一个工作流里,让数字人视频生成更直接。

图片加音频即可生成

不需要拍摄真人视频,只需要一张人物图和一段声音,就能快速制作讲解、课程、口播和社媒内容。

支持 TTS 和上传音频

可以复用 Voicv 已完成的 TTS,也可以上传自己的录音。两种来源都使用同一套视频生成流程。

积分规则清晰

视频积分按音频整数秒计费:720p 每秒 3,000 credits,1080p 每秒 5,000 credits。不足 1 秒按 1 秒计费。

任务历史和下载

最近任务会保留在页面中,方便你查看状态、播放成片、下载视频或清理旧结果。

关于 AI 数字人的常见问题

了解头像图片、音频来源、积分扣除、分辨率和生成结果的常见规则。

应该上传什么样的头像图片?

建议使用清晰的人像图片,面部可见、无遮挡、光线自然。正面或接近正面的图片通常更容易生成稳定的数字人视频。

可以同时支持 TTS 音频和自己上传的音频吗?

可以。你可以选择 Voicv 中已完成的 TTS 音频,也可以直接上传本地音频文件。上传音频模式不需要填写文案。

为什么选择 TTS 后文案不能修改?

文案来自选中的 TTS 结果,保持只读可以避免页面文案和实际用于生成视频的音频不一致。

视频积分怎么计算?

系统会按选中或上传音频的整数秒计费。720p 每秒 3,000 credits,1080p 每秒 5,000 credits,不足 1 秒按 1 秒计费。

720p 和 1080p 应该怎么选?

720p 更适合快速预览和轻量分享;1080p 更适合正式发布、客户交付或需要更高清晰度的场景。

生成数字人视频需要多久?

耗时取决于音频长度、分辨率和队列情况。短音频通常会在任务列表中从生成中直接进入已完成状态。

如果生成失败会怎样?

如果视频生成失败且已经扣除了视频积分,系统会按任务状态退还视频积分。原本的 TTS 结果不会被修改。

生成的视频可以商用吗?

是否可商用取决于你的套餐、头像图片权利和音频权利。请确保你拥有上传人像和录音的使用授权。

开始生成你的数字人视频

上传头像图片,选择 TTS 音频或上传自己的音频,用 Voicv 快速创建 AI 数字人。

立即生成数字人视频