Pixify 功能

AI 数字人 / 语音驱动头像

一张照片 + 一段音频 = 会说话的数字人

一张照片 + 一段音频即可生成
基于 OmniHuman v1.5 / Hedra 等模型
口型、表情、头部动作全自动
支持 9:16 竖版（短视频）和 16:9 横版

生成第一个数字人查看所有功能

这是什么

AI Avatar 把一张静态人脸照片和一段语音音频结合，生成数字人讲话视频。系统会自动让人物的嘴唇与音频对齐，并加入自然的眨眼、点头、表情变化。常用于做带货口播、教学视频、虚拟主播。一段 30 秒视频 2-5 分钟生成完毕。

如何使用

5 步即可上手

1
上传人脸照片
清晰正脸照效果最好，5-10MB 内 PNG/JPG/WEBP 都行。系统会自动检测脸部位置。
2
上传音频
准备一段你想让 ta 说的话，MP3/WAV/M4A 都支持，20MB 内。中英文都可以。也可以先用 Text to Audio 节点合成。
3
可选：写 Prompt 描述场景
描述镜头景别、动作、表情倾向（"半身、自然微笑、偶尔点头"）— 不写也能跑。
4
选模型 + 长宽比
OmniHuman v1.5 默认推荐，9:16 适合小红书 / TikTok，16:9 适合 B 站 / YouTube。
5
生成 + 下载
点击 Generate，2-5 分钟出片。可下载、保存到我的创作、或接入工作流后期。

适用场景

看看其他用户都拿来做什么

电商带货口播

一张主播照 + 一段产品介绍音频 → 直接出短视频，比真人录省 90% 时间。

教学课件

用历史人物照配讲解音频，学生看着"古人"讲历史。

虚拟主播

同一形象出多期视频，保持品牌人设统一。

多语言营销

一张照片配多语言音频，一次出全语种版本。

为什么选 Pixify

极简两步走

上传照片 + 上传音频，30 秒提交完毕。

口型对齐到帧

OmniHuman v1.5 是当前业界唇形对齐 SOTA。

可链入工作流

生成后接 Text to Audio（合成台词）或 Audio Video Merge（加 BGM）。

常见问题

对照片有什么要求？

清晰正脸、光照均匀效果最佳。侧脸 / 戴墨镜 / 大角度仰俯视会显著降低口型对齐准确度。建议照片分辨率不低于 1024x1024。

音频可以多长？

当前单次生成上限是约 60 秒。更长内容拆成多段生成后用 Video Merge 节点拼接。

能让两个人对话吗？

单次只能生成一个数字人。两人对话方案：分别生成 A、B 两个数字人视频，用 Video Merge 拼接 + Audio Video Merge 配音。

商用版权归谁？

生成视频的版权归你。但你用作输入的人脸照片必须是你有权使用的（你本人 / 已获授权 / AI 生成的虚拟形象）。禁止上传名人 / 未经同意的真实人物照片。

准备好开始了吗？

注册赠送积分，无需绑卡，立即上手。

生成第一个数字人