Pixify 功能
AI 数字人 / 语音驱动头像
一张照片 + 一段音频 = 会说话的数字人
- 一张照片 + 一段音频即可生成
- 基于 OmniHuman v1.5 / Hedra 等模型
- 口型、表情、头部动作全自动
- 支持 9:16 竖版(短视频)和 16:9 横版
这是什么
AI Avatar 把一张静态人脸照片和一段语音音频结合,生成数字人讲话视频。系统会自动让人物的嘴唇与音频对齐,并加入自然的眨眼、点头、表情变化。常用于做带货口播、教学视频、虚拟主播。一段 30 秒视频 2-5 分钟生成完毕。
如何使用
5 步即可上手
- 1
上传人脸照片
清晰正脸照效果最好,5-10MB 内 PNG/JPG/WEBP 都行。系统会自动检测脸部位置。
- 2
上传音频
准备一段你想让 ta 说的话,MP3/WAV/M4A 都支持,20MB 内。中英文都可以。也可以先用 Text to Audio 节点合成。
- 3
可选:写 Prompt 描述场景
描述镜头景别、动作、表情倾向("半身、自然微笑、偶尔点头")— 不写也能跑。
- 4
选模型 + 长宽比
OmniHuman v1.5 默认推荐,9:16 适合小红书 / TikTok,16:9 适合 B 站 / YouTube。
- 5
生成 + 下载
点击 Generate,2-5 分钟出片。可下载、保存到我的创作、或接入工作流后期。
适用场景
看看其他用户都拿来做什么
电商带货口播
一张主播照 + 一段产品介绍音频 → 直接出短视频,比真人录省 90% 时间。
教学课件
用历史人物照配讲解音频,学生看着"古人"讲历史。
虚拟主播
同一形象出多期视频,保持品牌人设统一。
多语言营销
一张照片配多语言音频,一次出全语种版本。
为什么选 Pixify
极简两步走
上传照片 + 上传音频,30 秒提交完毕。
口型对齐到帧
OmniHuman v1.5 是当前业界唇形对齐 SOTA。
可链入工作流
生成后接 Text to Audio(合成台词)或 Audio Video Merge(加 BGM)。
常见问题
对照片有什么要求?
+
清晰正脸、光照均匀效果最佳。侧脸 / 戴墨镜 / 大角度仰俯视会显著降低口型对齐准确度。建议照片分辨率不低于 1024x1024。
音频可以多长?
+
当前单次生成上限是约 60 秒。更长内容拆成多段生成后用 Video Merge 节点拼接。
能让两个人对话吗?
+
单次只能生成一个数字人。两人对话方案:分别生成 A、B 两个数字人视频,用 Video Merge 拼接 + Audio Video Merge 配音。
商用版权归谁?
+
生成视频的版权归你。但你用作输入的人脸照片必须是你有权使用的(你本人 / 已获授权 / AI 生成的虚拟形象)。禁止上传名人 / 未经同意的真实人物照片。
准备好开始了吗?
注册赠送积分,无需绑卡,立即上手。
生成第一个数字人