数字人模型 - SUTUI API 接口文档

🎭 数字人模型

数字人模型专门用于生成与人物相关的AI视频内容，包括音频驱动的人物视频生成等多种功能。

🎭 OmniHuman 音频驱动人物视频生成

OmniHuman 是 ByteDance 推出的音频驱动人物视频生成模型，能够使用与音频文件配对的人物图像生成视频。它制作出生动、高质量的视频，其中角色的情绪和动作与音频保持着很强的相关性。

💰 OmniHuman 价格表

💳 积分扣除规则

按照音频长度计算：42积分/秒

SVIP 会员：基础价格 42积分/秒
VIP 会员：基础价格 + 50%，但增加的金额不超过50积分
普通会员：基础价格翻倍，但增加的金额不超过100积分

会员等级	音频时长	计算公式	价格示例
SVIP	任意时长（≤30秒）	42积分 × 秒数	5秒=210积分，10秒=420积分，30秒=1260积分
VIP	任意时长（≤30秒）	42积分 × 秒数 + min(42积分×秒数×0.5, 50积分)	5秒=273积分，10秒=470积分，30秒=1310积分
普通会员	任意时长（≤30秒）	42积分 × 秒数 + min(42积分×秒数, 100积分)	5秒=310积分，10秒=520积分，30秒=1360积分

📋 OmniHuman 模型案例

OmniHuman 音频驱动人物视频生成

APP st-ai/bytedance/omnihuman

{
  "app_name": "st-ai/bytedance/omnihuman",
  "input_params": {
    "image_url": "https://s.coze.cn/t/Yfus-lf4L60/",
    "audio_url": "https://ve-template-0920.oss-cn-shanghai.aliyuncs.com/uploads/1754297672316_omx2b63rlh.mp3"
  }
}

📝 OmniHuman 参数说明

参数名	类型	必填	描述	限制
image_url	string	是	用于生成视频的人物图像URL	有效的图片URL，推荐人物正面照片
audio_url	string	是	用于生成视频的音频文件URL	音频时长必须不超过30秒

📤 OmniHuman 输出格式

{
  "video": {
    "url": "https://storage.googleapis.com/falserverless/example_outputs/omnihuman_output.mp4"
  }
}

🎬 输出效果展示

以下是 OmniHuman 模型生成的视频效果示例：结合人物图像和音频生成的逼真数字人视频。

示例视频：展示 OmniHuman 音频驱动人物视频生成效果

🎯 OmniHuman 应用场景

1. 虚拟主播内容

将静态人物图片与语音结合，生成虚拟主播视频内容。

2. 教育培训

为在线课程制作生动的讲师视频，提升教学体验。

3. 营销推广

快速制作产品介绍视频，让品牌形象更加生动。

4. 个人创作

将个人照片与音频结合，制作个性化视频内容。

⚠️ OmniHuman 使用注意事项

音频时长限制：音频文件时长不能超过30秒
图片质量：推荐使用清晰的人物正面照片，避免侧脸或模糊图片
音频质量：使用清晰的音频文件可以获得更好的唇形同步效果
内容合规：确保使用的图片和音频符合相关法律法规
成本控制：音频越长成本越高，建议根据需要合理控制音频时长