万相视频模型 - SUTUI API 接口文档

🌟 万相视频生成模型

万相视频模型是 st-ai 推出的强大视频生成系列，支持图生视频和文生视频两种模式，具备高质量视频生成、流畅动作过渡和强大的提示词理解能力。提供多个版本以满足不同的性能和质量需求。

🚀 模型系列概览

🌟 核心优势

高质量输出：支持最高720p分辨率，24FPS流畅播放
双模式支持：同时支持图生视频(Image-to-Video)和文生视频(Text-to-Video)
多版本选择：提供5B和A14B两个版本，以及Turbo快速版本
丰富参数控制：支持帧数、分辨率、宽高比、引导尺度等细粒度控制
高级功能：内置安全检查、提示词扩展、帧插值等专业功能

💰 模型价格对比

💎 积分消耗说明

所有价格均为基础积分消耗，实际消耗会根据VIP等级调整：

非VIP用户：基础价格 + min(基础价格, 100) 积分
VIP1用户：基础价格 + min(基础价格 × 0.5, 50) 积分
VIP2及以上：仅收取基础价格

模型版本	功能类型	分辨率	基础积分	VIP1价格	非VIP价格
Wan 2.2 5B	图生视频/文生视频	580p	33积分	49积分	66积分
Wan 2.2 5B	图生视频/文生视频	720p	45积分	67积分	90积分
Wan 2.2 A14B	图生视频/文生视频	480p	约20积分 (0.25×帧数)×3	约30积分	约40积分
	图生视频/文生视频	580p	约30积分 (0.375×帧数)×3	约45积分	约60积分
	图生视频/文生视频	720p	约40积分 (0.5×帧数)×3	约60积分	约80积分
Wan 2.2 A14B Turbo	快速图生视频/文生视频	480p	15积分	22积分	30积分
	快速图生视频/文生视频	580p	24积分	36积分	48积分
	快速图生视频/文生视频	720p	30积分	45积分	60积分

📋 详细模型介绍

1. Wan 2.2 5B 图生视频模型

APP st-ai/wan/v2.2-5b/image-to-video

功能说明：万相2.2的5B模型，可生成最长5秒、720p分辨率、24FPS的高质量视频，具备流畅的动作过渡和强大的提示词理解能力。

📝 输入参数示例

{
  "app_name": "st-ai/wan/v2.2-5b/image-to-video",
  "input_params": {
    "image_url": "https://storage.googleapis.com/falserverless/model_tests/wan/dragon-warrior.jpg",
    "prompt": "白龙战士静静地站立着，眼中充满了决心和力量。摄像机缓缓拉近或环绕战士，突出角色的强大气场和英雄精神。",
    "num_frames": 81,
    "frames_per_second": 24,
    "resolution": "720p",
    "aspect_ratio": "auto",
    "enable_safety_checker": true
  }
}

📤 输出结果示例

{
  "video": {
    "url": "https://storage.googleapis.com/falserverless/model_tests/wan/v2.2-small-i2v-output.mp4"
  },
  "prompt": "白龙战士静静地站立着，眼中充满了决心和力量。摄像机缓缓拉近或环绕战士，突出角色的强大气场和英雄精神。"
}

2. Wan 2.2 5B 文生视频模型

APP st-ai/wan/v2.2-5b/text-to-video

功能说明：万相2.2的5B模型纯文本视频生成版本，可从文字描述生成最长5秒的720p视频，支持流畅动作和强大的提示词理解。

📝 输入参数示例

{
  "app_name": "st-ai/wan/v2.2-5b/text-to-video",
  "input_params": {
    "prompt": "一个现代简约的办公室中，身着深蓝色商务装的女性正在专注地交流。镜头捕捉她认真的表情和职业的气质。",
    "num_frames": 81,
    "frames_per_second": 24,
    "resolution": "720p",
    "aspect_ratio": "16:9",
    "enable_safety_checker": true
  }
}

3. Wan 2.2 A14B 图生视频模型（推荐）

APP st-ai/wan/v2.2-a14b/image-to-video

功能说明：万相2.2的A14B升级版本，包含电影级美学控制功能，用户将体验到更稳定流畅的动作生成，支持多种分辨率和双阶段引导控制。

🆕 A14B版本新增特性

双阶段引导：支持两个阶段的精细引导尺度控制
更多分辨率：支持480p、580p、720p三种分辨率选择
优化推理步数：默认27步推理，提升生成效率
增强帧插值：默认1帧插值，提升视频流畅度

📝 输入参数示例

{
  "app_name": "st-ai/wan/v2.2-a14b/image-to-video",
  "input_params": {
    "image_url": "https://storage.googleapis.com/falserverless/model_tests/wan/dragon-warrior.jpg",
    "prompt": "白龙战士静静地站立着，眼中充满了决心和力量。摄像机缓缓拉近或环绕战士，突出角色的强大气场和英雄精神。",
    "num_frames": 81,
    "frames_per_second": 16,
    "resolution": "720p",
    "aspect_ratio": "auto",
    "guidance_scale": 3.5,
    "guidance_scale_2": 3.5
  }
}

4. Wan 2.2 A14B 文生视频模型

APP st-ai/wan/v2.2-a14b/text-to-video

功能说明：万相2.2 A14B版本的文生视频模型，从文本提示生成高质量视频，具备高视觉质量和动作多样性。

📝 输入参数示例

{
  "app_name": "st-ai/wan/v2.2-a14b/text-to-video",
  "input_params": {
    "prompt": "一位年轻女性在雨中温柔微笑的特写，雨滴在她的脸部和睫毛上闪闪发光。视频捕捉了她表情的精致细节和水滴。",
    "num_frames": 81,
    "frames_per_second": 16,
    "resolution": "720p",
    "aspect_ratio": "16:9",
    "guidance_scale": 3.5,
    "guidance_scale_2": 4
  }
}

5. Wan 2.2 A14B Turbo 版本（快速生成）

APP st-ai/wan/v2.2-a14b/text-to-video/turbo

APP st-ai/wan/v2.2-a14b/image-to-video/turbo

功能说明：万相2.2 A14B的Turbo快速版本，在保持高质量的同时显著提升生成速度，适合快速原型制作和批量生成。

🚀 Turbo版本特色

快速生成：大幅减少生成时间，提升工作效率
简化参数：减少复杂参数配置，更易使用
稳定质量：在速度提升的同时保持高视频质量
成本优化：积分消耗相对较低，适合大量使用

📝 Turbo文生视频参数示例

{
  "app_name": "st-ai/wan/v2.2-a14b/text-to-video/turbo",
  "input_params": {
    "prompt": "现代办公室中，身着商务装的专业女性正在进行商务交流的场景。",
    "resolution": "720p",
    "aspect_ratio": "16:9",
    "enable_safety_checker": true
  }
}

📝 Turbo图生视频参数示例

{
  "app_name": "st-ai/wan/v2.2-a14b/image-to-video/turbo",
  "input_params": {
    "image_url": "https://storage.googleapis.com/falserverless/model_tests/wan/dragon-warrior.jpg",
    "prompt": "战士展现出强大的气场，摄像机缓缓拉近展现其英雄气质。",
    "resolution": "720p",
    "aspect_ratio": "auto",
    "enable_safety_checker": true
  }
}

📝 详细参数说明

参数名	类型	必填	描述	可选值/默认值
image_url	string	图生视频必填	输入图片的URL地址	有效的图片URL
prompt	string	是	用于指导视频生成的文本提示词	任意文本描述
num_frames	integer	否	生成视频的帧数	81-121，默认81
frames_per_second	integer	否	视频帧率	4-60，5B版本默认24，A14B默认16
resolution	string	否	视频分辨率	480p/580p/720p，默认720p
aspect_ratio	string	否	视频宽高比	auto/16:9/9:16/1:1
guidance_scale	float	否	第一阶段引导尺度	默认3.5
guidance_scale_2	float	否	第二阶段引导尺度（仅A14B）	默认3.5或4
enable_safety_checker	boolean	否	是否启用安全检查	默认true
enable_prompt_expansion	boolean	否	是否启用提示词扩展	默认false

🎯 模型版本选择建议

使用场景	推荐模型	优势	适用情况
高质量创作	Wan 2.2 5B	最高质量输出，24FPS流畅播放	专业视频制作、营销内容
平衡性能	Wan 2.2 A14B	电影级控制，成本较低	日常创作、内容生产
快速原型	Wan 2.2 A14B Turbo	生成速度快，成本最低	快速测试、批量生成

💡 使用技巧与最佳实践

提示词优化：使用具体、生动的描述，包含动作、情感和场景细节
图片质量：输入图片应清晰、构图良好，避免模糊或过度压缩
参数调优：根据内容类型调整引导尺度，静态场景用较低值，动态场景用较高值
分辨率选择：根据最终用途选择分辨率，社交媒体可用580p，专业用途选720p
帧插值使用：启用帧插值可提升视频流畅度，但会增加处理时间
批量处理：大量生成时推荐使用Turbo版本以节省时间和成本

⚠️ 注意事项

所有模型都支持安全检查功能，建议在生产环境中启用
帧数设置会直接影响A14B版本的积分消耗，请根据需要合理设置
使用帧插值时，最终帧率会根据插值帧数自动调整
提示词扩展功能会使用大语言模型增强描述，可能增加处理时间
不同分辨率的视频质量和处理时间差异较大，请根据实际需求选择