视频生成模型Self Forcing

￥5 积分 [如何获取积分?]

报告管理员

资源分类：AI模型

最后更新：2026-02-02

下载积分：5【升级会员送积分】

积分说明：【上传资源赚积分】

说明：蓝奏网盘链接不能访问点击进入

资源语言： 中文

网盘验证时间： 2026-02-02 10:51:09

Self Forcing 是 Adobe Research 与德克萨斯大学奥斯汀分校联合推出的新型自回归视频生成算法，解决传统生成模型在训练与测试时的暴露偏差问题。通过在训练阶段模拟自生成过程，以先前生成的帧为条件生成后续帧，而非依赖真实帧，弥合训练与测试分布的差异。Self Forcing 引入滚动 KV 缓存机制，支持理论上无限长的视频生成，在单个 H100 GPU 上实现 17 FPS 的实时生成能力，延迟低于一秒。突破为直播、游戏和实时交互应用提供了新的可能性，例如实时生成虚拟背景或特效。Self Forcing 的高效性和低延迟成为未来多模态内容创作的重要工具。

主要功能

高效实时视频生成：Self Forcing 能在单个 GPU 上实现高效的实时视频生成，帧率达到 17 FPS，延迟低于一秒。

无限长视频生成：通过滚动 KV 缓存机制，Self Forcing 支持理论上无限长的视频生成。可以持续生成视频内容，不会因长度限制而中断，为动态视频创作提供了强大的支持。

弥合训练与测试差距：Self Forcing 在训练阶段模拟自生成过程，以生成的帧为条件生成后续帧，而非依赖真实帧。有效解决了自回归生成中的暴露偏差问题，弥合了训练与测试阶段的分布差异，提高了生成视频的质量和稳定性。

低资源需求：Self Forcing 优化了计算资源的使用，能在单张 RTX 4090 显卡上实现流式视频生成，降低了对硬件资源的依赖，更易于在普通设备上部署和使用。

支持多模态内容创作：Self Forcing 的高效性和实时性使其能够为多模态内容创作提供支持，例如在游戏直播中实时生成背景或特效，或者在虚拟现实体验中动态生成视觉内容，为创作者提供了更广阔的应用空间。

原理

自回归展开与整体损失监督：Self Forcing 在训练阶段模拟了推理时的自回归生成过程，即每一帧的生成都基于模型自身之前生成的帧，而非真实帧。通过视频级别的整体分布匹配损失函数对整个生成序列进行监督，不仅是逐帧评估。模型能直接从自身预测的错误中学习，有效减轻暴露偏差。

滚动 KV 缓存机制：为了支持长视频生成，Self Forcing 引入了滚动键值（KV）缓存机制。该机制维护一个固定大小的缓存区，存储最近几帧的 KV 嵌入。当生成新帧时，缓存区会移除最旧的条目并添加新的嵌入。

少步扩散模型与梯度截断策略：为了提高训练效率，Self Forcing 采用了少步扩散模型，结合随机梯度截断策略。具体来说，模型在训练时随机选择去噪步骤的数量，并仅对最终去噪步骤执行反向传播。

动态条件生成机制：在生成每一帧时，Self Forcing 动态结合两类条件输入：过去时间步已生成的清晰帧和当前时间步的噪声帧。通过迭代去噪完成生成，确保了生成过程的连贯性和自然性。

场景

直播与实时视频流：Self Forcing 能在单个 GPU 上实现 17 FPS 的实时视频生成，延迟低于一秒。适合用于直播场景，例如在直播中实时生成虚拟背景、特效或动态场景，为观众带来全新的视觉体验。

游戏开发：在游戏开发中，Self Forcing 可以实时生成游戏场景和特效，无需预先制作大量的视频资源。根据玩家的实时操作生成动态的环境变化或特效，增强游戏的沉浸感和交互性。

虚拟现实与增强现实：Self Forcing 的低延迟和高效生成能力能为虚拟现实（VR）和增强现实（AR）应用提供实时的视觉内容。在 VR 体验中实时生成逼真的虚拟场景，或在 AR 应用中实时叠加虚拟元素。

内容创作与视频编辑：Self Forcing 可以用于短视频创作工具，帮助创作者快速生成高质量的视频内容。

世界模拟与训练：Self Forcing 可以用于世界模拟和训练场景，例如生成逼真的自然环境或城市景观，用于军事训练、城市规划或环境模拟。

用法：

一、安装环境

conda create -n self_forcing python=3.10 -y

conda activate self_forcing

pip install -r requirements.txt

pip install flash-attn --no-build-isolation

python setup.py develop

二、下载模型

huggingface-cli download Wan-AI/Wan2.1-T2V-1.3B --local-dir-use-symlinks False --local-dir wan_models/Wan2.1-T2V-1.3B

huggingface-cli download gdhe17/Self-Forcing checkpoints/self_forcing_dmd.pt --local-dir .

三、运行

python demo.py

AI模型资源(视频生成模型Self Forcing)网址：https://www.08i8.com/ttsjzy/detail12661.html；转载请注明！

提示：
1、资源共享网(www.08i8.com)AI模型资源《视频生成模型Self Forcing》仅供研究学习请勿商用!
2、如果发现本资源违法或侵权请【报告管理员】。
3、您所看到的所有资源都是网友分享，资源共享网(www.08i8.com)无法保证都能正常下载使用，
4、如果您发现资源无法下载或无法使用请【报告管理员】，管理员会联系资源发布者补充新资源！
5、如果暂时无法补充新资源，【只退积分！不退款！】
6、关注微信公众号：《国资互联联盟》不迷路！

标签

与《视频生成模型Self Forcing》相关的《AI设计》

视频AI设计更多视频AI设计>>>

轻量级开源视频生成模型LTX-Video

ltx-video-2b-v0.9.5.safetensors是轻量级开源视频生成模型LTX-Video的0.9.5版本核心权重文件，采用safetensors格式存储，是目前LTX-Video在ComfyUI中部署的官方推荐版本‌。核心基础信息‌模型规模‌：参数量为‌2B（20亿）‌，属于轻量级视频生成模型，相比大参数模型，对消费级显卡更友好。‌存储格式‌：使用安全的safetensors格式，...

5 169 0

通义Wan2.1的‌720p高清图生视频大模型

通义Wan2.1的‌720p高清图生视频（I2V）大模型**，参数量14B，采用FP8_e4m3fn精度压缩，文件格式为安全的safetensors，是Wan2.1图生视频主流使用版本。核心基础信息‌功能定位‌：由阿里通义开源的视频生成模型，核心能力是将一张静态输入图转换为自然动态视频，支持最高720p分辨率输出。‌精度优化‌：采用FP8_e4m3fn浮点精度压缩，相比bf16版本，显存占用降低约...

5 191 0

生成AI设计更多生成AI设计>>>

轻量级开源视频生成模型LTX-Video

5 169 0

AI数字人生成模型（+语音模型）

1. AI数字人生成Sonic模型（当前热度最高）‌核心能力‌：只需一张人脸静态照片+一段音频，就能快速生成唇形精准、表情自然的说话人脸视频，是当前效果领先的开源数字人方案。‌技术特点‌：采用端到端生成方案，替代传统3D动捕/早期固定嘴型方案，能根据音频自动联动生成脸颊、眼周微表情，唇形同步精度极高。‌优势对比‌：表格对比项传统3D方案早期开源方案（如Wav2Lip）Sonic模型准备成本极高（需...

5 201 0

模型AI设计更多模型AI设计>>>

视频生成模型Self Forcing

与《视频生成模型Self Forcing》相关的《AI设计》

轻量级开源视频生成模型LTX-Video

通义Wan2.1的‌720p高清图生视频大模型

轻量级开源视频生成模型LTX-Video

AI数字人生成模型（+语音模型）

基于SD 1.5训练的‌ ‌国风主题AI绘画大模型

虚拟试衣大模型CatVTON

TopazVideoAI模型

最新公告更多>>

推荐设计资源

更多最新下载设计资源

更多本周热点设计资源

更多推荐AI模型资源

标签云

聚合所有的资源网，实现全网资源共享，建一个完全免费的资源网站

本文由 资源共享网 – ziyuan 发布，转载请注明出处，如有问题请联系我们！视频生成模型Self Forcing

与《视频生成模型Self Forcing》相关的《AI设计》

轻量级开源视频生成模型LTX-Video

通义Wan2.1的‌720p高清图生视频大模型

轻量级开源视频生成模型LTX-Video

AI数字人生成模型（+语音模型）

基于SD 1.5训练的‌ ‌国风主题AI绘画大模型

虚拟试衣大模型CatVTON

TopazVideoAI模型

最新公告更多>>

推荐设计资源

更多 最新下载设计资源

更多 本周热点设计资源

更多 推荐AI模型资源

标签云

聚合所有的资源网，实现全网资源共享，建一个完全免费的资源网站

视频生成模型Self Forcing

更多最新下载设计资源

更多本周热点设计资源

更多推荐AI模型资源