本文由 资源共享网 – ziyuan 发布,转载请注明出处,如有问题请联系我们!AI数字人生成模型(+语音模型)
1. AI数字人生成Sonic模型(当前热度最高)
核心能力:只需一张人脸静态照片+一段音频,就能快速生成唇形精准、表情自然的说话人脸视频,是当前效果领先的开源数字人方案。
技术特点:采用端到端生成方案,替代传统3D动捕/早期固定嘴型方案,能根据音频自动联动生成脸颊、眼周微表情,唇形同步精度极高。
优势对比:
表格
部署方式:通常集成在ComfyUI可视化界面中,拖拽节点即可使用,很多云平台提供一键部署包,无需从零搭建环境。
2. Cartesia Sonic-3语音模型
由AI公司Cartesia推出的低延迟语音生成模型,核心特点:
支持42种语言、500+音色,适配多场景语音生成需求
端到端延迟仅90毫秒,总响应时间在190毫秒以内,接近实时交互
支持语音克隆、自定义发音、情绪控制,可通过API和SSML标签精细调节音量、语速、情绪,目前已服务数千家企业。
与《AI数字人生成模型(+语音模型)》相关的《AI设计》
视频生成模型Self Forcing
Self Forcing 是 Adobe Research 与德克萨斯大学奥斯汀分校联合推出的新型自回归视频生成算法,解决传统生成模型在训练与测试时的暴露偏差问题。通过在训练阶段模拟自生成过程,以先前生成的帧为条件生成后续帧,而非依赖真实帧,弥合训练与测试分布的差异。Self Forcing 引入滚动 KV 缓存机制,支持理论上无限长的视频生成,在单个 H100 GPU 上实现 17 FPS 的实...
5 1010 0
轻量级开源视频生成模型LTX-Video
ltx-video-2b-v0.9.5.safetensors是轻量级开源视频生成模型LTX-Video的0.9.5版本核心权重文件,采用safetensors格式存储,是目前LTX-Video在ComfyUI中部署的官方推荐版本。核心基础信息模型规模:参数量为2B(20亿),属于轻量级视频生成模型,相比大参数模型,对消费级显卡更友好。存储格式:使用安全的safetensors格式,...
5 59 0
ICLight可控图像重光照AI模型
iclight_sd15_fbc.safetensors是基于SD 1.5开发的ICLight relight项目的开源权重,全称是「FlashBidirectional Control」(双向闪光控制)版本,专门用于AI图像重打光任务。核心定位与能力ICLight是一款可控图像重光照AI模型,这个FBC版本是官方优化的双向控制版本,可以实现:自定义任意光照效果:通过输入文字提示或光照参考图...
5 65 0
AI换脸模型
inswapper_128.onnx是开源AI换脸项目InsightFace Swap(原ROOP)的核心模型权重文件,基于ONNX格式,专门用于将一张源人脸图像无缝替换到目标视频或图像中。核心信息解析模型定位:它是InsightFace生态中专门用于单图换脸(One-Shot Face Swapping)的预训练模型。只需提供一张源人脸照片,即可将视频中所有出现的人脸替换为该源人脸,无...
5 78 0
视频生成模型Self Forcing
Self Forcing 是 Adobe Research 与德克萨斯大学奥斯汀分校联合推出的新型自回归视频生成算法,解决传统生成模型在训练与测试时的暴露偏差问题。通过在训练阶段模拟自生成过程,以先前生成的帧为条件生成后续帧,而非依赖真实帧,弥合训练与测试分布的差异。Self Forcing 引入滚动 KV 缓存机制,支持理论上无限长的视频生成,在单个 H100 GPU 上实现 17 FPS 的实...
5 1010 0


