01 - Introduction02 - Getting Started with Midjourney03 - Midjourney Parameters04 - Midjourney and ChatGPT Styles05 - Coloring Book06 - Multi Prompts07 - Pattern and Backgrounds08 - Creating a Portfol...
15 46 0
wd-v1-4-moat-tagger-v2.onnx是基于WD 1.4标签器框架、采用MOAT骨干网络的二次元图像自动打标模型,ONNX格式适合跨框架部署推理,是目前AI绘画领域最常用的二次元图像自动打标工具之一。核心信息解析项目定位:该模型用于自动识别二次元图像内容,输出对应描述标签,可以直接作为Stable Diffusion绘图的正向提示词,大幅降低手动写prompt的成本。后缀含...
5 104 0
TripoSR-model.ckpt是TripoAI开源的TripoSR快速3D重建大模型的预训练权重文件,ckpt为传统PyTorch模型存储格式,用于从单张输入图像快速生成高质量三维网格模型。核心定位与特点TripoSR是目前速度最快的开源单图转3D模型,核心优势:生成速度极快:单张图像生成完整3D网格仅需0.5秒,远快于传统NeRF重建方案(通常需要数分钟)精度表现优秀:在复杂...
5 114 0
v3_sd15_mm.ckpt是ControlNet 1.0版本中,针对SD 1.5开发的「Soft Edge(软边缘/线条)」控制类型的预训练权重,全称是MistoLine Line Art版本**,用于AI绘画中通过手绘线稿控制图像构图。核心参数与定位含义拆解:v3:对应ControlNet 1.0的第三个稳定版本,是目前成熟的正式版本sd15:适配Stable Diffusion 1....
5 107 0
inswapper_128.onnx是开源AI换脸项目InsightFace Swap(原ROOP)的核心模型权重文件,基于ONNX格式,专门用于将一张源人脸图像无缝替换到目标视频或图像中。核心信息解析模型定位:它是InsightFace生态中专门用于单图换脸(One-Shot Face Swapping)的预训练模型。只需提供一张源人脸照片,即可将视频中所有出现的人脸替换为该源人脸,无...
5 114 0
w600k_r50.onnx是InsightFace人脸检测识别项目**中,基于WIDER Face数据集训练的ResNet50骨干网络的ONNX格式人脸特征提取权重,用于人脸特征编码(人脸识别场景。核心参数解析w600k:模型基于包含60万张人脸的大规模数据集训练,覆盖更全面,对不同人种、姿态的人脸特征泛化能力更强。r50:代表骨干网络是ResNet50,是精度和速度的经典平衡选择。...
5 114 0
iclight_sd15_fbc.safetensors是基于SD 1.5开发的ICLight relight项目的开源权重,全称是「FlashBidirectional Control」(双向闪光控制)版本,专门用于AI图像重打光任务。核心定位与能力ICLight是一款可控图像重光照AI模型,这个FBC版本是官方优化的双向控制版本,可以实现:自定义任意光照效果:通过输入文字提示或光照参考图...
5 89 0
briaai_rmbg_v1.4.pth 是BriaAI开源的RMBG 1.4版本背景移除模型的PyTorch格式预训练权重文件,专门用于高精度的一键图像抠图,是目前效果最好的开源抠图模型之一。核心特点精度超高:对头发丝、半透明物体、衣物边缘等复杂细节的分割精度远高于传统抠图算法(如U2Net、MODNet),接近商用工具的专业效果。速度快:单张1024分辨率图像,在消费级GPU上仅需1...
5 83 0
SUPIR-v0F.ckpt是SUPIR开源AI图像修复放大项目的官方预训练模型权重文件,ckpt格式是传统PyTorch模型权重存储格式,v0F是SUPIR项目针对真实场景优化的正式版本。核心定位与特点SUPIR是目前效果领先的开源AI图像修复&超分辨率放大模型,专门处理老旧照片、低分辨率图像的高清修复,v0F版本核心优势:保留原始图像细节:放大修复后不会过度平滑丢失真实纹理,对老照片的胶...
5 108 0
CatVTON是一款开源的虚拟试衣大模型,由国内AI团队研发,能基于人物图像和目标衣物图像生成自然贴合人体的试衣效果,是目前效果领先的开源试衣方案。核心特点与能力支持任意试衣场景:支持多类别衣物(上衣、下装、连衣裙、外套等),适配任意人体姿势、复杂褶皱,衣物纹理和图案保留完整,贴合度远高于传统虚拟试衣方案。推理效率高:基于流匹配架构优化,单张试衣图生成速度快,在RTX 3090显卡上仅...
5 94 0
可用于老照片修复
5 88 0
Florence-2是微软研究院推出的开源多模态统一大模型,采用文本Prompt统一所有计算机视觉任务,在零样本能力上表现突出。核心特点任务统一架构:打破传统多任务多模型的设计,用一个纯Transformer架构统一处理目标检测、实例分割、OCR、图像描述、VQA视觉问答、深度估计等数十种CV任务,所有任务都转化为文本生成问题,通过不同Prompt调用即可。极强零样本迁移能力:在126个...
5 102 0
mobilenet0.25_Final.pth是RetinaFace人脸检测项目中,以MobileNetV1为骨干网络、宽度乘子0.25的最终训练完成权重文件。核心信息说明模型架构定位:MobileNet0.25是专门为移动端/边缘设备设计的轻量人脸检测骨干网络,0.25指网络宽度乘子,按比例压缩了每一层的通道数,极大减小模型体积和计算量,适合低算力设备快速推理。文件属性:这是PyTor...
5 92 0
ltx-video-2b-v0.9.5.safetensors是轻量级开源视频生成模型LTX-Video的0.9.5版本核心权重文件,采用safetensors格式存储,是目前LTX-Video在ComfyUI中部署的官方推荐版本。核心基础信息模型规模:参数量为2B(20亿),属于轻量级视频生成模型,相比大参数模型,对消费级显卡更友好。存储格式:使用安全的safetensors格式,...
5 79 0
通义Wan2.1的720p高清图生视频(I2V)大模型**,参数量14B,采用FP8_e4m3fn精度压缩,文件格式为安全的safetensors,是Wan2.1图生视频主流使用版本。核心基础信息功能定位:由阿里通义开源的视频生成模型,核心能力是将一张静态输入图转换为自然动态视频,支持最高720p分辨率输出。精度优化:采用FP8_e4m3fn浮点精度压缩,相比bf16版本,显存占用降低约...
5 118 0
depth_anything_v2_vits.pth是Depth Anything V2单目深度估计项目中,Small版本模型的PyTorch格式预训练权重文件,属于该项目轻量化版本的权重文件。核心信息解析所属项目定位:Depth Anything V2是NeurIPS 2024的最新研究成果,是当前效果领先的开源单目深度估计模型,用于从单张RGB图像预测像素级深度信息,广泛应用于计算机视觉...
5 87 0