🎠背景介绍

IP-Adapter的一系列模型在stable diffusion的实际应用中,越来越被频繁的使用到,用于“换脸”或者“保证角色的一致性”,但是很多朋友在安装或者使用别人的工作流的时候,经常会遇到各种各样的问题,同时因为资源在各种群里转来转去的,发现有很多个版本,所以有些时候比较迷茫,这篇文章简单的介绍下这些模型每个版本到底有什么区别,自己的使用场景应该用哪个,让大家不至于过于迷茫和纠结,并提供下载地址,因为模型实在比较多,所以大家按需下载就好。

🎀网盘下载地址:IP-Adapter 十几个模型的下载地址集合

⛳IP-Adapter系列是干啥的

从git的介绍页面可以看到,这个库是腾讯的AI-Lab实验室建立的,2023/8/16就建立了,之后持续更新,陆续的更新了大大小小一大堆的版本,这是一种有效且轻量级的适配器,可为预训练的文本到图像扩散模型实现“图像提示”功能。

IP-Adapter Git地址

以下是官方的架构图:

可以简单的看出,ip-dapter可以让图片和提示词共同影响U-Net中的每一个层级,所以可以让输入图像的各种图像特征带入到生成结果中,从而实现“IP”的“适配”,emm..非专业人士大概这么理解差不多就够了。

✨到底多少个版本

这个模型的版本的确是比较多,从官方git提供的huggingface下载地址来看:

有两组,分别是IP-Adapter-FaceID系列和IP-Adapter系列,而每一个系列,里边又对应着一堆模型,所以的确是有十几个模型的,大家觉得乱也是满合理的一件事情...十几个模型的controlnet,可能作者都得迷糊...

从当前(2024.3.17)来看:

IP-Adapter 1.5 版本:6个;

IP-Adapter sdxl版本:4个;

IP-Adapter-faceID (1.5+sdxl):7个;

IP-Adapter-faceID 的Lora (1.5+sdxl):5个;

也就是,总计17个版本的adpter模型,另外还有5个faceID对应的lora模型;

🥽先看比较早的IP-Adapter系列:

分为sd1.5版本的模型和sdxl版本的模型,这些在webui或者comfyui中,都是用于controlnet的模型中,这么多版本也是不同是前期不同目的一点点累积起来的,你需要根据自己使用的是1.5还是sdxl的大模型来匹配自己使用的ip-adapter模型,否则一定是会出错的。

那么这些版本到底是什么区别呢?按照官方的解释,如下:

(safetensors版本和bin版本,模型一致,一般下载safetensors后缀的版本就可以。)

SD 1.5 的 IP-Adapter

  • ip-adapter_sd15.bin使用 OpenCLIP-ViT-H-14 中的全局图像嵌入作为条件,也就是说不仅仅参考脸部,而是参考政府图片,这件事情与另外一组的faceID系列模型出发点上就不同了;
  • ip-adapter_sd15_light.bin与 ip-adapter_sd15 相同,但更兼容文本提示,因为本身ip-adpter是图像和提示词共同影响生成的结果,所以这个模型从理论上提升了文本提示词的影响权重;
  • ip-adapter-plus_sd15.bin::使用从OpenCLIP-ViT-H-14模型中提取的图像块嵌入作为条件输入,比 ip-adapter_sd15 更接近参考图像,简单理解就是,有plus用plus,效果更好。
  • ip-adapter-plus-face_sd15.bin:与 ip-adapter-plus_sd15 相同,但使用裁剪后的人脸图像作为条件,也就意味着人物脸部的影响会更强,而衣服姿势等信息的影响被极大的降低;

SDXL 1.0 的 IP-Adapter

  • ip-adapter_sdxl.bin使用 OpenCLIP-ViT-bigG-14 中的全局图像嵌入作为条件;
  • ip-adapter_sdxl_vit-h.bin:与 ip-adapter_sdxl 相同,但使用 OpenCLIP-ViT-H-14,作者在git中也提到了,两个模型对结果的影响实测下来发现并不大;
  • ip-adapter-plus_sdxl_vit-h.bin:使用 OpenCLIP-ViT-H-14 中的补丁图像嵌入作为条件,比 ip-adapter_sdxl 和 ip-adapter_sdxl_vit-h 更接近参考图像,同理,有plus用plus;
  • ip-adapter-plus-face_sdxl_vit-h.bin:与 ip-adapter-plus_sdxl_vit-h 相同,但使用裁剪后的人脸图像作为条件,这个也是增强脸部信息对最终生成画面的影响程度;

🙌IP-Adapter系列模型使用小梦总结(省流版)

  1. 根据你自己使用的大模型版本(1.5 还是sdxl)来选择对应的ip-adapter模型,带sd1.5的就是适配1.5版本大模型的,带sdxl的,当然也就是适配sdxl版本的大模型;
  2. 尽量使用plus版本,比不带plus的效果要更好;
  3. 如果想要仅仅参考输入画面的脸部信息,那么需要选择带face的版本,如果要参考输入的图片的整体(如衣服、姿势等等),选择不带face的版本;

🎡再看比较新的FaceID系列:

哈,又是一堆各种版本各种型号的faceid模型;

https://huggingface.co/h94/IP-Adapter-FaceID

IP-Adapter-FaceID 目前还是实验阶段的模型,使用人脸识别模型中的人脸 ID 嵌入代替 CLIP 图像嵌入,此外,我们使用 LoRA 来提高 ID 一致性。IP-Adapter-FaceID 只需文字提示即可生成以人脸为条件的各种风格图像,比如现在很多人用IP-Adapter来实现照片换脸,大多使用的就是这个系列的ip-adapter模型;

那这一堆模型又是什么区别呢,我们直接进入总结:

🙌IP-Adapter-FaceID系列模型使用小梦总结(省流版)

  1. 根据你自己使用的大模型版本(1.5 还是sdxl)来选择对应的ip-adapter-FaceID模型,带sd1.5的就是适配1.5版本大模型的,带sdxl的,当然也就是适配sdxl版本的大模型;
  2. 尽量使用plus版本,比不带plus的效果要更好;
  3. 除了portrait版本,其他的版本建议搭配相应的lora来使用,效果会更好;
  4. plusV2版本比plus版本多了可控性,可以通过调整controlnet中脸部结构的权重以获得不同的生成;
  5. portrait版本是一个比较特殊的版本,与 IP-Adapter-FaceID 相同,但用于肖像生成,但是不需要lora,也不需要controlnet。具体来说,它接受多个面部图像以增强相似性(默认为 5),也就是参考同一个人物的多张脸部照片来生成图像,保证生成图像与原人物的一致性;

补充portrait版本的官方示例图:

(前两行是国内的人物,所以手工打码了,要不然发不出来哈,感兴趣可以到原网页查看。)

 如果对你有帮助的话,还请帮忙点个赞👍咯,谢谢啦~

🎉写在最后~

去年的时候写了两门比较基础的Stable Diffuison WebUI的基础文字课程,大家如果喜欢的话,可以按需购买,在这里首先感谢各位老板的支持和厚爱~

✨StableDiffusion系统基础课(适合啥也不会的朋友,但是得有块Nvidia显卡):

https://blog.csdn.net/jumengxiaoketang/category_12477471.html

​​​🎆综合案例课程(适合有一点基础的朋友):

https://blog.csdn.net/jumengxiaoketang/category_12526584.html

​​​

这里是聚梦小课堂,就算不买课也没关系,点个关注,交个朋友😄

Logo

为开发者提供按需使用的算力基础设施。

更多推荐