当前位置:首页>游戏大全>维度骇客手游 > 阅读正文

Stable Diffusion部署各平台对比

Stable Diffusion部署各平台对比

更新时间:2024-04-16 15:04:02
前言
  • 本文主要介绍SD在各种平台部署测试的对比,以方便需要使用的同学决定使用哪种系统平台和哪些硬件进行部署
  • 对比维度包含出图的速度,显卡性能对比,系统部署便捷度对比等
  • 本文使用的硬件偏向使用现有的设备进行,这些设备基本可以方便地测试出SD的最小运行边界
  • 从最终结果看,SD其实最重要的要素还是内存和显存需求,毕竟是python编写加上模型加载
对比硬件介绍

硬件对比

  • 系统介绍 戴尔pc机器使用Archlinux 线上服务器采用Ubuntu2204版本 macmini默认使用MacOS 14.4.1
  • 显卡性能对比(显卡性能主要选取 FP16指标的TFLOPS大小,基本可以判断出算图的速度) NVIDIA Quadro P2200:3.8 TFLOPS NVIDIA GeForce RTX 3090:35.58 TFLOPS M2 Pro:5.68 TFLOPS
测试出图使用的模型以及magic word
  • 使用 sd_xl_base_1.0.safetensors 模型进行测试
  • Magic Word
  • # Prompt photo portrait, Asian girl, t-shirt, ultra quality, studio lighting, detailed, 8K # Negative Prompt low quality, deform, ugly, blurry
  • 选项配置
    • Width: 1024
    • Height: 1024
    • Sampling steps: 30
  • 戴尔PC出图性能
    • 显存峰值使用:4121MiB
    • 内存占用:14.1G
    • 出图时间:5min20s
  • 线上服务器出图性能:
    • 显存峰值使用:18358MiB
    • 内存占用:1.6G
    • 出图时间:18.8s
SD启动参数

主机

启动参数:COMMANDLINE_ARGS

戴尔pc

--medvram-sdxl --lowvram --skip-torch-cuda-test --precision full --no-half --listen

线上服务器

--precision full --no-half

Macmini

--medvram-sdxl --lowvram --skip-torch-cuda-test --precision full --no-half --listen

初步结论1. 出图速度
  • GeForce RTX 3090 >> Quadro P2200 >> Apple M2 Pro
2. 显卡使用评价
  • 戴尔pc 戴尔PC机器搭配英伟达P2200显卡,可以比较顺畅的运行SD,但前提是必须增加选项调低显存要求。 P2200无需外接电源,可以方便插拔。 很适合现有pc机器,无需任何改装即可增加显卡的场景。当然,大前提是能接受比较慢的出图速度。
  • 线上服务器 搭配3090的显卡配置,无疑是出图速度最快的,而且整体内存、显存压力都可以抗住 从峰值显存看,还有6GB的富裕,可以尝试其他较大的模型也基本可以完美适配 市面上3090还是可以比较便宜的买到,性价比较高。 当然如果钱包比较厚实,40系列的显卡也是完全没问题的,购买时最好选择显存大的显卡型号
  • Mac的平台 Mac硬件平台对于运行这类SD文出图类型的算图模型有些许吃力,毕竟不是专业的GPU 虽然有苹果自家一体芯片的加持,但强项并不在这方面,且内存限制,并不能较顺畅的加载模型。 如果需要加载SDXL这类4GB大小以上的模型,16GB的统一内存显然不够用,swap显示可以占用到10G以上,导致出图时,看视频网站基本可以声画不同步(亲测斗鱼直播,画面成幻灯片,声音断断续续) 根据其他硬件平台的测试结果,推荐统一内存在48G以上,但价格会来到2w以上,否则适用性会比较差
3. 最终评价
  • 从性能至上的角度评价,3090 家用pc的组合会是一个比较棒的选项,借助docker linux的组合,将算图单独旁置,会比较方便,且会有比较多的磁盘空间存放各种各样想体验的模型
  • 如果体验一把SD的玩法,但囊中羞涩,并且对于算图时间不讲究的话。普通pc机器 再淘一个5GB显存左右的Quadro系列显卡也是一个比较好的选项,需要增加的金钱并不多,还可以装一个双系统玩点3a大作。Quadro的二手显卡还是比较少矿卡的,还是比较合适的选择
  • Mac平台体验,建议统一内存能搞多大搞多大,没事跑跑gpt类型的大模型也是可以的。但综合来讲,同等配置的mac会比同等配置的pc贵好多
出图效果
  • 最后附上各平台出图的效果截图

戴尔pc P2200出图截图

服务器 3090出图截图