发生了什么?
Stability AI于10月29日宣布的新模型套件在三个版本中引入了重大进展:
- Stable Diffusion 3.5 Large:拥有80亿参数,该模型提供卓越的质量和出色的提示遵循性,提供专业级结果,分辨率为1百万像素。
- Stable Diffusion 3.5 Large Turbo:Large模型的浓缩版本,设计用于更快的生成而不牺牲质量。它提供四步图像生成,使其成为最快的推理模型之一。
- Stable Diffusion 3.5 Medium:将于10月29日发布,该模型具有25亿参数和精炼的架构,易于在消费硬件上即开即用,支持从0.25到2百万像素的图像分辨率。
这些模型可免费用于非商业用途,以及年收入低于100万美元的公司,使用Stability AI社区许可证。Stability AI还与Hugging Face、Replicate等平台合作,以促进这些模型的广泛访问,旨在使工具对从个人创作者到初创公司的每个人可用。
Stability AI的新发布是在今年早些时候Stable Diffusion 3 Medium的混合反应之后,这导致许多用户探索了FLUX等替代模型。通过增强提示遵循性和图像质量,Stability AI明确表示其旨在重新夺回失去的市场份额并满足其社区的期望。
关键要点
- 多模型变体:Stable Diffusion 3.5引入了Large、Large Turbo和Medium版本,每个版本都有不同的性能配置文件,适用于不同的用例。
- 可访问性和许可:这些模型在社区许可证下可用,允许免费非商业使用和有限的商业使用,使其对较小的创作者和企业可访问。
- 注重质量和速度:Stable Diffusion 3.5 Large目前在图像质量上领先,而Large Turbo则优先考虑速度,在仅四步内生成高质量图像。
- 社区为中心的改进:Stability AI对社区反馈的关注推动了提示遵循性的显著改进,缩小了与DALL-E 3和MidJourney等主要竞争对手的差距。
深度分析
Stable Diffusion 3.5的发布是对用户反馈和不断变化的AI图像生成环境的重大回应。今年早些时候,Stability AI发布了Stable Diffusion 3 Medium,但未能满足社区对输出质量和提示遵循性的期望。这一差距为FLUX等竞争对手打开了大门,后者迅速在寻求更好一致性和图像现实感的用户中获得了关注。
Stability AI在开发Stable Diffusion 3.5时花费了时间,结合社区输入,在提示遵循性、图像质量和可定制性方面带来了重大改进。结果是一组不仅在视觉输出上与更大竞争对手匹配,而且优先考虑用户灵活性的模型。新模型在支持多种视觉风格方面表现出色——无论是摄影、3D渲染、绘画还是线条艺术——并允许创作者生成反映各种肤色和特征的图像,而无需广泛的提示。
此次发布的另一个重要方面是注重在消费级硬件上高效运行。虽然Large模型提供了令人难以置信的质量,但它需要大量的计算资源,这可能会阻止休闲用户。Stability AI通过确保即将发布的Medium模型将满足那些硬件较弱的用户,提供了一个在质量、速度和可访问性之间的实用权衡。
Stability AI决定在宽松的社区许可证下发布这些模型是另一个经过深思熟虑的决定,旨在维持一个开放的生态系统,开发者