网站搜索

Stable Diffusion 3.5 已推出,具有更好的性能和正确的分支数量


流行图像生成器 Stable Diffusion 背后的人工智能初创公司 Stability 宣布推出新一代模型,该模型的设计更具可定制性和多功能性,同时输出更多“多样化”和代表性内容。

新的 Stable Diffusion 3.5 提供三种版本:大型、大型涡轮和中型。 Stable Diffusion 3.5 Large 时钟输入 80 亿个参数,能够生成分辨率高达 100 万像素的图像。 Stable Diffusion 3.5 Large Turbo 具有与 Large 相同的功能,但它生成图像的速度更快,但会牺牲一些质量。

另一方面,Stable Diffusion 3.5 Medium 设计用于在笔记本电脑、平板电脑和智能手机等边缘设备上运行。它可以生成从四分之一 MP 到 2 MP 的各种尺寸的图像。 Large 和 Large Turbo 版本现已上市,Medium 版本将于本月底(即 10 月 29 日)上市。

SD 3.5 承诺比其前身稳定扩散 3.0 显着提高性能,后者于 6 月首次亮相。 SD3 的发布引起了用户群的愤怒和失望,因为该模型无法准确渲染四肢和手指,特别是对于躺在草地上的对象,以及猖獗的伪影和难以遵循给定的提示。

该公司承认 SD3 没有“完全满足我们的标准或社区的期望”,但坚称“Stable Diffusion 3.5 体现了我们致力于为构建者和创作者提供可广泛访问、尖端且对大多数用例免费的工具的承诺” ”。

新的 3.5 模型还经过训练,可以生成更多样化的人物图像,创建“代表世界的图像,而不仅仅是一种类型的人,具有不同的肤色和特征”,并且不需要大量提示。

Stability 首席技术官 Hanno Basse 告诉 TechCrunch:“在训练期间,每张图像都带有多个版本的提示,其中较短的提示优先。” “这确保了任何给定文本描述的图像概念的分布更广泛、更多样化。与大多数生成式人工智能公司一样,我们使用各种数据进行训练,包括经过过滤的公开可用数据集和合成数据。 ”

这是否会导致谷歌在二月份面临同样的问题,当时 Gemini 的图像生成器开始吐出“历史上不准确的”(即:黑人纳粹士兵),还有待观察。谷歌二月份在 Twitter 上发布的一份声明称:“Gemini 的人工智能图像生成确实产生了广泛的人群。” “这通常是一件好事,因为世界各地的人们都在使用它。但这里却没有抓住重点。 ”

如果您想亲自尝试 Stable Diffusion 3.5,目前可以从 Hugging Face 下载 Large 和 Large Turbo。您可以在 GitHub 上找到推理代码。

资料来源:Stability AI、TechCrunch

相关文章