Stability AI 宣布稳定扩散 3:目前我们所知信息
Posted: Tue Mar 18, 2025 5:38 am
什么是稳定扩散 3?
Stable Diffusion是一系列文本转图像的生成式 AI 模型。也就是说,你写下一个提示来描述你想要看到的内容,然后模型会根据你的描述创建一个图像。有一个 Web 用户界面,可轻松访问 AI。
与 OpenAI 竞争对手 DALL·E 图像生成 AI 相比,它的主要区别在于“开放权重”。也就是说,提供模型计算的神经网络细节是公开的。这意味着模型的运作方式具有一定的透明度,研究人员可以调整和借鉴 Stability AI 的工作。
Stable Diffusion 3 不只是一个模型,而是一系列模型,其参数 巴西赌博数据 数量从 8 亿到 80 亿不等。参数越多,输出质量越高,但副作用是图像成本更高,创建时间更长。参数较少的模型版本更适合创建简单图像,参数较多的模型版本更适合创建更高质量或更复杂的图像。
稳定扩散 3 如何工作?
Stable Diffusion 3 使用扩散变压器架构,类似于 Sora 使用的架构。之前版本的 Stable Diffusion 以及大多数当前图像生成 AI 都使用扩散模型。用于文本生成的大型语言模型(如 GPT)使用变压器架构。能够将这两种模型结合起来是一项最近的创新,有望充分利用这两种架构的优点。
扩散模型擅长在小区域创建细节,但在生成图像的整体布局方面表现不佳。相反,变压器擅长布局,但在创建细节方面表现不佳。因此,稳定扩散很可能会使用变压器来布局整体图片,然后使用扩散器来生成补丁。
这意味着我们可以期待 Stable Diffusion 3 在组织复杂场景方面的表现比其前代产品更好。
公告还指出,稳定扩散 3 使用了一种称为流匹配的技术。与当前的扩散路径技术相比,这是一种计算效率更高的训练模型和从这些模型创建图像的方法。这意味着创建 AI 的成本更低,使用 AI 创建的图像的成本也更低,从而降低了 AI 的成本。
Stable Diffusion 3 的局限性是什么?
目前图像生成 AI 的局限性之一是生成文本的能力。值得注意的是,Stability AI 公告以一张包含模型名称“Stable Diffusion 3”的图像开始。文本中字母的定位很好但并不完美:请注意,Stable 中的“B”和“L”之间的距离比“L”和“E”之间的距离更宽。同样,Diffusion 中的两个“F”太近了。然而,总体而言,这比上一代模型有了明显的改进。
提示:一幅史诗般的动画艺术作品,描绘了一个巫师在夜晚的山顶上向黑暗的天空施展宇宙咒语,咒语内容是
提示:史诗般的动漫艺术作品,夜晚的山顶上,一位巫师向黑暗的天空施展宇宙咒语,咒语上写着“稳定扩散 3”,由五彩缤纷的能量组成
该模型的另一个问题是,由于散射器分别生成图像块,因此图像区域之间可能会出现不一致。这主要是在尝试生成逼真图像时出现的问题。公告帖子没有包含许多逼真的示例,但城市街道上的公交车图像揭示了这些问题的几个实例。请注意,公交车下方的阴影表明光线来自公交车后面,但街道上建筑物的阴影表明光线来自图像左侧。同样,图像右上方建筑物窗户的位置在建筑物的不同区域略有不一致。公交车也没有司机,不过这个问题可以通过更仔细的提示来解决。
图片1.png
我如何访问 Stable Diffusion 3?
Stable Diffusion 3 处于“早期预览”状态。这意味着它仅供研究人员进行测试。预览状态是为了让 Stability AI 在模型向公众发布之前收集有关模型性能和安全性的反馈。
您可以在此处加入 AI 访问等候名单。
Stable Diffusion是一系列文本转图像的生成式 AI 模型。也就是说,你写下一个提示来描述你想要看到的内容,然后模型会根据你的描述创建一个图像。有一个 Web 用户界面,可轻松访问 AI。
与 OpenAI 竞争对手 DALL·E 图像生成 AI 相比,它的主要区别在于“开放权重”。也就是说,提供模型计算的神经网络细节是公开的。这意味着模型的运作方式具有一定的透明度,研究人员可以调整和借鉴 Stability AI 的工作。
Stable Diffusion 3 不只是一个模型,而是一系列模型,其参数 巴西赌博数据 数量从 8 亿到 80 亿不等。参数越多,输出质量越高,但副作用是图像成本更高,创建时间更长。参数较少的模型版本更适合创建简单图像,参数较多的模型版本更适合创建更高质量或更复杂的图像。
稳定扩散 3 如何工作?
Stable Diffusion 3 使用扩散变压器架构,类似于 Sora 使用的架构。之前版本的 Stable Diffusion 以及大多数当前图像生成 AI 都使用扩散模型。用于文本生成的大型语言模型(如 GPT)使用变压器架构。能够将这两种模型结合起来是一项最近的创新,有望充分利用这两种架构的优点。
扩散模型擅长在小区域创建细节,但在生成图像的整体布局方面表现不佳。相反,变压器擅长布局,但在创建细节方面表现不佳。因此,稳定扩散很可能会使用变压器来布局整体图片,然后使用扩散器来生成补丁。
这意味着我们可以期待 Stable Diffusion 3 在组织复杂场景方面的表现比其前代产品更好。
公告还指出,稳定扩散 3 使用了一种称为流匹配的技术。与当前的扩散路径技术相比,这是一种计算效率更高的训练模型和从这些模型创建图像的方法。这意味着创建 AI 的成本更低,使用 AI 创建的图像的成本也更低,从而降低了 AI 的成本。
Stable Diffusion 3 的局限性是什么?
目前图像生成 AI 的局限性之一是生成文本的能力。值得注意的是,Stability AI 公告以一张包含模型名称“Stable Diffusion 3”的图像开始。文本中字母的定位很好但并不完美:请注意,Stable 中的“B”和“L”之间的距离比“L”和“E”之间的距离更宽。同样,Diffusion 中的两个“F”太近了。然而,总体而言,这比上一代模型有了明显的改进。
提示:一幅史诗般的动画艺术作品,描绘了一个巫师在夜晚的山顶上向黑暗的天空施展宇宙咒语,咒语内容是
提示:史诗般的动漫艺术作品,夜晚的山顶上,一位巫师向黑暗的天空施展宇宙咒语,咒语上写着“稳定扩散 3”,由五彩缤纷的能量组成
该模型的另一个问题是,由于散射器分别生成图像块,因此图像区域之间可能会出现不一致。这主要是在尝试生成逼真图像时出现的问题。公告帖子没有包含许多逼真的示例,但城市街道上的公交车图像揭示了这些问题的几个实例。请注意,公交车下方的阴影表明光线来自公交车后面,但街道上建筑物的阴影表明光线来自图像左侧。同样,图像右上方建筑物窗户的位置在建筑物的不同区域略有不一致。公交车也没有司机,不过这个问题可以通过更仔细的提示来解决。
图片1.png
我如何访问 Stable Diffusion 3?
Stable Diffusion 3 处于“早期预览”状态。这意味着它仅供研究人员进行测试。预览状态是为了让 Stability AI 在模型向公众发布之前收集有关模型性能和安全性的反馈。
您可以在此处加入 AI 访问等候名单。