网站搜索

什么是稳定扩散?看看一个人工智能模型如何重塑你所看到的图像


这个人工智能接受你的文本请求并将其转化为图像

稳定扩散是一种创建图像的人工智能 (AI) 模型。它的工作原理与 ChatGPT 等其他生成式 AI 模型类似。当提供文本提示时,稳定扩散会根据其训练数据创建图像。

什么是稳定扩散?

稳定扩散是一种计算机程序,可在提供文本提示时创建图像。例如,提示“apple”会产生一个苹果的图像。它还可以采取更复杂的提示,例如以特定的艺术风格创建苹果的图像。

除了生成图像之外,它还可以替换现有图像的部分内容并扩展图像以使其更大。添加或替换图像中的元素称为修复,而扩展图像以使其更大称为修复。这些过程可以改变任何图像,无论原始图像是否是由人工智能制作的。

稳定扩散模型是开源的,因此任何人都可以使用它。

AI如何生成图像?

AI 可以通过多种不同的方式生成图像,但稳定扩散使用所谓的潜在扩散模型 (LDM)。它从类似于模拟电视静电的随机噪声开始。从最初的静态开始,它会经历许多步骤来消除图片中的噪音,直到它与文本提示匹配。这是可能的,因为该模型是通过向现有图像添加噪声来训练的,因此它本质上只是反转该过程。

Stable Diffusion 使用来自互联网的许多图像进行训练,这些图像主要来自 Pinterest、DeviantArt 和 Flickr 等网站。每张图像都带有文本标题,这就是模型如何知道不同事物的样子,可以重现各种艺术风格,并可以接受文本提示并将其转换为图像。该模型还可以使用其他图像集进行微调,以产生不同的结果。

稳定扩散有什么用?

稳定扩散用于根据文本提示生成图像,并使用修复和修复过程来更改现有图像。例如,它可以根据生动的文字描述创建整个图像,也可以替换现有图像的一小部分。

你能分辨出图像是人工智能生成的吗?

稳定扩散可以创建难以与真实事物区分开的逼真图像,以及难以与手绘或彩绘艺术品区分开的图像。根据提示和其他因素,它还可以显示明显虚假的图像。

识别人工智能生成的艺术的一种方法是观察手,因为稳定扩散和其他模型在该区域遇到很多麻烦。如果图像中的主体明显地隐藏了他们的手,则表明有人使用了一些巧妙的提示工程来克服人工智能模型的缺点。但请记住,人工智能模型的变化速度非常快,因此这些缺点可能是短暂的。

稳定扩散的争议和问题

稳定扩散生成的图像理论上可以用于任何目的,但存在许多与人工智能生成的内容相关的陷阱。

由于人工智能图像生成必须从某个地方了解物体,因此其程序员通过元数据在互联网上搜寻艺术作品。他们这样做没有得到源艺术创作者的许可,这引发了版权问题。

这个问题特别不确定,因为稳定扩散不会从头开始创建图像;它把它们从它所研究的内容中拼凑起来。因此,无论是学习还是创作,它都会使用其他艺术家的作品,无论他们是否获得许可。像 DeviantArt 这样的网站只是通过让用户选择不让人工智能系统使用他们的艺术进行训练来避免大规模退出。

部分由人工智能创作的作品的版权主题也很模糊,因为包含人工智能生成元素的作品的版权申请已被拒绝。尽管如此,随着人工智能驱动的图像生成变得越来越普遍,它威胁到了传统艺术家的生计,他们可能会因为这种更便宜、“更简单”的方法而失去工作。

常见问题 (FAQ) 列表:

- 什么是人工智能艺术?

“AI 艺术”是 Stable Diffusion、Midjourney、DALL-E 和其他自然语言图像生成器的总称。每个版本可能使用不同的方式来训练和创建图片,但它们都属于“人工智能艺术”的描述。

- 为什么AI艺术不能做手工?

AI艺术手和牙都有困难。原因是因为虽然生成器通常“知道”这些身体部位是什么,但它们不了解人类的手指或牙齿的典型数量。