网站搜索

OpenAI 的 DALL-E 2 AI 对一些艺术家来说只是个坏消息


OpenAI 的 DALL-E 2 让那些认为人工智能永远不会(或至少不会很快)渗透到创造力领域的人感到震惊。但 DALL-E 2 是来抢艺术家工作的吗?

DALL-E 2 如何工作?

DALL-E 2 令人印象深刻,几乎就像魔法一样,但它如何创造如此惊人、逼真的图像的广泛细节并不难理解。

DALL-E 2 有两个主要组件。第一个是 GPT-3,它可以说是当今最先进的自然语言机器学习算法。 DALL-E 2 还使用了另一种称为 CLIP(对比语言-图像预训练)的 OpenAI 模型。

GPT-3 和 CLIP 允许计算机理解和生成复杂的自然语言。通过使用来自(主要)互联网的数十亿张图像及其自然语言描述来训练 DALL-E 神经网络,它可以学习概念之间的关系。

从某种意义上说,DALL-E 与常见的机器学习实践相反,在这种实践中,您提供图像,AI 尝试描述它看到的内容。

想一想电视节目 Silicon Valley 中臭名昭著的“Not a Hotdog”应用程序。这里的不同之处在于,你不是在询问 AI 图片是不是热狗,而是在描述热狗,它会根据对热狗的了解生成完全原始的热狗图像。

DALL-E 的第二个主要部分是它如何生成图像。它使用一种称为“扩散”的方法。具体来说,使用名为 GLIDE 的 OpenAI 模型将对已创建的人类语言图像描述的理解转化为图像。 GLIDE 获取由随机生成的噪声组成的图像,然后逐渐去除噪声,直到它与自然语言描述的图像匹配。这有点让人想起一位雕塑家从一块大理石开始,然后逐渐削去,直到只剩下一尊雕像。

有关 DALL-E 2 的更多技术和详细说明,我们衷心推荐 AssemblyAI 深度学习博客上的 DALL-E 2 解释器。

为什么 DALL-E 2 如此具有破坏性

DALL-E 2 远不是第一个可以生成图像的机器学习软件。已有许多先前的系统,而 DALL-E 2 建立在其他项目的经验教训之上。那么为什么这次感觉像是一个颠覆性的转折点呢?

一个重要的原因是 DALL-E 和 DALL-E 2 制作的图像在美学上令人愉悦。其他 AI 图像生成系统通常会创建人们描述为令人不安或类似梦境的图像。它有点像恐怖谷,但对于视觉艺术而言。 DALL-E 2 创建的图像背后显然具有艺术眼光或某种美感。

因此,DALL-E 2 创造的图像可与那些花费一生培养审美感的才华横溢的艺术家或摄影师所创造的图像相媲美。不难想象像这样的人看着 DALL-E 2 可以在几秒钟内吐出的图像并感觉它们即将变得无关紧要。

该系统不仅可以根据自然语言提示在几秒钟内制作出漂亮的高分辨率图像,还可以调整和编辑这些图像,或者提供现有图像的多种变体——甚至是用户提供的图像。那么,这是否意味着艺术家应该收起画架和绘图板,转而“学习编码”?

DALL-E 2 意味着艺术家会改变,而不是消失

OpenAI 一直非常谨慎地简单地向世界发布其技术。这是明智的,因为显然存在很大的滥用空间。然而,既然他们已经证明这是可以做到的,那么商业或独立 AI 研究人员复制 DALL-E 所做的事情并让每个人都可以使用它是根本没有时间的。机器学习领域的大玩家也有自己的高性能 AI 艺术家在等待着他们——比如谷歌的 Imagen。

由于潘多拉的盒子无法关闭,我们不得不承认视觉艺术世界将发生不可逆转的变化,但这并不意味着艺术家已成为过去。

一种看待它的方式是,像这样的技术将创造艺术的力量交到任何人的手中。现在的重点从创建图像的技术能力转移到准确描述和迭代您的愿景的能力,直到您在屏幕上看到的与您的想法相符。换句话说,现在会有更多的人拥有视觉表达的能力,就像现在有更多的人可以通过计算器进行准确的计算一样。

某些类型的艺术家可能不再拥有可行的商业模式。如果您以收取佣金为生,那么很难与可以根据客户描述每小时制作 100 张图像并几乎可以立即更改这些图像的程序竞争。相反,您可能想使用这些工具来实现您自己的愿景,然后根据您的感受出售这些独特的图像。

顾客永远是对的

同样重要的是要记住,最终这些图像是为人类消费而创建的。我们人类拥有自己的一套价值观,这些价值观超越了便利性和技术优势。在一个生成艺术丰富因此相对便宜和一次性的世界里,总会有观众愿意欣赏(和购买)人造艺术,仅仅是因为它可能相对稀有。

换句话说,像 DALL-E 2 这样的软件可能会结束那些靠大量生产流水线艺术品为生的艺术家,但它不太可能抑制那些有话要说和独特视觉身份的艺术家的前景。