MidJourney vs. Stable Diffusion vs. Bing Image Creator

人工智能如何重塑艺术界

人工智能(AI)正以惊人的速度改变着艺术领域。其中一个引人入胜的应用是通过描述性艺术生成器。这些工具能够分析图像,理解其构成,并在此基础上创作全新的艺术作品。

本文将深入探讨三种主流的AI艺术生成器:MidJourney、Stable Diffusion 和 Microsoft Bing Image Creator。我们将评估它们基于文本提示生成图像的能力,并尝试找出哪一个在这方面表现最佳。

MidJourney

MidJourney 由 David Holz 创建,是一款利用机器学习来识别现有艺术作品中的模式和特征的AI艺术生成器。它随后会将这些学习到的信息用于创作新颖的艺术作品。

该工具于 2022 年 7 月 12 日进入公开测试阶段。在开发 MidJourney 之前,Holz 曾共同创立 Leap Motion,一家致力于通过视频捕捉和手势来革新用户界面的初创公司。他于 2019 年将 Leap Motion 出售给了 Ultrahaptics。

随着 MidJourney 的日益流行,Holz 分享了他对这项技术及其对艺术和社会影响的见解。他将艺术家视为 MidJourney 的客户而非竞争对手,并认为该平台能够促进更大程度的创造力和实验,尤其是在构思阶段。

然而,关于 MidJourney 训练数据集可能侵犯版权的担忧也随之而来,因为其中可能包含其他艺术家的受版权保护的作品。

Holz 强调 MidJourney 的目标是增强人类的能力,而不是取代它们。他将它比作汽车,并解释说,仅仅因为汽车比人类快,并不意味着我们应该切断自己的双腿。

通过使用 MidJourney 的 AI 图像生成功能,艺术家可以在创作自己的作品之前探索新的可能性并获得大量的灵感。

稳定扩散

Stable Diffusion 是一种开源机器学习模型,能够根据文本生成图像,修改现有图像,或在低分辨率或低细节图像中填充细节。它已经在数十亿张图像上进行了训练,可以生成与 DALL-E 2 和 MidJourney 相媲美的效果。

Stable Diffusion 背后的公司是 Stability AI,其创始人兼首席执行官是 Emad Mostaque。该模型的底层架构是潜在扩散模型,由 LMU Munich 的 CompVis 小组开发,并由 Patrick Esser 和 Robin Rombach 设计。他们早先构建了 Stable Diffusion 使用的潜在扩散模型架构。

Stability AI、CompVis LMU、Runway、EleutherAI 和 LAION 之间的合作使得 Stable Diffusion 得以公开发布。

Stable Diffusion 可以部署在包括 Windows 和 Apple 设备在内的各种平台上。在设备上进行应用程序部署有助于保护用户隐私,这种方式比基于服务器的方法更可取。

微软 Bing Image Creator

微软推出了一款名为 Bing Image Creator 的新工具,用户可以直接在 Microsoft Edge 浏览器中创建自己的图像。该公司发布了一系列旨在激发创造力和自我表达的创作者工具。该工具允许用户创建个性化图像,用于分享生活动态或满足其他任何需求。

用户可以通过 Microsoft Edge 的侧边栏轻松访问 Image Creator。微软已采取积极措施,以确保该工具以负责任的方式使用,并不会助长冒犯性内容的传播。

该公司制定了内容政策,禁止在某些情况下使用 Image Creator,用户可以举报任何违反该政策的行为。此外,微软还实施了技术措施,以解决生成图像技术中可能存在的潜在偏差。

接下来,我们将评估这三种描述性 AI 图像生成器在接收到相同文本提示时的表现。

测试用例

提示 1 在高速公路上一个温暖晴朗的晴天,现代圣诞老人骑着驯鹿拉着的雪橇
提示 2 大眼睛动物的特写镜头,捕捉它的纯真和可爱
提示 3 一名人类宇航员在登陆新星球时受到敌对外星生物拔出武器的欢迎
提示 4 纽约市小说封面的现代抽象艺术,颜色大胆明亮
提示 5 一个人在两个盘子之间做出决定——一个是比萨饼,另一个是芝士汉堡
提示 6 负伤武士骑马雪山,手执宝剑
提示 7 使用不同阴影显示水的运动和流动的抽象图像
提示 8 河流中的三文鱼,背景是郁郁葱葱的绿树
提示 9 桌上放一杯水,用手挤柠檬
提示 10 从骑大象的人的角度看沙漠中的地平线
提示 11 一片森林,纸币长在树上,鸟是由硬币组成的
提示 12 一碗拉面,cel 着色,夜间照明,照片级真实感
提示 13 Elon Musk 贫穷且失业

结论

在评估 MidJourney、Stable Diffusion 和 Bing Image Creator 的输出结果后,很明显没有绝对的赢家。

每个生成器都以独特的方式解读提示。Bing Image Creator 和 MidJourney 的输出结果之间存在一些相似之处。当提示具有清晰的描述但往往过于字面化时,Stable Diffusion 表现得更加有效。 虽然 MidJourney 和 Bing Image Creator 通常能够产生不错的结果,但偶尔也会出现与提示不符的情况。

值得注意的是,Bing Image Creator 在生成任何具有攻击性或煽动性的内容时都非常谨慎。例如,当提示要求生成 Elon Musk 贫穷且失业的图像时,该工具会发出警告信息。微软的这种保护措施值得肯定。

与此同时,MidJourney 的神经网络却成功地生成了一个贫穷而孤独的 Elon Musk 的形象。因此,可以认为每个生成器都将迎合其各自的用户群体。