“艺术家达利+机器人WALL-E”、元宇宙及零边际内容_快讯_新闻播报

快讯

“艺术家达利+机器人WALL-E”、元宇宙及零边际内容

“AI生成图像”来了，“AI生成视频”还远吗？

来源：神译局作者：boxi
2022-04-22 18:55

OpenAI在其网站上有一段描述 DALL-E 的视频。尽管OpenAI的宣传视频的确也提到了 DALL-E 的一些缺点，但对其可能性仍然十分乐观。

编者按：OpenAI最近搞了一个大东西，能够根据文字创作图像的DALLE 2。从网上放出来的一些例子来看，效果相当震撼，有些甚至抓住了文字的灵魂。那么这样一个AI具备什么意义呢？知名科技博主分析了不同形式的内容创作手段存在的共同演变模式，并总结出相应的经济影响，认为这种AI将为元宇宙的未来赋予经济性。当虚拟世界可以用近乎零成本去创作完全可以针对个人定制的虚拟内容时，互联网的未来将距离我们更近，却也会变得更奇怪了。文章来自编译。

划重点：

游戏处在技术发展的前沿，引领了从文本到图像到视频到3D的进步

社交网络经历了与游戏类似的媒介演变，但时间推迟了二十年

TicTok的零成本的UGC+纯算法调度的动态内容具有网络效应

DALL-E 2提供的零成本内容为元宇宙未来提供了经济性

上周，OpenAI发布了文字生成图像工具 DALL-E 2（DALL-E来自艺术家“Dalí”和机器人“WALL-E”的结合词）；来自@BecomingCritter的这条推特帖子上面展示了大量生成的示例，其中包括这条“泰迪熊在 1980 年代在月球上展开新的人工智能的研究”：

在 1980 年代的月球上致力于新 AI 研究的泰迪熊

文字“一张古色古香的花店的店面照片，洁白的门面绿意盎然，大门敞开，还有一扇大窗户”生成的图像：

一张古色古香的花店的店面照片，洁白的门面绿意盎然，大门敞开，还有一扇大窗户

不过，最恰如其分的是这张，“一个沐浴在 AGI 乌托邦阳光之下的人类”：

一个沐浴在AGI乌托邦阳光之下的人类

OpenAI在其网站上有一段描述 DALL-E 的视频。尽管OpenAI的宣传视频的确也提到了 DALL-E 的一些缺点，但对其可能性仍然十分乐观。里面的一些摘录：

Dall -E 2 是出自OpenAI的一套新的 AI 系统，它可以将简单的文本描述（如“考拉扣篮”）转化为此前从未出现过的逼真图像。 DALL-E 2 还可以对照片进行编辑和润饰，效果十分逼真……

DALL-E 是通过训练基于图像及其文本描述的神经网络而创建出来的。通过深度学习，它不仅可以理解像考拉熊以及摩托车这样的单个对象，还可以学习对象之间的关系，当你要求 DALL-E 生成“骑摩托车的考拉”的图像时，它知道如何创建这样一幅图片，或者与任何其他对象或动作有关系的图片。

DALL-E 研究有三个主要成果：首先，它可以帮助人们用可视化的方式表达自己，这是前所未有的。其次，人工智能生成的图像可以告诉我们很多信息，让我们知道系统是否理解我们，或者只是在重复教过它的内容。第三，DALL-E 可以帮助人类了解人工智能系统如何看待和理解我们的世界。这是开发有用且安全的人工智能的关键部分……

用于训练 DALL-E 的方法令人兴奋之处在于，它可以从其他各种打过标签的图像那里学习，然后将其应用到新图像上面。给它一张猴子的照片，DALL-E 就可以推断出它在做一些以前从未做过的事情时会是什么样子的，比如猴子戴着一顶有趣的帽子在纳税的样子。富有想象力的人类和有聪明才智加持的系统，人机协同工作如何可以创造新事物，放大我们的创造潜力？DALL-E 就是一个有力的例子。

人机协同这句话可能会引起一些人的质疑：乍看之下，DALL-E 与艺术家和插画家好像是竞争的关系；不过，还有另一种观点，DALL-E 指向了元宇宙未来的一个重大缺失部分。

游戏与媒体进化

长期以来，游戏一直处在技术发展的前沿，就媒体而言，情况当然是这样的。最早的电脑游戏只不过是文字罢了：

《俄勒冈之路》游戏截图

紧随其后的是图像游戏，一般是位图类型的；我记得在图书馆玩过很多次《神偷卡门》（Where in the world is Carmen San Diego）这款游戏：

很快，游戏就开始引入动作，你可以在 2D 世界里面给精灵指路；紧接着3D 也出现了，在过去 25 年大部分的时间里，我们一直在致力于让 3D 游戏变得更加逼真。然而，几乎所有这些游戏都是 2D 屏幕上投射的 3D 图像。虚拟现实提供了我们置身于游戏之中的错觉。

尽管如此，这种演变也面临着挑战：创建更逼真的 3D 游戏，意味着要创建出更逼真的图像纹理来粉饰所有这些多边形；在虚拟现实的环境下，这个问题只会被放大。这也是即便是开放世界游戏在范围上最终也会受到限制的原因之一，而那种游戏玩法在很大程度上是具有确定性的：通过了解你要去哪里以及到达那里的所有选项，开发人员可以提前创建所有必要的资产，以提供身临其境的体验。

这并不是说除了程序生成的Roguelike（是角色扮演游戏的一个分支类型，它以一系列随机生成关卡的地牢、回合制战斗、基于磁贴的图像和角色永久死亡为特点）游戏以外，游戏就不能有随机元素：提供不可预测性要素最显而易见的一种方式是让人类之间对玩，尽管这是在定义明确和受控的环境下进行的。

社会化内容与用户生成内容

社交网络经历了与游戏类似的媒介演变，但时间推迟了二十年。 Web 上最早的社交网络形式是文字型的公告板以及用户组（USENET）。后来，电子邮件、AOL聊天室以及论坛开始普及。 Facebook 是在 2000 年代中期的时候出现的。它之所以大受欢迎，有一点是因为增加了图像这种元素。 Instagram是一个只有图片的社交网络，但很快又添加了视频，而视频则是TikTok的全部。现在，尤其是在过去这几年里，通过 Zoom 或Facetime 等 app 召开的视频会议已经开始在 2D 屏幕上提供 3D 图像。

尽管如此，媒体对于社交网络的重要性一直都比较低，这只是因为它的社交部分天生就很有趣了。人类喜欢与其他人交流，即便这需要拨号到随便某个 BBS，下载消息、撰写回复，然后再拨回去发送消息。游戏也许基本上是具有确定性的，但人类充满了惊喜。

此外，这意味着社交网络要便宜得多：平台不需要自己生成所有的内容，而是由用户自己生成所有内容。这导致新平台更难崛起，因为你需要用户来吸引用户，但这也使得此类平台比任何游戏都更具粘性（或者，换句话说，最具粘性的游戏本身就具备网络效应）。

动态消息与算法

除了时间以外，社交网络的第一次迭代并没有特定的算法组件：较新的帖子位于顶部（或底部）。随着 Facebook 在 2006 年推出了动态消息（News Feed），情况开始发生变化。现在，你不再需要访问所有朋友的页面，只需浏览动态消息就行，它从一开始就决定了要包含哪些内容，以及按照什么样的顺序呈现。

随着时间的推移，动态消息从一种相对简单的算法演变为由机器学习驱动的算法，其结果令人费解，以至于 Facebook 用了六个月的时间才修复好最近的一个排名错误。其影响十分巨大：随着算法驱动的动态消息变得更好，不仅是 Facebook，就连 Instagram的参与度与增长速度都出现了大幅增长；动态消息还非常适合货币化，因为决定你看到的内容的同一类信号也会影响到向你展示的广告。

然而，之所以不把算法驱动的动态消息与社交网络放在同一个章节讨论，是因为显示其的力量的终极例子根本不是社交网络：而是TikTok 。当然， TikTok全都是用户生成的内容，但它与 Facebook 的关键区别在于，内容不受限于你的关系网络： TikTok从整个网络提取它认为你最感兴趣的视频。我在2020年时解释了为什么这是Facebook的盲点：

有趣的是，Facebook错过这个是不可避免的，原因在于：首先，Facebook 把自己看作是一个社交网络，所以它不愿意将其视为一种责任。其次，Facebook 对待Snapchat的方式强化了这种观点。我那篇文章的重点是 Facebook 利用Instagram 的社交网络来阻止Snapchat 的增长，这只会强化“网络是 Facebook 最大的资产”这一点，而使得TikTok 这个盲点变得越来越大。

TikTok把两个东西结合在了一起，一是具备零成本特性的用户生成内容，二是与网络分离的纯算法的动态内容；这种结合具有网络效应，因为TikTok需要很多内容供自己选择，但它不需要特定的网络。

机器学习的元宇宙

我知道，元宇宙太 2021 了，但令我震惊的是，科幻小说里面的例子，包括《雪崩》以及《头号玩家》等，在实现上其实非常像游戏。他们的虚拟世界是由有远见的公司创建的，或者是由一位有远见的开发者创建的，他也会开发一个争夺虚拟世界最终所有权的确定性游戏。是，第三方可以而且确实建立了具有强大社交组件的体验，最著名的是《雪崩》里面 Da5id的黑色太阳俱乐部（Black Sun club），但它的核心机制，以及核心经济，更接近多人游戏，比任何其他东西都要接近。

不过，这一点在现实世界里面极具挑战性：请记住，游戏开发非常耗钱，游戏的艺术创作尤其昂贵，而且成本越高，沉浸感体验越强。另一方面，社交媒体很便宜，因为它用的是用户生成的内容，但这些内容一般都体现在更基本的媒体上，如文本、图片之类，视频也是最近才出现的。当然，内容未必就得限制在你的网络里面——算法可以将网络上的任何内容呈现给任何用户。

DALL-E 的迷人之处在于它指向了一个可以将这三种趋势结合起来的未来。归根结底，DALL-E 最终是人类生成内容的产物，就像它的表亲 GPT-3一样。当然了，后者是做文本生成，而 DALL-E 是图像生成的。但请注意，这是从文本迈进到了图像；接下来就会有机器学习生成的视频。当然，这可能需要几年的时间；视频这个问题会更加困难，而响应式的 3D 环境则是难上加难，但这就是这个行业以前走过的道路：

游戏开发者突破了文本的限制，然后是图像，然后是视频，然后到 3D

社交媒体先是将文本内容创作的成本降到0，然后是图像，然后到视频

机器学习模型现在可以用零边际成本创建文本和图像

从长远来看，这指向的是这样一个元宇宙愿景，它的确定性要比典型的视频游戏低得多，但在生成内容的丰富性方面又比社交媒体丰富得多。想象一下，一个不是由艺术家绘制而是由人工智能创造出来的环境：这不仅增加了可能性，而且至关重要的是，降低了成本。

零边际内容

我们还可以换一种方式来思考 DALL-E 和 GPT 以及类似的机器学习模型，这可以追溯到我一直以来主张的一个观点，即互联网是一种只有印刷机才能匹配的变革性技术。后者的革命性在于它大大降低了消费的边际成本。以下内容来自《互联网与第三阶级》：

与此同时，印书的经济性与手工抄写的经济性有着根本上的不同。后者纯粹属于运营费用：产出完全要取决于劳动力的投入。反过来，前者主要是资本支出：首先，你得造印刷机，其次，给一本书设置好活字。这些重大的前期费用最好的支付方式，是一本书要做出尽可能多的副本以供出售。

那么，怎么才能以最大限度地增加可以出售的副本数量呢？答案是用特定语言使用最广泛的方言来印刷，这反过来又会激励大家采用这种方言，从而在欧洲范围内对这种语言进行标准化。相应地，这又会加深使用共同语言的城邦国家之间的亲和力，尤其是在数十年的时间里围绕着书籍以及后来的报纸形成了共同文化。这种合并的发生速度各异，英格兰和法国比德国和意大利早了几百年，但几乎在所有情况下，第一等级都不是天主教会的神职人员，而是国家君主，即便这些君主将权力让渡给以伯克为典型代表的一种新型的贵族精英。

互联网产生了两个影响：一是让消费的边际成本降到了零。即使是用印刷机，仍然需要打印实物并分发出去，这需要花钱；与此同时，把你现在看到的这篇文章发送给全世界任何一位感兴趣的人其实是不用花钱的。这彻底颠覆了出版业，摧毁了看门人的力量。

不过，另一个影响发生在供给侧。我在 Mistakes and Memes 中写过关于TikTok的文章：

“Facebook吸引人之处也可能是因为它呈现出来的内容本身，至于是谁呈现的并不重要”这句话其实也可以用来描述TikTok。这句话描述Tiktok错在后者的吸引力在于它呈现的内容，至于是谁创建的并不重要……换句话说，我太过专注需求了（这是聚合理论的关键），所以对供给侧的演变没有予以足够的思考。用户生成内容未必就只能是阿猫阿狗的图片以及某人关系网络内的人的政治抱怨。它还可能是一种新型网络的基础——在这种网络里面，梅特卡夫定律的结果不在于任何一个节点可用的连接数，而在于定制化到动态消息的输入数量。

机器学习生成内容就是TikTok之后的下一步：GPT 和 DALL-E 以及其他类似模型不是从网络上的任何地方去获取内容，而是以零边际成本用内容生成新的内容。这就是元宇宙的经济学最终将行得通之处：虚拟世界需要以近乎零成本去创作完全可以针对个人定制的虚拟内容。

当然，DALL-E 还向我们提出了许多其他问题，其中很多属于哲学上的问题。上周大家对这个话题已经进行了很多讨论，而且未来应该还会有更多的讨论。尽管如此，它的经济影响也很重要，在上周DALL-E发布之后，互联网的未来距离我们比以往任何时候都更接近，也更奇怪了。