专注于市场的科技专家和专业怀疑论者认为,人工智能泡沫已经破灭,寒冬又回来了。 李飞飞并不这么认为。事实上,被誉为“人工智能教母”的李飞飞却持相反观点。她目前在斯坦福大学休学,与他人共同创办了一家名为世界实验室 (World Labs)的公司。尽管目前的生成式人工智能是基于语言的,但她看到了一个新领域,即系统能够利用物理、逻辑和我们物理现实的丰富细节构建完整的世界。这是一个雄心勃勃的目标,尽管一些沉闷的大亨们说人工智能的进展已经陷入了严峻的停滞状态,但世界实验室的融资速度很快。这家初创公司可能还需要一年时间才能推出产品——目前还不清楚它何时推出以及推出后效果如何——但投资者已经投入 2.3 亿美元,据报道对这家新兴初创公司的估值为 10 亿美元。
大约十年前,李飞飞通过创建 ImageNet 帮助人工智能实现转型。ImageNet 是一个定制的数字图像数据库,它使神经网络变得更加智能。她认为,如果人工智能要创造现实世界,无论是现实模拟还是完全想象的宇宙,当今的深度学习模型也需要类似的推动力。未来的乔治·RR·马丁斯可能会以提示而不是散文的形式创作他们梦想的世界,然后你可以渲染它并在其中漫游。李飞飞说:“计算机通过摄像头和摄像头背后的计算机大脑来观察物理世界。将这种愿景转化为推理、生成和最终的交互需要理解物理世界的物理结构和物理动态。这项技术被称为空间智能。”World Labs 自称是一家空间智能公司,它的命运将决定这个词是成为一场革命还是一个笑柄。
李多年来一直痴迷于空间智能。当所有人都为 ChatGPT 而疯狂时,她和她的前学生贾斯汀·约翰逊 (Justin Johnson) 却在电话中兴奋地谈论人工智能的下一次迭代。“未来十年将是关于生成新内容,将计算机视觉、深度学习和人工智能从互联网世界带出来,并将它们嵌入到空间和时间中,”约翰逊说,他现在是密歇根大学的助理教授。
在与虚拟网络先驱、现任Andreessen Horowitz合伙人马丁·卡萨多共进晚餐后,李飞飞决定在 2023 年初创办一家公司。安德森霍洛维茨是一家以近乎救世主式地拥抱人工智能而臭名昭著的风险投资公司。卡萨多认为人工智能的发展道路与电脑游戏类似,电脑游戏从文本开始,然后转向 2D 图形,现在拥有令人眼花缭乱的 3D 图像。空间智能将推动这一变革。最终,他说,“你可以把你最喜欢的书扔进一个模型里,然后你真的走进去,以一种身临其境的方式实时观看它的播放,”他说。卡萨多和李飞飞一致认为,实现这一目标的第一步是从大型语言模型转向大型世界模型。
李开始组建团队,约翰逊是联合创始人。卡萨多又推荐了两个人,一个是曾在亚马逊、Meta 的 Reality Labs 和 Epic Games 工作过的克里斯托夫·拉斯纳 (Christoph Lassner),他是Pulsar的发明者。Pulsar 是一种渲染方案,后来产生了一项著名的技术,即3D Gaussian Splatting 。这听起来像是麻省理工学院长袍派对上的独立乐队,但这实际上是一种合成场景的方式,而不是一次性物体。卡萨多的另一个推荐人是本·米尔登霍尔 (Ben Mildenhall),他创造了一种强大的技术,叫做 NeRF(神经辐射场),可以将 2D 像素图像转化为 3D 图形。“我们把现实世界的物体带入 VR,让它们看起来非常真实,”他说。他辞去了谷歌高级研究科学家的职务,加入了李的团队。
大型世界模型的一个明显目标是将世界意识融入机器人。这确实是世界实验室的计划,但还需一段时间。第一阶段是建立一个对三维、物理性以及空间和时间概念有深刻理解的模型。接下来是模型支持增强现实的阶段。之后,该公司可以涉足机器人技术。如果这一愿景得以实现,大型世界模型将改善自动驾驶汽车、自动化工厂,甚至人形机器人。
这还远得很,而且也不是板上钉钉的事。World Labs 承诺将在 2025 年推出一款产品。当我向创始人询问产品到底是什么以及预计的客户是谁时——比如 World Labs 将如何赚钱——他们强调说他们才刚刚起步。“还有很多边界需要突破,还有很多未知数,”李说。“当然,我们是世界上解决这些未知数的最佳团队。”
Casado 的说法更具体一些。他指出,与 ChatGPT 或 Anthropic 的 Claude 一样,模型可以是产品——其他人可以直接使用或托管其他应用程序的平台。客户可能包括游戏公司或电影制片厂。我记得我写过皮克斯曾经在怪物皮毛或水的流动等事情上投入了无尽的资源。想象一下用一句话的提示做到这一点。
World Labs 并不是唯一一家致力于解决某些人称之为物理 AI 问题的公司。Nvidia 首席执行官黄仁勋今年早些时候表示:“为通用人形机器人构建基础模型是当今 AI 领域最令人兴奋的问题之一。” 我最近写了一篇关于 Archetype 的文章,该公司也在走这条路。但卡萨多坚持认为,World Labs 的野心、才华和愿景是独一无二的。“我已经投资了近 10 年,这是我遇到过的最好的团队,”他说。风险投资人加大赌注是很常见的,但他投入的不仅仅是金钱:自从他成为风险投资人以来,这是他第一次成为兼职团队成员,每周在公司待一天。
其他风险投资公司也在投资,包括 Radical Ventures、NEA 和(令人惊讶的是)Nvidia 的风险投资部门,以及包括马克·贝尼奥夫、里德·霍夫曼、杰夫·迪恩、埃里克·施密特、RON·康威和杰夫·辛顿在内的全明星天使投资人名单。(所以你得到了人工智能教父的支持。)已故的苏珊·沃西基在上个月 不幸去世之前也进行了投资。
所有这些聪明人都会错吗?当然。你不用费很大力气就能发现,World Lab 的愿景与最近一个相当戏剧性地淡化的流行词“元宇宙”有多么相似。World Lab 的创始人认为,这种短暂的热潮为时过早,只是基于一些没有合适互动内容的有前途的硬件而昙花一现。他们暗示,大型世界模型可以解决这个问题。据推测,这些世界都不会将人工智能视为停滞不前。
去年,李飞飞出版了一本结合了回忆录和人工智能爱情故事的《我眼中的世界》 。当时,我对这本书大加赞赏,并在一篇题为《李飞飞以算法视角开启人工智能革命》的纯文本中与她进行了讨论。现在,她希望构建以前从未有人见过的世界。
李飞飞是一个性格内向的人,她不愿意谈论自己。但她勇敢地想出了如何将自己 16 岁时移民到美国的经历融入故事中。当时她不会说英语,但她克服了重重困难,成为这项关键技术的关键人物。在担任现职期间,她还担任过斯坦福人工智能实验室主任和谷歌云人工智能和机器学习首席科学家。李飞飞说,她的书结构像一个双螺旋,她的个人探索和人工智能的发展轨迹交织在一起,形成一个螺旋状的整体。“我们继续通过反思自己来看待自己,”李飞飞说。“反思的一部分是技术本身。最难看清的世界是我们自己。”
在她对 ImageNet 的创造和实施的叙述中,这些线索最引人注目地汇聚在一起。李讲述了她决心挑战那些怀疑能否对数百万张图片进行标记和分类的人,包括她的同事,他们怀疑从靠垫到小提琴的庞大类别列表中的每一个至少有 1,000 个示例。这项工作不仅需要技术上的坚韧,还需要成千上万人的汗水(剧透:亚马逊的 Mechanical Turk 帮助实现了这一目标)。只有了解了她的个人经历,我们才能理解这个项目。她无所畏惧地承担如此冒险的项目,这得益于她父母的支持,尽管经济困难,他们坚持让她放弃商界的一份收入丰厚的工作,追求成为一名科学家的梦想。实现这一登月计划将是对他们牺牲的最终认可。
汤姆问道:“当智能手机刚出现时,人们常常谈论使用智能手机的公共礼仪——而现在,在公共场所看到满是盯着手机的人是很常见的。你认为AR头戴设备的礼仪会是什么样的?”
嗨,汤姆,谢谢你的提问。AR 的礼仪不会像AR那样简单,当我们的注意力集中在掌上时,一切都很明显。当公司想出如何将其融入轻量级眼镜中时,增强现实将达到顶峰——有点像 Meta 的热门雷朋眼镜,它目前还没有实现AR ,但将来会实现。我们现在在手机上看到的很多东西都将在平视显示器上可读。
到那时,我们就不会那么明显地意识到,在太阳镜的背后,我们更关注 TikTok、短信和Candy Crush ,而不是我们的晚餐伙伴。公共场所可能看起来不像每个人都在其他地方,但事实确实如此。我预测,触觉技术将是必不可少的,它可以在火车即将开出、门口被堵住或被抢劫时提醒人们。典型的晚餐对话可能是这样的:“你听到我刚才说的话了吗?”[沉默。]“你听到我刚才说的话了吗?[停顿,触摸眼镜的侧板。]“是的,我当然在注意。”餐厅的每一张桌子上都会发生这种情况!
我对礼仪的预测是:即使站在一起,人们最终也会通过短信进行交流,因为如果他们说的话被传送到你的眼球和耳机里,会更有说服力。所以不要再抱怨人们盯着手机了,因为更糟糕的日子即将到来。
您可以将问题提交至mail@wired.com 。在主题行中写上ASK LEVY 。
还有什么比这更热的呢?等着吧。
以下是 Apple 九月发布会上宣布的所有内容。
虽然 iPhone 16 备受关注,但充当助听器的 AirPods可能是苹果最重要的举措
当比特币矿场入驻时,德克萨斯州一个石油小镇的居民就不那么友善了。
据马克·库班称,马克·库班并没有遭遇中年危机。
不要错过本专栏未来的订阅版本。立即订阅《WIRED》(纯文本读者可享受 50% 折扣) 。





