继“快乐小马”后，阿里再发“快乐生蚝”，世界模型元年已来

2026-04-17 10:57

朋友们，阿里最近的AI势头有点猛啊。

还记得前几天的快乐小马「HappyHorse」吧，在视频模型榜单杀疯了。

昨天，同样是阿里ATH事业群，发布了一个名为「HappyOyster」的开放式世界模型。咱也不知道ATH咋这么快乐，上次是小马，这次是生蚝。

在HappyOyster中，可以实时创建世界，并与之交互。看完下面的官方短片，你就知道这是什么，以及它有多强了，HappyOyster提供了两种模式：漫游和导演。

在漫游模式里，你丢给它一句话或一张图，它就能瞬间扩展出一个具备物理一致性的三维空间。

你可以以第一人称视角在里面自由走动，镜头的光影会随着你的脚步自然流转。当你回过头时，刚才路过的那个杯子、那棵树，依然在原地。

这种环境的持续性，是世界模型与普通视频模型的分水岭。目前，它支持长达1分钟的连续实时位移探索。虽然只有480p的分辨率，但那种身临其境的推背感，足以让人头皮发麻。

导演模式则更像是一种即兴创作。它能生成长达3分钟的720p实时画面。

你可以随时喊咔，通过文字、图片甚至语音来修改画面。

这种实时性，让它跟谷歌前段时间发布的Genie 3站在了同一水平线。但相比之下，阿里的HappyOyster走得更远一些。它在时序建模上的跨度更长，而且独家提供了那种随时干预剧情的导演权力。

支撑起HappyOyster世界的，是叫做“原生多模态”的架构。

过去的技术方案像是在搭积木，一个模态负责看，一个模态负责算，最后强行拼凑在一起。这就好比一个乐团，乐手之间互不认识，全靠指挥死撑，效率极低且容易出错。

HappyOyster则是一出生就带着统一的灵魂。它在最底层就完成了文本、图像、音频的流式处理。这意味着，模型在生成的每一毫秒都在接收你的指令，每一帧画面都在实时响应你的念头。

它像是一个懂物理规律的造物主。在它模拟的世界里，光照、重力、角色的动作惯性，都遵循着某种内在的因果逻辑。

如果你是做影视的，这种效率提升简直是降维打击。导演不再需要盯着黑乎乎的剧本空想，也不用等待漫长的后期渲染。你只需要描述一段场景，画面立刻跳出来。不满意？当场改，当场看。

如果你是游戏开发者，在原型阶段，你甚至不需要美工和关卡设计介入。丢一个概念进去，一个可玩、可走、可交互的Demo就出来了。

甚至在文旅和教育领域，它也正在打破现实与虚拟的墙。

想象一下，你直接走进《清明上河图》，去路边摊买一碗宋朝的茶，跟桥上的行人交谈，甚至改变历史的走向。这种从被动观看到深度沉浸的跃迁，才是技术最温情的时刻。

世界模型这类技术，甚至还可以延伸到智能硬件上。当你戴上AR眼镜，HappyOyster可以根据你的动作和环境，实时在你眼前生成一段与现实共振的数字内容。

从HappyHorse到HappyOyster，阿里ATH正在做的事，其实是赋予AI一种“模拟生命”的能力。

我们曾经以为，AI只是一个聪明的万事通，或者一个画技精湛的画师。但现在，它开始尝试构建一个能够自洽运行的宇宙。

在那个宇宙里，每一朵花的绽放，每一滴雨的坠落，都带着真实生命力的灵动。

2026年，也许真的是世界模型的元年。

我们正在从预测下一个字，走向模拟整个世界。这不仅是为了好玩，它是通往物理AI的必经之路。

当数字世界开始拥有重力，当AI开始理解因果，我们离真正的AGI也就并不遥远了。

如果你有任何看法，欢迎在评论区一起讨论

如果有一点收获，可以点赞、转发、推荐文章，关注「AI机器人茶馆」

声明：本文为维科号作者发布，不代表维科号立场。如有侵权或其他问题，请及时联系我们举报。