150元就能让机器人理解物理世界？

2026-06-05 11:27

机器人能识别桌上的瓶子，但它不知道里面的液体会不会洒出来，它能看到一件衣服，但不知道该怎么折叠才不扯坏布料。它能听懂"把球捡回来"的指令，但无法预判球会朝哪个方向滚。

从"看到"到"理解"，中间隔着一条物理定律的鸿沟。

这正是"世界模型"要解决的问题。

2026年6月4日，一家中国公司智在无界BeingBeyond宣布，他们的Being-H-Flash成为全球首个在百TOPS级端侧芯片上实时运行的世界模型。

过去依赖数据中心级GPU、月均算力成本8000元以上的世界模型，现在只需150元/月。

人形机器人缺的是"物理直觉"

先搞清楚一个问题：世界模型跟我们现在常说的AI有什么不同？今天的AI很擅长"识别"，它能认出图片里是一只猫、一段文字里包含什么意图、一句话的指令是什么。

但识别不等于理解。一个机器人看到一瓶糖浆，它可以识别出标签、知道里面有液体，但它不知道如果倾斜太猛会洒出来——因为它不理解惯性、摩擦力和流体力学。

VLA（视觉-语言-行动）模型是目前解决这个问题的主流方式。

但VLA有一个天然局限：它学的是"行为模式"，而不是"物理规律"。机器人通过大量示教数据学会了拿杯子这个动作，但如果换一个材质、换一个重量、换一个摆放角度，它的成功率就可能大幅下降。

世界模型要解决的就是这个问题。

它要在机器人的认知里加入一层"物理直觉"——预判物体的运动轨迹、预判接触后的反馈、预判任务演化的方向。球会滚向哪里、衣服如何变形、液体是否会溢出——这些在人类看来近乎本能的能力，对机器来说却是最难的。

但过去的世界模型有一个致命问题：太贵了。

目前世界模型有两条技术路线。

◎ 显式路线的代表是英伟达的Cosmos-Policy。

它的逻辑是：让模型逐帧生成未来的画面，通过"视频预测"来理解未来的状态。简单说，就是让模型不断脑补出"如果这样做，接下来会发生什么"的连续画面，然后据此决策。听起来很直观。

但代价巨大——像素级的视频生成需要巨额算力。你得让GPU持续渲染画面，而其中大部分视觉细节跟机器人要做的决策毫无关系。

这就像一个快递分拣员在看高清电影来判断下一个包裹应该放哪里——信息过度，成本失控。

◎ 隐式路线则是智在无界的Being-H系列所开创的。

它不做像素级视频预测，而是在感知与动作之间引入一组可学习的latent query，把"预测未来"这件事从像素空间转移到潜空间。模型不再生成未来画面，而是直接在未来状态的表征空间中进行推理。

你可以这样理解两者的区别：显式模型像一个运动员，反复观看对手比赛录像来预判下一步。他看得越仔细，预判越准——但消耗的时间和精力也越大。

隐式模型像一个经验丰富的老将，不需要看完整场比赛录像，只看几个关键信号就能判断对手的意图。他"感觉"到了球会往哪里走。他判断的不一定比看录像更准，但快得多、省力得多。

隐式路线也有代价，对数据规模和预训练管线的要求更高。Being-H0.7使用了超过20万小时第一人称人类视频和1.5万小时机器人示教数据。正是因为这种奢侈的预训练，才让模型在推理阶段变得"轻快"。

当世界模型跑在端侧芯片上

Being-H-Flash这次的核心突破是模型终于能在端侧跑了。在A800等高端GPU上，Being-H-Flash的推理速度达到30~45FPS，这不算什么。

真正亮眼的是在百TOPS级端侧芯片上，它依然能达到接近20FPS的实时效果。

而英伟达Cosmos-Policy在同类平台上大多停留在个位数FPS。100TOPS差不多是一块NVIDIA Orin NX的算力水平，车载级、甚至消费级芯片。这意味着机器人在端侧就能完成世界模型的推理，不需要联网、不需要等云端返回。

围绕不同部署需求，智在无界规划了三个产品层级：

◎ Being-H-aura面向通用场景，提供标准推理能力，相比显式方案快2~3倍。

◎ Being-H-ventus融合自研推理加速技术，在不损失模型能力的前提下提升端侧运行效率。

◎ Being-H-procella是旗舰版，可针对具体机器人本体和芯片平台深度定制，面向百TOPS级芯片实时部署。

Being-H-procella已同时完成英伟达与国产芯片平台适配——对于全新的芯片架构，只需2~4周即可完成定制化部署。

国产世界模型+国产芯片，从愿景走向了可验证的工程实践。

讲技术讲到最后，还是要算账。

BeingBeyond做了一组测算：单台机器人每天扫码2000件快递。在同类任务下，NVIDIA Cosmos以及其他显式世界模型因为难摆脱对高性能GPU的依赖，月均算力成本都在8000元以上。

Being-H-Flash是多少？约150元/月。降低了98%。

甚至比VLA代表模型π0.5还要低。这个成本变化的逻辑很简单：显式模型需要GPU做视频生成——这是极度昂贵的计算任务。

隐式模型不做视频生成，只做潜空间推理——计算量降了一个数量级。跑在端侧芯片上，功耗和硬件成本也随之下降。

市场对成本极度敏感。无论能力多强，成本下不来就难以规模化。机器人部署企业不再需要在"模型能力"和"部署成本"之间做极端取舍。世界模型变成了一项可配置的日常开支，而不是一笔巨额投资。

BeingBeyond并不是一家老牌公司。创始人卢宗青是北京大学计算机学院长聘副教授，公司2025年5月才成立。

但这家公司在一年内完成了从1000小时到1万小时到20万小时人类视频预训练的三级跨越。他们把提升数据规模叫做"第一级跃迁"，把提升推理效率叫做"第二级跃迁"。Being-H-Flash就是第二级跃迁的集中体现。

今天之前，世界模型是一个让人兴奋的学术概念。今天之后，世界模型开始变成一项可交付、可部署、可规模化复制的产品。过去只有高端硬件才能运行的世界模型，开始具备进入仓储物流、工业产线、商超家庭等更多场景的可能。

当机器人的"物理直觉"真正上线，不需要云端支持就能预判物理世界的变化，机器人在真实物理空间中的行为能力将发生很大的变化。

小结

150元就能让一台机器人拥有"物理直觉"，今天已经变成真的了，我们对机器人可以有更好的期待。

声明：本文为维科号作者发布，不代表维科号立场。如有侵权或其他问题，请及时联系我们举报。