机器人能识别桌上的瓶子,但它不知道里面的液体会不会洒出来,它能看到一件衣服,但不知道该怎么折叠才不扯坏布料。它能听懂"把球捡回来"的指令,但无法预判球会朝哪个方向滚。
从"看到"到"理解",中间隔着一条物理定律的鸿沟。
这正是"世界模型"要解决的问题。
2026年6月4日,一家中国公司智在无界BeingBeyond宣布,他们的Being-H-Flash成为全球首个在百TOPS级端侧芯片上实时运行的世界模型。
过去依赖数据中心级GPU、月均算力成本8000元以上的世界模型,现在只需150元/月。
01
人形机器人缺的是"物理直觉"
先搞清楚一个问题:世界模型跟我们现在常说的AI有什么不同?今天的AI很擅长"识别",它能认出图片里是一只猫、一段文字里包含什么意图、一句话的指令是什么。
但识别不等于理解。一个机器人看到一瓶糖浆,它可以识别出标签、知道里面有液体,但它不知道如果倾斜太猛会洒出来——因为它不理解惯性、摩擦力和流体力学。
VLA(视觉-语言-行动)模型是目前解决这个问题的主流方式。
但VLA有一个天然局限:它学的是"行为模式",而不是"物理规律"。机器人通过大量示教数据学会了拿杯子这个动作,但如果换一个材质、换一个重量、换一个摆放角度,它的成功率就可能大幅下降。

世界模型要解决的就是这个问题。
它要在机器人的认知里加入一层"物理直觉"——预判物体的运动轨迹、预判接触后的反馈、预判任务演化的方向。球会滚向哪里、衣服如何变形、液体是否会溢出——这些在人类看来近乎本能的能力,对机器来说却是最难的。
但过去的世界模型有一个致命问题:太贵了。
目前世界模型有两条技术路线。
◎ 显式路线的代表是英伟达的Cosmos-Policy。
它的逻辑是:让模型逐帧生成未来的画面,通过"视频预测"来理解未来的状态。简单说,就是让模型不断脑补出"如果这样做,接下来会发生什么"的连续画面,然后据此决策。听起来很直观。
但代价巨大——像素级的视频生成需要巨额算力。你得让GPU持续渲染画面,而其中大部分视觉细节跟机器人要做的决策毫无关系。
这就像一个快递分拣员在看高清电影来判断下一个包裹应该放哪里——信息过度,成本失控。
◎ 隐式路线则是智在无界的Being-H系列所开创的。
它不做像素级视频预测,而是在感知与动作之间引入一组可学习的latent query,把"预测未来"这件事从像素空间转移到潜空间。模型不再生成未来画面,而是直接在未来状态的表征空间中进行推理。
你可以这样理解两者的区别:显式模型像一个运动员,反复观看对手比赛录像来预判下一步。他看得越仔细,预判越准——但消耗的时间和精力也越大。
隐式模型像一个经验丰富的老将,不需要看完整场比赛录像,只看几个关键信号就能判断对手的意图。他"感觉"到了球会往哪里走。他判断的不一定比看录像更准,但快得多、省力得多。
隐式路线也有代价,对数据规模和预训练管线的要求更高。Being-H0.7使用了超过20万小时第一人称人类视频和1.5万小时机器人示教数据。正是因为这种奢侈的预训练,才让模型在推理阶段变得"轻快"。

02
当世界模型跑在端侧芯片上
Being-H-Flash这次的核心突破是模型终于能在端侧跑了。在A800等高端GPU上,Being-H-Flash的推理速度达到30~45FPS,这不算什么。
真正亮眼的是在百TOPS级端侧芯片上,它依然能达到接近20FPS的实时效果。
而英伟达Cosmos-Policy在同类平台上大多停留在个位数FPS。100TOPS差不多是一块NVIDIA Orin NX的算力水平,车载级、甚至消费级芯片。这意味着机器人在端侧就能完成世界模型的推理,不需要联网、不需要等云端返回。

围绕不同部署需求,智在无界规划了三个产品层级:
◎ Being-H-aura面向通用场景,提供标准推理能力,相比显式方案快2~3倍。
◎ Being-H-ventus融合自研推理加速技术,在不损失模型能力的前提下提升端侧运行效率。
◎ Being-H-procella是旗舰版,可针对具体机器人本体和芯片平台深度定制,面向百TOPS级芯片实时部署。
Being-H-procella已同时完成英伟达与国产芯片平台适配——对于全新的芯片架构,只需2~4周即可完成定制化部署。
国产世界模型+国产芯片,从愿景走向了可验证的工程实践。
讲技术讲到最后,还是要算账。

BeingBeyond做了一组测算:单台机器人每天扫码2000件快递。在同类任务下,NVIDIA Cosmos以及其他显式世界模型因为难摆脱对高性能GPU的依赖,月均算力成本都在8000元以上。
Being-H-Flash是多少?约150元/月。降低了98%。
甚至比VLA代表模型π0.5还要低。这个成本变化的逻辑很简单:显式模型需要GPU做视频生成——这是极度昂贵的计算任务。
隐式模型不做视频生成,只做潜空间推理——计算量降了一个数量级。跑在端侧芯片上,功耗和硬件成本也随之下降。
市场对成本极度敏感。无论能力多强,成本下不来就难以规模化。机器人部署企业不再需要在"模型能力"和"部署成本"之间做极端取舍。世界模型变成了一项可配置的日常开支,而不是一笔巨额投资。
BeingBeyond并不是一家老牌公司。创始人卢宗青是北京大学计算机学院长聘副教授,公司2025年5月才成立。
但这家公司在一年内完成了从1000小时到1万小时到20万小时人类视频预训练的三级跨越。他们把提升数据规模叫做"第一级跃迁",把提升推理效率叫做"第二级跃迁"。Being-H-Flash就是第二级跃迁的集中体现。
今天之前,世界模型是一个让人兴奋的学术概念。今天之后,世界模型开始变成一项可交付、可部署、可规模化复制的产品。过去只有高端硬件才能运行的世界模型,开始具备进入仓储物流、工业产线、商超家庭等更多场景的可能。
当机器人的"物理直觉"真正上线,不需要云端支持就能预判物理世界的变化,机器人在真实物理空间中的行为能力将发生很大的变化。
小结
150元就能让一台机器人拥有"物理直觉",今天已经变成真的了,我们对机器人可以有更好的期待。