
作者:彭堃方 编辑:吕鑫燚 出品:具身研习社
智源大会上,具身智能企业上演“华山论剑”。
今年的重点落在了世界模型,这也是当下最拥挤、也最容易被误读的技术。有人从语言出发,有人从视频生成出发,有人从 3D 重建出发,也有人从隐空间表征出发。不同路线之间,看似各有山头,但放到具身智能里,一个朴素的共识正在形成:机器人要真正进入物理世界,必须学会“预测下一个物理状态”。
像“预测下一个token”一样,这条路乍一听很熟悉,但落到机器人身上很难。因为机器人面对的不是静态图像,也不是可以撤回重写的一段文本,而是一个被自己动作持续改变的物理世界。手伸出去,物体会移动;脚迈出去,重心会变化;夹爪闭合,接触关系会发生改变。每一次动作都会改写环境,也会改写后续动作的可能性。
所以,世界模型对具身智能的价值,不只是让机器人“知道世界会怎么变”,更关键的是让它在行动之前先想一遍:如果我这样做,会不会错?这也是星源智在智源大会上发布具身交互世界模型 ω-EVA 的关键所在。
在模型发布前的圆桌上,星源智创始人兼 CEO 刘东预告了ω-EVA 的两个核心点:一是目前世界上最快的、可端侧部署的具身世界模型;二是把动作交互作为一个反思闭环加进去,让模型不只预测下一个物理状态,还能基于一个动作做出反思,选择更正确的路线去执行。
这两个点,正好对应了今天具身智能最现实的两道门槛:技术上,世界模型不能只停留在论文、榜单和云端大算力里;商业上,模型必须能进入机器人本体,进入真实任务,进入交付链条。
星源智这家公司的特殊性也在这里。它并没有把“世界模型”做成一个宏大的概念标签,而是把它压进动作决策、端侧推理和商业落地里。值得一提的是,这家成立仅 10 个月、融资 10 亿的具身大脑公司,已经以整体方案解决商的身份,拿下了 70% 本体厂商份额。
这让星源智呈现出一种很特别的位置:它不是本体厂商,却越来越多地出现在本体厂商背后;它不追逐造一台最像人的机器人,却试图成为更多机器人背后的“大脑”和“端侧底座”,让它们像人一样生产生活。
换言之,如果说具身智能行业正在从演示走向部署,那么星源智想抢占的,正是这场迁移里最关键的基础设施位置。

过去讨论世界模型,人们往往习惯把重点放在“预测”上。
预测下一帧视频,预测未来状态,预测物理变化,预测环境演化。这个方向当然重要。对于机器人来说,只有理解未来,才可能摆脱单步反应,进入连续任务。但预测本身并不等于控制,知道未来可能发生什么,也不意味着机器人一定知道现在该怎么做。
星源智这次提出的 ω-EVA,真正想推进的是后半步:让预测进入动作修正。
模型名称里的 EVA 分别对应 Envision、Verify、Act,也就是预演、验证、行动。机器人先生成候选动作,再在潜在空间中预演这个动作可能带来的后果,随后根据这个后果反馈修正动作,最后再执行。ω 取自 Omega,指向“以终为始”的动作生成方式:不是从当前状态一路莽过去,而是先看见动作可能导向的结果,再反过来修正当前动作。
这套逻辑和人类行动很接近。一个人端起一杯咖啡之前,并不会在脑中生成一段高清视频,但他会隐约判断杯子会不会晃、手腕角度是否合适、递过去时对方能不能接住。一个熟练的工人搬动物料时,也不会每一步都重新计算物理公式,却能预判这个动作会不会碰撞、会不会卡住、会不会影响下一步。
机器人过去缺的,恰恰是这种行动前的内在校验,ω-EVA 把世界模型安放在这个关键缝隙里。

它的过程可以概括为三步:Proposal、Latent Consequence、Refinement。先提出动作,再想象后果,再重写动作。这里的“想象”并不是生成一段给人看的未来视频,而是在潜在特征空间里推理这个动作可能导致的结果。最后,refiner 会把当前状态、想象后果和原始动作提案联合起来,输出修正后的动作片段。
这看似是一个技术细节,背后却是世界模型角色的变化。
过去,很多世界模型更像训练辅助工具,帮助模型形成更好的表征,或者作为离线模拟器提供额外数据。ω-EVA 想把它变成动作生成过程里的反馈模块。世界模型不再只是回答“未来会怎样”,还要进一步回答:“如果执行这个动作,未来会怎样?如果这个后果不好,动作该怎么改?”
这也是星源智反复强调“交互世界模型”的原因。星源智联合创始人孙振国表示,交互世界模型中的“交互”,核心目的是探索世界模型在实际机器人系统中的有效使用方式。目前世界模型的技术路线尚未收敛,业界仍在尝试如何将其真正应用于最终的控制策略(policy),并提升控制效果。
他指出,如果仅将世界模型作为传统训练中的一个额外信号,用于约束表征空间等,其实际发挥的作用非常有限。因为引入世界模型带来的训练成本,远高于它所能贡献的那几个百分点甚至零点几个百分点的性能提升。在这种情况下,继续沿着VLA路线深入探索更高效的模仿学习架构,反而更有意义。
孙振国认为,世界模型真正的核心价值在于其对未来的强大预测能力——在空间和时间维度上具备整体理解优势,远超单纯基于VLM的VLA基座。基于这一判断,他们提出了“交互”的概念:让世界模型真正参与到动作决策的闭环中,通过与环境的交互,利用其对未来的预测来进一步优化当前的动作,形成反馈优化回路。这种交互机制能够让系统成为一个自我进化、自我提升的智能体,从而最大化地发挥世界模型的价值,同时更好地平衡开发成本与实际收益。
从这个角度看,ω-EVA 具身交互世界模型把世界模型原本强调的“预测世界”概念又往“修正行动”推了一步。并且沿着这条路走,世界模型的探索才更具落地意义,否则只会是“更烧钱”的新词。

但具身智能的难题从来不止在算法。
一个世界模型再聪明,如果只能在云端大算力上跑,或者只能在桌面 GPU 上做演示,它离机器人真实部署仍然有很远距离。机器人需要移动,需要避障,需要抓取,需要和环境发生连续交互。它不能每一步都等待云端返回,也不能永远拖着一根线在实验室里行动。
端侧部署因此成了具身大脑的生死线。
刘东在专访中提到,如果模型不能放在机器人里运行,机器人就需要依赖有线连接或无线传输。但真实机器人通常会搭载多个摄像头、激光雷达和其他传感器,要把这些数据实时传到云端,带宽和延迟都会成为巨大问题。更重要的是,机器人控制有频率要求,感知、推理和执行都必须在很短时间内闭合。端侧跑不起来,机器人就很难真正摆脱演示状态。
这也是多数视频生成式世界模型在具身场景里面临的工程瓶颈,比如前段时间登榜的英伟达DreamZero。生成未来视频听起来很直观,但对机器人控制并不经济。机器人不一定需要一段清晰、完整、可观看的未来影像,它更需要的是关键状态变化:会不会撞、会不会掉、会不会偏、会不会影响下一步。把大量算力花在像素级未来生成上,很多时候并不能直接转化为动作质量。
星源智选择的是在 latent feature space 中完成后果推理。也就是说,模型保留后果推理,但不把未来解码成完整视频,不依赖额外的像素级模拟器或多轮 rollout 搜索。这种路线的好处是更轻,更快,也更接近端侧实时控制所需的工程形态。
技术路线背后,其实是一种产业判断:具身世界模型不能只追求看起来生成的更像未来的“世界全貌”,那只能是一种学术上的路径探索。
如果未来预测不能进入动作修正,它只是模型内部的一种表征;如果未来预测太重,无法端侧部署,它也难以成为机器人身体的一部分。真正有价值的世界模型,必须同时满足可反馈、可重写、可部署。可反馈,意味着预测结果要能进入控制决策;可重写,意味着它不只是评估动作,而是能推动动作改写;可部署,意味着它能在机器人端侧实时运行。
这也是星源智把具身大脑和端侧算力平台一起做的原因。
在智源大会现场,星源智展示了围绕机器人端侧智能构建的产品体系,包括面向高性能本体部署的 N5、面向量产机器人与多类本体适配的 T5,以及面向灵活扩展与外接部署的算力背包。T5 已搭载于智元精灵 G2 等机器人本体,支持任务理解、动作规划与实时执行;N5 则面向更高算力需求和复杂场景任务,支撑多模态感知、世界模型推理与端侧闭环控制。

这种软硬一体的路径,决定了星源智并不只是一个“模型公司”。
它更像是具身智能时代的端侧 Infra 提供者。模型、算力平台、传感器方案、任务理解、动作规划、端侧推理,这些能力被打包成一套可以适配不同本体的解决方案,交给本体厂商进入数采、测试和部署。
这也解释了为什么星源智的商业叙事并不只围绕模型参数、论文指标或单点能力展开,而是反复强调“部署态”。
因为具身智能真正的分水岭,不能只看机器人能不能在展台上完成一次漂亮演示,而要更多地强调它能不能在本地、实时、稳定地把感知、理解、决策和执行跑成闭环。端侧部署是技术问题,也是商业问题。它决定模型能不能离开实验室,进入客户现场;决定机器人能不能从“能动”走向“能干”;也决定一家具身大脑公司能不能从概念提供者变成产品供应商。

刘东在圆桌上提到,接下来的一年将是机器人部署落地元年。
这句话放在今天的具身赛道里很有警醒意味。一边,行业仍然沉浸在模型路线、数据规模、世界模型、VLA、WAM 等技术讨论中;另一边,真正进入生产环节、真实场景和客户交付的机器人仍然不多。很多机器人还停留在 demo、评分榜单和发布会视频里,模型在物理世界中的“体感”并不充分。
这会带来一个问题:如果模型永远只在实验室里被验证,行业很难知道技术路线到底有没有走对。

具身智能需要长期主义,但不能无限等待一个抽象的“ChatGPT 时刻”。大语言模型的爆发有自己的路径,机器人行业未必完全复刻。对具身智能来说,更可能出现的路径是:先在一部分结构化、半结构化场景里打磨能力,把模型推向真实任务,再通过数据、反馈和部署形成循环。
这更像是一个从垂类开始的“Claude Code”式路径:先把一类真实问题解决到足够好,再逐渐外溢到更复杂的场景。
星源智的落地逻辑也沿着这条线展开。
在采访中,刘东提到,具身落地不应该被局限在人形机器人或轮式双臂上。任何一辆车辆、叉车、搬运设备、拣选机械臂,只要装配了拟人化的大脑,可以像人一样理解环境和任务,就可以成为具身设备。这个判断很重要,它把“具身智能”的边界从人形机器人的外观里解放出来,重新落回“智能体与物理世界交互”的本质上。
具身叉车就是一个典型案例。叉车自动化并不是新问题,传统方案早已存在。但在真实物流场景里,卡车形态各异,货物形态各异,托盘状态也不统一。传统基于规则的方法,对位置、条件和流程的要求很高,一旦场景稍微变化,泛化能力就会不足。星源智试图把世界模型和具身大脑放到叉车上,让它识别不同情形,规划卸货逻辑,判断先卸什么、后卸什么,避免碰撞和遗漏,再一步步执行。

在智源大会现场,星源智还展示了动态产线分拣、机器狗清洁官、机器人咖啡服务、华容道世界模型互动等场景。流水线分拣考验的是动态目标识别、连续流程判断和跨本体协同;机器狗清洁官考验的是开放环境中的目标发现、路径判断、避障与任务状态检查;咖啡服务考验的是任务链执行和精细操作;华容道则更直观地展示了连续决策和后果预演。
这些展示放在一起,其实呈现的是同一条能力链:感知、理解、规划、行动、反馈。这条链条越完整,星源智作为“具身大脑供应商”的位置越清晰。
刘东在采访中把星源智比作行业里“卖铲子的人”。这不是一个谦虚的说法,反而是一种很强的商业定位。具身智能的淘金热还在早期,本体厂商众多,路线各异,形态分散。不是每一家本体公司都有能力、资金和时间从底层模型、端侧算力、传感器方案、任务规划到场景数据全部自研。尤其在真正销量起来之前,全栈自研的经济账并不好算。
这和自动驾驶行业有相似之处。少数头部车企会坚持自研智驾,但更多车企会选择华为、Momenta 这样的供应商合作。具身行业也可能出现类似分工:少数头部本体公司全栈闭环,大多数本体厂商围绕自己的硬件能力、制造能力和场景资源,选择外部大脑方案。
星源智想站的就是这个位置。它自己不做本体,因此可以和更多本体厂商合作;它提供模型、端侧算力平台和端侧 Infra,帮助本体厂商进入数采和部署态;它通过不同场景的数据积累,反过来增强模型和跨本体适配能力。
目前,星源智作为软硬一体方案解决商,已覆盖国内超过70%的头部具⾝智能公司,成为英伟达Jetson Thor平台的全球最⼤出货商。
这些商业份额不只是一个市场数字,更说明具身赛道正在出现新的产业分工。本体厂商负责把身体造出来,把成本、供应链、形态和场景入口打磨出来;具身大脑与整体方案解决商负责把模型、端侧算力和智能闭环接进去。行业不可能长期停留在每家公司都从零造全栈的阶段,随着交付压力上升,分工会变得越来越现实。
星源智的机会,就来自这种现实。
具身赛道需要自己的“华为”
成立 10 个月,融资 10 亿,拿下 70% 本体厂商份额,星源智身上有很强的速度感。
但真正值得讨论的,还不是这家公司跑得有多快,而是它踩中了具身智能从技术热潮走向产业分工的关键节点。过去一年,行业最热闹的是模型概念;接下来,行业真正要面对的是模型如何部署、如何交付、如何适配不同本体、如何进入真实任务闭环。
这也是“具身华为”这个说法有想象力的地方。
华为之于智能汽车,并不只是一个供应商,而是在整车厂之外,提供了一整套可被采用、可被交付、可被持续迭代的智能化底座。具身智能如果要走向大规模落地,也需要类似的基础设施角色:它不一定站在台前造每一台机器人,但会进入越来越多机器人的身体里,成为它们理解世界、规划任务、执行动作的共同底座。
当然,具身智能比智能汽车的场景更分散,也更难。车至少都在路上跑,而机器人要进入工厂、仓库、家庭、公共空间、服务场景、危险作业现场。每个场景都有自己的数据、规则、物体和交互方式。正因为如此,具身大脑供应商的壁垒也不会只来自模型参数,而来自模型能力、端侧工程、跨本体适配、场景数据和行业 Know-how 的复合积累。
未来的机器人行业,不会只奖励会讲故事的公司,也不会只奖励会做 demo 的公司。真正的竞争会逐渐回到一个更朴素的问题:谁能让机器人稳定进入真实任务,谁能让本体厂商更快完成部署,谁能把模型从云端、论文和发布会带到机器人的身体里。
星源智押注的,正是这个转折点。
当世界模型从预测未来走向修正行动,当具身大脑从技术概念走向端侧部署,当本体厂商从各自造脑走向产业协同,具身智能才真正开始接近它的产业化时刻。机器人部署落地元年,行业需要的不只是更大的模型,也是一批能把模型送进真实世界的人。星源智想成为的,正是这样一个送模型下场的人。