具身智能初创公司Rhoda AI宣布完成4.5亿美元融资,62岁创始人又一次大胆的创业冒险!

近日,2024 年成立、总部位于硅谷帕洛阿尔托的美国具身智能初创公司 Rhoda AI 官宣完成 4.5 亿美元 A 轮融资,同时推出直接视频动作模型(DVA),并发布基于视频预测控制的机器人智能方法 FutureVision。

这家创立后便处于 “隐身模式” 的公司,此番一举拿下顶级资本注资,背后不仅是技术路径的硬实力,更离不开其星光熠熠的创始团队,而这笔吸引了 Capricorn Investment Group、Khosla Ventures、淡马锡等顶级机构及 John Doerr 等硅谷领袖入局的融资,也让机器人突破实验室限制、适配真实工业场景的目标有了新的落地可能。

Rhoda AI 的创始团队在融资前始终低调,但创始人兼 CEO Jagdeep Singh 却是硅谷响当当的连续创业者,此番跨界布局具身智能,已是他又一次大胆的创业冒险。早在 25 年前,Jagdeep Singh 便创办光网络公司 Lightera Networks,仅一年半就以 5 亿美元卖给 Ciena;随后他联合创办 Infinera,带队从初创一路走到 IPO,这家公司后来被诺基亚以 23 亿美元收购。

2010 年,电动汽车行业尚处起步阶段,主流电池技术还是液态锂电池,Singh 却做出跨界做固态电池的疯狂决定,押注能量密度接近汽油的固态技术,这家名为 QuantumScape 的公司,在他的带领下经历了十年的隐身打磨。2020 年,QuantumScape 通过 SPAC 上市,市值一度冲破 500 亿美元(约合 3445.85 亿元人民币),更是获得大众汽车的持续投资,而 Singh 本人也成为全球薪酬最高的 CEO,其 2024 年薪酬包包含价值 23 亿美元(约合 158.51 亿元人民币)的股票期权,折合日薪约 48 亿卢比(约合 3.6 亿元人民币)。

Rhoda AI 创始人兼 CEO Jagdeep Singh

就在所有人都以为 62 岁的 Singh 会功成身退时,他却再次开启新征程:2024 年卸任 QuantumScape CEO 后,转身创办 Rhoda AI,这一次他要做的,是给机器人造 “大脑”。除了 Singh,Rhoda AI 的创始团队还有两位核心人物,联合创始人兼 CTO 陈志强是美国斯坦福大学博士,曾任职于 NASA 喷气推进实验室、谷歌、英伟达、World Labs,拥有深厚的技术研发积淀;另一位联合创始人 Gordon Wetzstein 是斯坦福大学电气工程系副教授,研究领域横跨计算机图形学、计算机视觉、人工智能、计算光学等多个方向,多领域的技术背景为团队搭建起扎实的研发基础。

工业机器人的应用瓶颈,早已在产业实践中凸显。传统工业机器人在结构化环境中能精准完成预设程序的重复动作,但面对布局变化、陌生物体、不可预测的工作流程等现实变量时,极易陷入 “失灵” 状态。近年来兴起的视觉 - 语言 - 动作(VLA)模型,让机器人具备了从数据中学习的能力,在实验室环境中取得了不错的成果,但依旧难以应对真实世界的复杂变化,实验室与实际应用场景之间的鸿沟,始终是具身智能规模化落地的核心障碍,而 Rhoda AI 的核心探索,正是瞄准这一行业痛点展开。

Singh 为 Rhoda AI 定下的技术路径依旧另类:不让机器人 “手把手学”,而是让它自己看数亿条互联网视频,从中理解杯子会碎、球会滚、物体会遮挡的物理常识,把 “物理常识” 装进机器人的脑子里。这一思路落地为 Rhoda AI 独创的直接视频动作(DVA)模型架构,以及 “互联网规模视频预训练 + 闭环视频预测控制” 的核心技术路径,这也是其区别于传统机器人训练方式的关键。与依赖远程操控机器人轨迹的传统方法不同,Rhoda AI 先通过数亿个视频对模型进行预训练,让模型构建起关于运动、物理规则和物理交互的强先验知识,让机器人先形成对世界运动方式的底层理解,而非单一任务的执行逻辑。

完成基础预训练后,仅需少量机器人专属数据进行后训练,就能让模型学会特定的机器人行为,以及从视频预测到机器人实际动作的映射。最终落地的系统会以闭环模式持续运行:持续观察环境后,以视频形式预测未来状态,将预测转化为实际动作并执行,再重新观察环境,这一整套流程每几百毫秒就会重复一次。这种闭环模式让 DVA 系统能根据环境变化动态更新行为,实现实时物理感知控制,而这也是开环方法难以实现的 —— 开环方法在生成计划时缺乏持续反馈,无法适配动态的现实环境。

依托原生自回归视频预训练积累的强运动先验知识,DVA 模型让机器人的学习效率实现了质的提升,学习新任务通常仅需十小时的远程操作数据,大幅降低了机器人适配新任务的时间和成本。而此次发布的 FutureVision,正是基于 DVA 架构搭建的智能层,作为 Rhoda AI 系统的基础模型,其未来还将授权给合作伙伴,适配不同的机器人硬件和软件平台,让这套技术具备了规模化复制和落地的基础。正如 Singh 所言:“下一代机器人技术需要能够理解世界运动方式的模型 —— 而不仅仅是理解它的外观或语言描述。”

目前,Rhoda AI 的技术已经在实际生产环境中得到验证,展现出了无人工干预的自主运行能力。在最近的大批量生产评估中,其组件加工工作流程能在每个周期内无需人工干预完成,且耗时不到两分钟,超出了客户的关键绩效指标(KPI)。现阶段,Rhoda AI 已与制造业和物流业的领先工业合作伙伴展开合作,这两大行业也是具身智能落地的核心场景,其生产和作业过程中频繁出现的物料变化、布局调整、流程变动,正是传统机器人的短板,而这恰好是 DVA 模型适配动态环境能力的用武之地。

此次斩获的 4.5 亿美元 A 轮融资,其用途也有着明确的规划,将全部用于支持持续的研发投入、扩大工业部署和客户试点项目,以及壮大涵盖生成式人工智能、计算机视觉和机器人技术的多学科团队。研发的持续投入将推动 DVA 模型的进一步迭代,工业部署和试点的扩大则能积累更多真实场景的应用数据,而多学科团队的建设,能为技术落地提供更全面的支撑,这一系列动作将形成 “技术研发 - 场景落地 - 数据积累 - 模型优化” 的正向循环,推动技术与产业的深度融合。

Rhoda AI 的此次动作,不仅是一家初创公司的技术和融资突破,更折射出全球具身智能赛道的发展趋势:从实验室的技术研发,逐步走向真实产业场景的落地应用。当下,具身智能成为人工智能领域的重要赛道,玩家们都在探索从技术到产业的转化路径,而有着连续成功创业经验的 Singh 带队布局,以独树一帜的视频预训练技术路径打破行业痛点,让 Rhoda AI 成为赛道中备受关注的新星。

其实践也证明,只有抓住真实场景的核心痛点,通过技术创新打通从训练到应用的链路,才能让具身智能真正走出实验室,成为推动工业升级的实际生产力。对于整个具身智能行业而言,Rhoda AI 的 DVA 模型和落地思路,也提供了重要的参考方向,视频预训练与闭环控制的结合,或将成为机器人适配真实环境的主流路径之一。而随着更多玩家加入技术探索和产业落地,具身智能机器人从实验室走向千行百业,真正成为工业生产、物流作业中的核心生产力,或许将不再是遥远的目标。

声明:本文为维科号作者发布,不代表维科号立场。如有侵权或其他问题,请及时联系我们举报。