“具身智能黑客松”来啦！巅峰对决，剑指人形机器人最关键的两道题

2026-05-28 15:12

随着这几年AI大模型的发展，各地的黑客松活动越来越多了。近两年的主题，大多都是围绕大模型或Agent，来做具体软件应用。一是因为大语言模型和多模态模型已经相对成熟，具备一定的落地性。二是大家已经有了“有非常牛逼的资源才做得起底层大模型”的共识。但反观硬件方面，特别是具身智能，情况就大不一样了。具身现在还在底层技术的探索期，远未达到成熟，所以相关黑客松活动是少之又少。所以，当我看到下面这个「“开源开放共创共赢”具身智能黑客松赛事」，就决定推荐给做具身的朋友们。

主办方是「北京人形机器人创新中心」和「百度智能云」，所以比赛蛮有含金量的。简单介绍一下。北京人形机器人创新中心，简称北京人形。它是国地共建具身智能机器人创新中心，由京城机电、北京优必选、小米、亦庄机器人四家股东牵头成立，定位是国内首家具身智能软硬件全栈科技公司。

也就是，它不是只做机器人身上的某个零件，而是把机器人本体、数据采集训练、中试生产、标准验证、软硬件测试放在一条链路里做。

它推出过通用机器人平台具身天工，也推出过通用具身智能平台慧思开物。一个更像身体，一个更像让身体学习和进化的底座。

百度智能云，百度家的AI原生云服务平台，强调云智一体、智能优先。百度百舸平台通过自动弹性容错机制，能保障千卡规模集群模型有效训练时长占比达到99.5%，支持具身客户进行VLA、VLM和世界模型的训练与仿真，同时提供开发机、数据集等产品能力，提高模型开发效率，也加强具身数据资产管控。

赛事的具体内容，不同于现在常见的应用项目类黑客松，而是聚焦于具身智能的基础技术。

两条赛道，解决具身两大最关键的问题。

一是“运动控制（Locomotion）”。让人形机器人稳稳地走、跑、过复杂地形，别动不动就摔。

二是“VLA模型微调（Manipulation）”。让机器人看见东西，听懂人的话，再把任务真的做出来。

先站得住，再干得了活。

这就是人形机器人走向现实世界最朴素、也最难的两道门。

具体来说，运动控制赛道，其实是在考机器人最基本、也最底层的能力。

参赛团队会围绕具身天工机器人平台，基于TienKung-Lab、xGMR、xSIM_MUJOCO、Deploy_Tienkung等开源工具链，训练稳定、鲁棒、可迁移的运动控制策略。任务可能覆盖基础步态、复杂地形、速度与姿态控制、抗扰恢复、动作模仿和泛化。

https://github.com/Open-X-Humanoid/TienKung-Lab

听起来技术词很多，但逻辑并不难。

xGMR像一个动作翻译器，可以把人体动捕或视频数据，转成机器人能学习的专家轨迹。TienKung-Lab像训练场，基于IsaacLab开发，把强化学习和人体运动数据结合起来，也用到类似AMP的风格化奖励机制，让机器人不只会动，还尽量动得自然、稳定、高效。

xSIM_MUJOCO像更接近真实世界的模拟环境，靠更细的物理参数映射提高训练质量。TienKung-Lab还支持MuJoCo里的Sim2Sim交叉验证，并改进深度图和激光雷达点云获取。Deploy_Tienkung则像最后一座桥，把仿真里的策略送到真机上。

主办方还贴心提供了TienKung-Lab的配套课程和资料包，可供选手们学习。

https://opensource.x-humanoid-cloud.com/plugin.php?id=keke_video_base&ac=course&cid=17

此外，也有xMIMIC项目。xMIMIC是面向机器人高动态技能的动作训练框架，支持托马斯旋转、舞蹈、跑酷等动作的训练，实现模仿学习与强化优化的一体化训练流程。

线上阶段更看仿真训练和评测，线下阶段会进一步看真机或半实物环境里的Sim2Real能力。

也就是说，不能只在模拟器里跑得漂亮。

真实机器人稳不稳，才是最后的考卷。

这套路线已经有公开验证。TienKung-Lab所承载的运控算法支撑天工Ultra拿下人形机器人马拉松冠军，并已在天工造物局、Github、Gitee等平台开放。

天工1.0lite曾实现全尺寸纯电驱拟人奔跑，并能在斜坡、楼梯、草地、碎石、沙地等地形移动。2024年中关村仿生机器人大赛里，天工拿过竞速、障碍等冠军，并在作业赛中成为唯一完成任务的足式人形机器人。在2025年初，天工奔跑时速从6km/h 提升到了12km/h，也做过视觉感知行走、百级台阶攀登、雪地奔跑和外力冲击下保持平衡。

另一条VLA模型微调赛道，更接近我们想象中的日常机器人。

VLA是视觉、语言、动作。简单说，就是让机器人看见场景，理解一句人话，然后生成一串可以执行的动作。比如识别物体并抓取，单臂或双臂协作，使用工具，把东西放到指定位置，根据语言指令完成多步骤操作，甚至在开放场景下泛化执行。

这事说起来容易，做起来很难，因为看懂不等于做成。

一个模型能说出桌上有杯子，不代表机械臂能把杯子稳稳拿起来。它知道目标在哪里，不代表它知道手该怎么伸、什么时候停、力该用多大。

这就是具身智能和普通多模态AI的差别。

它不只考理解，还考执行。

这条赛道会基于RoboMIND数据集、x-humanoid-training-toolchain、LeRobot适配工具链，以及天工机器人的操作能力，完成模型训练、任务适配与操作策略优化。

https://github.com/Open-X-Humanoid/x-humanoid-training-toolchain

RoboMIND，是标准化、大规模、多本体、多模态的机器人操作数据集。系列累计数据量40余万条，下载量突破600万次，在HuggingFace等平台位居前列。最新的RoboMIND 2.0版本，集成了双臂移动平台、灵巧手操作、触觉数据，并配套了高保真仿真环境及评测开源。

配合开源URDF模型、ROS控制栈和X-Humanoid training toolchain，开发者可以把HDF5格式数据转换成LerobotDataset V2.1格式，更快接入LeRobot框架。

这对小团队很重要。

很多人以为技术创新卡在灵感，其实更多时候卡在脏活。数据格式不统一，训练框架接不上，硬件适配一层层报错。工具链的价值，就是把这些麻烦尽量收起来，让开发者把精力放回真正的问题。

所以这场比赛的资源组合很清楚。

北京人形提供机器人本体、数据、仿真、运动控制工具链、RoboMIND和VLA训练工具链。百度智能云提供算力、数据与AI基础设施。一个更靠近身体，一个更靠近模型训练，合在一起，才像具身智能真正需要的工作台。

比赛激励也很实在。

总奖池高达百万。冠军赠送具身天工3.0本体一台。决赛中表现优秀的队伍，将由北京人形推荐参加世界人形机器人运动会。

完成报名就送算力资源包。作品提交并审核通过后，还能获得具身天工3.0本体购买优惠券，符合条件的队伍共同瓜分总额50万元的采购代金券。

赛事报名及战队征集截止到6月20日。线上初赛及赛事答疑截止到7月底。线下决赛截止到8月中旬。

高校实验室可以带着复杂地形运控、抗扰恢复、VLA多步骤操作这些问题来。机器人公司或AI企业，可以把它当成一次真实压力测试。创业团队也可以把它当成一次直接校验，不看故事讲得多漂亮，看模型和策略能不能在物理世界留下痕迹。

我们过去两年太习惯屏幕里的AI了。问一句，答一段；丢一张图，它能分析；给一个需求，它能写方案。可只要AI走出屏幕，事情立刻变得没那么优雅。

地面不是永远平的，灯光不是永远合适的，杯子不会乖乖摆在标准位置。机械臂抓东西，角度差一点就掉；机器人走路，重心偏一点就晃。

具身智能真正迷人的地方就在这里。

它不是让AI多写几句话，而是让AI面对重力、摩擦、碰撞、延迟、误差，以及那些现实世界里随时冒出来的小麻烦。

这场黑客松值得关注，是因为它把这些小麻烦摆到了开发者面前。

重力、摩擦、细碎的现实难题，困住了 AI，也成就了具身智能，而这场黑客松，便是奔赴这场挑战的起点。

声明：本文为维科号作者发布，不代表维科号立场。如有侵权或其他问题，请及时联系我们举报。