案例

BOB半岛:人形机器人真要落地了！“赛博保姆”开年震圈创企融资

来源：BOB半岛官网入口添加时间：2024-12-23 10:36:25

　　，其重要程度仅次于大型语言模型（LLM），“我们距离物理AI智能体的ChatGPT时刻还有3年。”

　　然而，机器人企业“狂欢”之下，其宣传视频的真实性、机器人产品的实用性等也引发了争议。不少网友指出，这些演示似乎存在剪辑等方面的误导性工作。

　　那么具体来看，AI机器人现在都能做些什么？五花八门的行为背后究竟是自主执行，还是人为操控？AI机器人赛道目前的发展处于什么阶段？在落地层面还面临哪些痛点？智东西与开普勒探索机器人首席执行官胡德波，优必选联合创始人、首席技术官兼执行董事熊友军等从业者进行了深入交流，寻找这些问题的答案。

　　胡德波谈道，AI机器人最可能先落地的场景主要集中在简单重复的、相对可控的任务上，包括工业制造场景、仓储物流场景以及一些危险性的场景等。他认为调用云端大模型所带来的实时性问题，是落地层面目前最大的痛点。

　　谈到AI机器人落地的痛点，熊友军从数据、场景、安全性以及迁移成本等方面进行了分析。例如现有的训练数据大多基于桌面，与实际场景中的应用有很大差距，大模型的不可解释性可能导致类似于语言模型中的“幻觉”等问题。

　　如果说在去年年末，预告2024年将成为“机器人之年”还只是空喊口号，那么今年以来，斯坦福、谷歌、Figure、特斯拉在不到一个月的时间内接连发布了6项以上的新演示或新进展，则为这一观点提供了有力的论据。

　　先是1月4日凌晨，来自斯坦福大学的三人团队放出了基于Mobile ALOHA系统的机器人演示视频，展示了机器人如何完成复杂的移动操控任务，无论是烹饪、清洁桌面，还是按电梯按钮并乘坐电梯，都不在话下。

　　团队开源了Mobile ALOHA系统的全部软件、硬件和数据，从材料清单来看，硬件成本共约3.18万美元，折合人民币约22.8万元。

　　据介绍，Mobile ALOHA是一种用于数据收集的低成本全身远程操作系统，在训练过程中，每项任务只进行了50次演示，其中的关键在于使用Mobile ALOHA收集的数据执行监督行为，与静态的ALOHA数据协同训练，可将成功率提高90%。

　　ALOHA则是一个用于双手远程操作的低成本开源硬件系统，由来自斯坦福、UC伯克利、Meta等机构的团队发布于去年3月，Mobile ALOHA是在其基础上的迭代。

　　Mobile ALOHA一经发布便火爆全网，而不到24小时之后，谷歌DeepMind就在1月4日深夜连发三项新进展AutoRT、SARA-RT和RT-Trajectory，用于提升机器人的速度、数据收集以及泛化能力。

　　这三项新进展都基于DeepMind的RT-2模型（Robotics Transformers），这是一种视觉-语言-动作（VLA）模型，可以从网络和机器人数据中学习，并将学到的知识转化为机器人控制的通用指令。

　　机器人首先利用视觉语言模型（VLM）进行场景理解，将描述输入至大型语言模型（LLM）以得到自然语言指令；随后在另一个名为“机器人宪法”（Robot Constitution）的LLM的指导下，完善指令以实现更安全的行为。

　　其中，机器人宪法包含三类规则，分别是基本规则，机器人不得伤害人类；安全规则，机器人不得尝试涉及人类、动物或生物的任务，机器人不得与锋利的物体（例如刀）互动；具身规则，如机器人只有一只手臂，则无法执行需要两只手臂的任务。

　　据介绍，在7个多月的实地评估中，AutoRT系统可同时安全地协调至多20个机器人，收集了包括6650个独特任务的7.7万次机器人试验。

　　SARA-RT提出一种自适应鲁棒注意力机制，在不损失质量的前提下将RT模型改进为更高效的版本。在提供简短的图像历史记录后，最好的SARA-RT-2模型比RT-2模型准确率高10.6%，速度快14%。

　　RT-Trajectory是一种通过事后轨迹草图概括机器人任务的模型，用于提升机器人的泛化能力。它获取训练数据集中的每个视频，并在执行任务时将其与机器人手臂夹具的2D轨迹草图叠加，从而提供实用的视觉提示。

　　在对训练数据中未见过的41个任务进行测试时，由RT-Trajectory控制的机械臂任务成功率达到63％，而RT-2仅为29％。

　　1月7日，创企Figure发布了一则机器人Figure 01煮咖啡的视频，并强调该机器人使用端到端的AI系统，仅通过观察人类煮咖啡，即可在10小时内完成训练。

　　据称，Figure 01的神经网络接收视频训练，输出运动轨迹。它还学会了自我修正，如当浓缩咖啡没有摆正时，它会将其调整到正确的位置。

　　融资方面的进展也没落下，1月11日，OpenAI支持的AI和机器人公司1X宣布完成1亿美元B轮融资，投资方包括三星NEXT基金、瑞典私募股权基金EQT等。

　　资金将主要用于将其第二代双足人形机器人Android NEO推向市场，以及对现有企业客户在物流和保安方面的支持。NEO专为日常家庭协助而设计，为消费市场中的各种家务任务提供多功能支持。

　　没过几天，人形机器人界的“顶流”擎天柱（Optimus）也来凑热闹。1月16日，马斯克发布了一则擎天柱叠衣服的视频，瞬间点燃了社交网络，浏览量超过7100万次。

　　1月18日，Figure宣布与宝马签署商业协议，机器人Figure 01将进入宝马工厂，在汽车制造过程中“自动执行困难、不安全且乏味的任务”。

　　1月20日，一家来自中国的创业公司MagicLab发布了一个人形机器人空翻的视频，据称是电驱动的人形机器人首次实现空翻。除此之外，MagicLab还展示了这款机器人煮咖啡、做拉花的过程。

　　不得不说，开年三个星期，产学研界都在“狂卷”AI机器人。然而，这些新成果在爆火刷屏的同时也引发了一些争议，如演示是否真实、机器人系统是否真的实用等。

　　彭博社专栏作家Karl Smith评价道：“抱歉，我不认为这些虾被完全煮熟了。这又是一场Gemini Ultra式的演示。”

　　说句题外话，看来谷歌在Gemini演示视频中靠剪辑“造假”的行为确实令人印象深。