案例

BOB半岛:人形机器人真要落地了!“赛博保姆”开年震圈创企融资

来源:BOB半岛官网入口添加时间:2024-12-23 10:36:25

  ,其重要程度仅次于大型语言模型(LLM),“我们距离物理AI智能体的ChatGPT时刻还有3年。”

  然而,机器人企业“狂欢”之下,其宣传视频的真实性、机器人产品的实用性等也引发了争议。不少网友指出,这些演示似乎存在剪辑等方面的误导性工作。

  那么具体来看,AI机器人现在都能做些什么?五花八门的行为背后究竟是自主执行,还是人为操控?AI机器人赛道目前的发展处于什么阶段?在落地层面还面临哪些痛点?智东西与开普勒探索机器人首席执行官胡德波,优必选联合创始人、首席技术官兼执行董事熊友军等从业者进行了深入交流,寻找这些问题的答案。

  胡德波谈道,AI机器人最可能先落地的场景主要集中在简单重复的、相对可控的任务上,包括工业制造场景、仓储物流场景以及一些危险性的场景等。他认为调用云端大模型所带来的实时性问题,是落地层面目前最大的痛点。

  谈到AI机器人落地的痛点,熊友军从数据、场景、安全性以及迁移成本等方面进行了分析。例如现有的训练数据大多基于桌面,与实际场景中的应用有很大差距,大模型的不可解释性可能导致类似于语言模型中的“幻觉”等问题。

  如果说在去年年末,预告2024年将成为“机器人之年”还只是空喊口号,那么今年以来,斯坦福、谷歌、Figure、特斯拉在不到一个月的时间内接连发布了6项以上的新演示或新进展,则为这一观点提供了有力的论据。

  先是1月4日凌晨,来自斯坦福大学的三人团队放出了基于Mobile ALOHA系统的机器人演示视频,展示了机器人如何完成复杂的移动操控任务,无论是烹饪、清洁桌面,还是按电梯按钮并乘坐电梯,都不在话下。

  团队开源了Mobile ALOHA系统的全部软件、硬件和数据,从材料清单来看,硬件成本共约3.18万美元,折合人民币约22.8万元。

  据介绍,Mobile ALOHA是一种用于数据收集的低成本全身远程操作系统,在训练过程中,每项任务只进行了50次演示,其中的关键在于使用Mobile ALOHA收集的数据执行监督行为,与静态的ALOHA数据协同训练,可将成功率提高90%。

  ALOHA则是一个用于双手远程操作的低成本开源硬件系统,由来自斯坦福、UC伯克利、Meta等机构的团队发布于去年3月,Mobile ALOHA是在其基础上的迭代。

  Mobile ALOHA一经发布便火爆全网,而不到24小时之后,谷歌DeepMind就在1月4日深夜连发三项新进展AutoRT、SARA-RT和RT-Trajectory,用于提升机器人的速度、数据收集以及泛化能力。

  这三项新进展都基于DeepMind的RT-2模型(Robotics Transformers),这是一种视觉-语言-动作(VLA)模型,可以从网络和机器人数据中学习,并将学到的知识转化为机器人控制的通用指令。

  机器人首先利用视觉语言模型(VLM)进行场景理解,将描述输入至大型语言模型(LLM)以得到自然语言指令;随后在另一个名为“机器人宪法”(Robot Constitution)的LLM的指导下,完善指令以实现更安全的行为。

  其中,机器人宪法包含三类规则,分别是基本规则,机器人不得伤害人类;安全规则,机器人不得尝试涉及人类、动物或生物的任务,机器人不得与锋利的物体(例如刀)互动;具身规则,如机器人只有一只手臂,则无法执行需要两只手臂的任务。

  据介绍,在7个多月的实地评估中,AutoRT系统可同时安全地协调至多20个机器人,收集了包括6650个独特任务的7.7万次机器人试验。

  SARA-RT提出一种自适应鲁棒注意力机制,在不损失质量的前提下将RT模型改进为更高效的版本。在提供简短的图像历史记录后,最好的SARA-RT-2模型比RT-2模型准确率高10.6%,速度快14%。

  RT-Trajectory是一种通过事后轨迹草图概括机器人任务的模型,用于提升机器人的泛化能力。它获取训练数据集中的每个视频,并在执行任务时将其与机器人手臂夹具的2D轨迹草图叠加,从而提供实用的视觉提示。

  在对训练数据中未见过的41个任务进行测试时,由RT-Trajectory控制的机械臂任务成功率达到63%,而RT-2仅为29%。

  1月7日,创企Figure发布了一则机器人Figure 01煮咖啡的视频,并强调该机器人使用端到端的AI系统,仅通过观察人类煮咖啡,即可在10小时内完成训练。

  据称,Figure 01的神经网络接收视频训练,输出运动轨迹。它还学会了自我修正,如当浓缩咖啡没有摆正时,它会将其调整到正确的位置。

  融资方面的进展也没落下,1月11日,OpenAI支持的AI和机器人公司1X宣布完成1亿美元B轮融资,投资方包括三星NEXT基金、瑞典私募股权基金EQT等。

  资金将主要用于将其第二代双足人形机器人Android NEO推向市场,以及对现有企业客户在物流和保安方面的支持。NEO专为日常家庭协助而设计,为消费市场中的各种家务任务提供多功能支持。

  没过几天,人形机器人界的“顶流”擎天柱(Optimus)也来凑热闹。1月16日,马斯克发布了一则擎天柱叠衣服的视频,瞬间点燃了社交网络,浏览量超过7100万次。

  1月18日,Figure宣布与宝马签署商业协议,机器人Figure 01将进入宝马工厂,在汽车制造过程中“自动执行困难、不安全且乏味的任务”。

  1月20日,一家来自中国的创业公司MagicLab发布了一个人形机器人空翻的视频,据称是电驱动的人形机器人首次实现空翻。除此之外,MagicLab还展示了这款机器人煮咖啡、做拉花的过程。

  不得不说,开年三个星期,产学研界都在“狂卷”AI机器人。然而,这些新成果在爆火刷屏的同时也引发了一些争议,如演示是否真实、机器人系统是否真的实用等。

  彭博社专栏作家Karl Smith评价道:“抱歉,我不认为这些虾被完全煮熟了。这又是一场Gemini Ultra式的演示。”

  说句题外话,看来谷歌在Gemini演示视频中靠剪辑“造假”的行为确实令人印象深。

相关标签:

相关新闻

BOB半岛
电话
短信
BOB半岛官方网站