大秀了一把厨艺后,斯坦福华人团队开发的机器人又在北京时间今日凌晨发布了新视频《Mobile ALOHA的一天》,展示了浇花、打扫房间、煮咖啡、给主人刮胡子、洗碗、逗猫、扔垃圾、洗衣服、换被套、收纳衣物等数十种家务技能,堪称“全能家政员”。
网友热评,“最难得的是眼里有活。”
长期以来,人们深受“莫拉维克悖论”(Moravec's paradox)的困扰,这是一种和人们直觉相悖的现象,即“人类觉得容易的任务对人工智能来说却极其困难,反之亦然”。
换言之,一个会做家务的机器人,非常难得。
但别高兴得太早,Mobile ALOHA虽然“眼里有活”了,但它的动作依然由人操控(见下图),并非完全智能的自主操作。
团队负责人之一对此表示,人类操控是暂时的,他们已经在研究如何弥合人为控制和机器人自控之间的差距。团队的另一位负责人Tony Z. Zhao乐观表示,“2024年将是机器人年,这(家政机器人)仅仅是开始!”
Mobile ALOHA更大的意义在于,其运动控制能力比成本高出5-10倍的同类系统更强大,展示了通用机器人的可行性,一个便宜、好用的家用机器人或许很快将会到来。
ALOHA即A Low-cost Open-source Hardware System for Bimanual Teleoperation,是一个低成本的开源双手遥控操作硬件系统,即开源机械臂。
其算法Action Chunking with Transformers (ACT)采用了神经网络模型Transformers,因此具备模仿学习能力。只需要15分钟的演示,机械臂就可以学会一个动作——直接从真实演示中执行端到端模仿学习,并通过自定义远程操作界面收集。
据上述华人团队介绍,仅用50个演示,就能让Mobile ALOHA完成各种复杂任务,其成本仅为32000美元(约22万元),软件和硬件全部开源。
该团队在论文中详细介绍了Mobile ALOHA的硬件配置——最贵的是机械臂和移动底座,其中移动底座选择了同类产品中相对便宜的一款;传感器方面配备了2个腕部摄像头和1个顶部摄像头;配有机载电源和计算,即1.26千瓦时重14公斤的电池,在数据收集和推理过程中的所有计算都在一台消费级笔记本电脑上进行,该笔记本电脑配有英伟达3070ti GPU (8gb VRAM)和英特尔i7-12800H。
英伟达“网红研究员”、OpenAI第一个实习生Jim Fan此前乐观预测,2024年将成为人工智能界全面崛起反击莫拉维克悖论的元年,“我们不会立即获胜,但我们将走上获胜之路”。
这并非一时“口嗨”,如今产业面的各种进展层出不穷,Jim列举了2023年关于未来机器人的基础模型和平台的发展:
1、以机械臂作为物理输入/输出设备的多模态大模型:VIMA、PerAct、RvT(英伟达)、RT-1、RT-2、PaLM-E(谷歌)、RoboCat(DeepMind)、Octo(伯克利、斯坦福、CMU)等;
2、弥合 System 1(负责低级控制)和 System 2(负责高级推理)之间差距的算法(使得系统能够利用高级推理进行决策和理解,并将这些决策转化为实际的操作和控制):Eureka(英伟达)、Code as Policies(谷歌)等;
3、在强大硬件方面取得的惊人进展:特斯拉擎天柱、Figure、1X、Apptronik、Sanctuary、Agility+Amazon、Unitree等;
4、数据一直是机器人技术的致命弱点,研究界正在共同策划下一个 ImageNet(人工智能深度学习取得突破的关键项目),如开放Open X-Embodiment (RT-X)数据集。虽然数据集还不够多样化,但迈出了重要的一步;
5、模拟和合成数据将在解决机器人灵巧性乃至整个计算机视觉问题上发挥关键作用;
基础正一步步被夯实,站在2024年的年头,我们有理由期待更强大的机器人惊艳亮相。