在首届香港具身智能产业峰会暨2026智元合作伙伴大会(香港)上,智元机器人联合创始人、总裁兼CTO彭志辉发表题为《一体三智部署态,共筑具身智能生产力新格局》的主题演讲,系统阐释具身智能的技术演进路径,并以“一体三智”为核心,首次提出从L1到L5的具身智能能力分级框架。这一框架的发布,标志着具身智能行业正式告别单一技术指标评判时代,进入以“真实工作流价值创造”为核心的标准化新阶段。
过去,自动驾驶行业习惯用L1至L5来衡量车辆的智能化水平,从辅助驾驶逐步进化至高度自动驾驶乃至完全自动驾驶。这套分级体系的核心逻辑,是判断车辆在多大程度上可以替代人类驾驶员完成驾驶任务。如今,具身智能行业同样走到了需要重新定义“智能等级”的转折点。
与自动驾驶不同,具身智能面对的不是标准化的道路环境,而是更开放、更复杂、更多变的物理世界。机器人不仅要移动,更要理解人、理解任务、操作物体、适应场景,并在真实工作流中持续交付结果。因此,具身智能的L1至L5分级,不能仅看机器人是否能够自主移动,而要同时衡量其本体能力、运动智能、交互智能和作业智能四个维度——这正是智元提出“一体三智”架构的根本逻辑。
从自动驾驶到具身智能:分级标准从“自主控制”走向“工作流智能”
在自动驾驶领域,L1至L5的核心问题是:车辆能在多大程度上替代人类驾驶员?人可以在驾驶任务中退出到什么程度?这是一条相对清晰的评判主线。
而具身智能面临的问题更加复杂。机器人面对的不再是结构化的道路,而是工厂、商场、医院、学校、交通枢纽、服务场所乃至家庭等广阔的物理空间。它不仅要“走”,更要与人交互、理解语境、操作工具、完成任务,并在不确定的环境中持续做出判断。
因此,具身智能的L1至L5,本质上衡量的是机器人能否从被动执行工具,逐步成长为能够融入真实工作流的智能体。这也正是智元以“一体三智”作为分级基础的考量所在:本体能力决定能否进入场景,运动智能决定能否稳定执行,交互智能决定能否融入人类的工作流与服务流,作业智能则决定能否真正创造生产力价值。
L1至L5:四维度协同进化的具身智能路线图
在智元提出的框架中,具身智能从L1到L5,对应的是本体能力、运动智能、交互智能与作业智能四个维度的持续升级:
L1:刚性预编程本体、遥控行走、指令式交互、规则驱动自动化
L2:局部柔顺本体、遥控全身运动、意图式交互、技能级辅助智能
L3:高动态机动本体、受限自主运动、情景式交互、场景级自主智能
L4:全域自适应本体、泛化自主运动、共情式交互、高泛化作业智能
L5:超人本体、通用超人运动、社交式交互、通用具身智能
这套框架揭示了一个核心逻辑:具身智能真正的进步,不是某个单点技术的突破,而是机器人能否从规则驱动走向技能辅助,再进一步走向场景级自主、高泛化作业智能,最终迈向通用具身智能。
L1至L2阶段,机器人仍处于规则驱动与技能辅助的层面,能力更多依赖预设规则、遥控操作或有限技能支持,尚未具备真正意义上的场景级自主能力。
L3阶段是关键转折点。作业智能从“技能级辅助”跨越到“场景级自主智能”;本体能力提升至高动态机动;运动智能从遥控迈向受限自主运动;交互智能进入情景式交互阶段。这意味着,机器人开始有能力在特定场景中理解环境和任务,并具备一定的自主执行能力。
L4阶段进一步走向全域自适应与高泛化能力。到L5阶段,智元将其定义为超人本体、通用超人运动、社交式交互和通用具身智能——这代表了具身智能长期演进的方向不是单场景的自动化,而是面向更广泛任务、更复杂环境和更自然人机交互的通用智能体能力。
智元当前整体进入L3能力区间,部分能力正向L4演进
在这条技术演进路线中,智元目前在本体能力、运动智能、交互智能、作业智能四个维度上均已进入L3能力区间,并在本体能力与作业智能两个方向上向L4迈进。具体来看:本体能力处于L3“高动态机动本体”与L4“全域自适应本体”之间;运动智能处于L3“受限自主运动”阶段;交互智能处于L3“情景式交互”阶段;作业智能则处于L3“场景级自主智能”与L4“高泛化作业智能”之间。
![[MD:Title]](http://img1.mydrivers.com/img/20260522/b0e1ecd8-46a1-44cc-a9af-d6b2a85e1c0d.png)
这意味着,智元的具身智能系统已不再停留在规则驱动或技能辅助阶段,而是开始具备进入真实场景、理解具体任务并自主执行的能力。本体能力与作业智能向L4的演进趋势,也反映出智元正在推动机器人从特定场景可用,走向更强的环境适应能力和任务泛化能力。
值得注意的是,这一分维度的能力演进说明:具身智能的成熟度不能被简化为单一等级,而需要同时观察本体、运动、交互和作业四个维度。只有当四层能力协同提升,机器人才有可能从展示设备蜕变为真正嵌入工作流的生产力工具。
真正的标准不是完成演示,而是进入真实工作流
在彭志辉的演讲中,具身智能的另一个核心判断是:行业的真正分水岭,不只是AI模型进入物理世界,更是产品开始进入真实工作流;行业正在从“卖机器人”转向“交付结果”。
这一判断与L1至L5的技术演进路线高度相关。L1至L2阶段,机器人更多体现为规则驱动、自动化或技能辅助能力;而从L3开始,场景级自主智能成为关键变化。机器人不再只是完成一次演示动作,而是要能够在具体场景中理解任务、稳定执行、与人协作,并交付可衡量的结果。
因此,具身智能的分级意义并不只是技术分类,而是帮助行业回答一个更现实的问题:机器人是否真正具备进入真实工作流的条件。对客户而言,机器人能否完成一次表演并不是最重要的,真正重要的是它能否长期稳定运行,能否被集成到现有流程之中,能否降低人工干预,并能否持续产生商业价值。
在这一问题上,「一体三智」提供了更完整的评判框架。本体能力决定能否进入场景,运动智能决定能否可靠执行,交互智能决定能否融入人的工作流与服务流,作业智能决定能否真正创造劳动生产力价值。四层能力缺一不可,任何单点能力都不足以支撑具身智能走向大规模应用。
对智元而言,提出L1至L5技术演进路线的意义,不只是为具身智能建立一套技术分级语言,更是为行业提供一个全新的评判标准。未来具身智能的核心,不是机器人能否完成一次展示,而是能否在真实世界中自主理解、稳定执行、自然交互、完成任务,并最终成为新一代生产力基础设施。
随着具身智能从规则驱动走向场景级自主,再进一步走向高泛化作业智能与通用具身智能,机器人的评判标准也将发生根本性改变。未来,真正重要的不是机器人能否完成一次展示,而是它在L1至L5的演进中,能否逐步具备自主理解、稳定执行、自然交互和完成任务的能力,最终在真实世界中持续创造价值。

