智通财经APP获悉,华泰证券发布研报称,机器人大模型的最终目标是提高人形机器人在不同场景和任务下执行的成功率。对于限定的应用场景和任务,从决策层、感知层和执行层三个角度出发,大模型需要具备自主可靠决策能力、多模态感知能力和实时精准运控能力;为了拓展到多样复杂的应用场景和任务,大模型还需要具备泛化能力和涌现能力。
目前大模型不断迭代,已出现包含多种能力的“全能选手”,但仍存在感知模态不足、实时性差和泛化能力弱等问题。未来需要不断优化训练模型结构、训练方法和数据集,将多模态感知信息纳入模型,同时提高控制指令的生成速度和大模型的泛化和涌现能力。
华泰证券主要观点如下:
人形机器人长期存在高需求+低供给矛盾,通用性受限为核心原因
人形机器人长期存在高需求+低供给矛盾。1)高需求:人形机器人的潜在应用场景广泛,包括工业生产、日常生活和灾难救援等;2)低供给:复盘人形机器人发展史,从早稻田大学的Wabot到波士顿动力Altas,机器人运动性能大幅提升,但未实现大规模商业化应用。该行认为,人形机器人追求极致的运动性能意义有限,其未能大规模商用的核心原因是通用性受限,通用性受限体现在用户主体要求高和应用场景局限两方面。通用性受限带来的商业化落地困难,也使得硬件成本难以在规模效应下显著下降。
大模型充当大脑实现任务级交互,可大幅提升通用性
波士顿动力Atlas通过多种硬件设备实现了跳跃、后空翻等高难度动作,运动能力远超近年发布的人形机器人,但这些动作源自提前创建的行为库。该行认为,硬件不是掣肘,软件阻碍了通用性的提升,软件升级后可以打通“软硬件升级-商业化应用-研发投入增多”正循环。机器人的控制软件分多个层级,其中任务级为最高层级,实现任务级交互可以大大提高人形机器人通用性,一方面用户主体可由工程师转变为普通用户;另一方面应用场景可由限定场景转变为开放式场景。而大模型的能力恰好与任务级交互的需求相匹配,为人形机器人理想“大脑”。
机器人大模型需具备3+2种能力,迭代升级后初现全能选手
对于限定的应用场景和任务,大模型需要具备自主可靠决策、多模态感知和实时精准运控能力;拓展到多样复杂的应用场景和任务,大模型需要具备泛化能力和涌现能力。现有大模型不断迭代升级,拓宽能力圈,该行按照发布时间依次对各种大模型进行分析:SayCan为实现自主可靠决策做出贡献;Gato为实现多模态感知做出贡献;RT-1为实现实时精准运控作出贡献;PaLM-E将自主可靠决策和多模态感知相结合;RoboCat最重要的贡献是可以自主生成训练数据集;RT-2将3+2种能力全面结合;RT-X在经过多个数据集训练后,多种能力全面提升。
感知模态/实时性/泛化能力问题需依靠训练模型/方法/数据集共同解决
目前大模型存在感知维度不足、实时性差和泛化能力弱等问题。感知方面,现有大模型主要包含视觉感知,以学习雕刻为例,仅依靠观摩而不动手操作,很难彻底掌握这门工艺,因此多模态感知是必然趋势;运控方面,现有大模型的指令生成速度较慢、生成结果简单,短期来看,底层运控仍需依靠传统机器人算法;泛化能力方面,RT-2在未知复杂环境中的执行成功率仅为35%。该行认为,未来需依靠训练模型结构、训练方法和数据集的改进,将更多模态感知模态纳入模型,同时提高运控指令的生成速度和泛化能力。
风险提示:大模型多模态数据融合不及预期、大模型指令生成速度不及预期、大模型泛化及涌现能力不及预期。