智通财经APP获悉,中信建投发布研报称,2023年4月20日,Google宣布将Google Brain和DeepMind两大世界级AI实验室合并,成立Google DeepMind部门,以谷歌的计算资源作为后盾,加速人工智能研发和应用的推进。Google Deepmind在2023年6月和7月发布了其最新研究成果,具备“自我完善”能力的“RoboCat”和融合大语言模型能力的VLA模型“RT-2”,机器人智能化进一步加速,有望掀起新一轮AI革命。
中信建投主要观点如下
从Gato到RoboCat,更大规模的训练数据集和创新的自我完善方法助力打造更强的机器人智能体。在2022年5月提出的Gato模型将智能体扩展到机器人控制领域中,但“通用性”和“智能性”仍有较大提升空间,其模型架构和控制任务数据的序列化方式是后续模型发展的重要基础。2023年7月提出的RoboCat则基于Gato的模型基础,将训练数据集扩充至400万个机器人相关片段,并创新性的提出“自我完善”的方式来进一步丰富训练数据,这两点创新让RoboCat在实现了训练任务的性能提升并具备了一定的泛化性能,并且能够在少量数据微调的情况下处理未见过的任务。
从RT-1到RT-2,大语言模型带来更强的泛化能力、逻辑推理能力、知识能力,深度赋能机器人智能化。2022年12月提出的RT-1模型构建起了特定的指令、图像和机器人指令之间的桥梁;2023年3月的PaLM-E模型则能够处理输入的文本和图像信息,将复杂任务转化为RT-1能够接受的指令;2023年7月提出的RT-2是二者的融合, 在大语言模型强大能力的赋能下,RT-2能够完成分解复杂任务、简单的计算、识别人脸等现实场景中常见但以往的模型无法完成的任务,智能化程度大幅提升。
差异路线引领发展,团队整合协同革新。Google Brain和DeepMind两个团队从两个不同的切入点出发逐步推进AI机器人模型发展,DeepMind团队从智能体(Agent)的角度出发不断提升机器人能力,因此RoboCat中的训练数据大多来自强化学习,模型参数量控制表现更为优秀,能够实现更高频率的机器人控制;而Google Brain则尝试将大语言模型应用到机器人的控制领域,因此RT-2的模型参数量更大,在泛化能力、知识和推理能力方面有更强的表现。随着两个团队进一步合并,深化数据、模型等方面的协同合作,谷歌的机器人模型进展有望进一步加速。