投资要点
事件:
3月6日,RoboticsatGoogle、柏林工业大学和GoogleResearch团队联合发布了PaLM-E,其参数量高达5620亿。作为一种多模态视觉语言模型(VLM),它集成了控制机器人视觉和语言的能力,可以直接将现实世界的连续传感器模式纳入已经预训练好的LLM中,在单词和感知(wordsandpercepts)之间建立联系,从而用于连续的机器人操作规划、视觉问题回答和字幕生成等多项具身任务中。与ChatGPT相比,它新增了视觉功能。此外,谷歌称该模型还具备一定弹性,能够对周边环境作出适应性反应,应对可能出现的意外状况。
点评:AI大厂的对战处于白热化阶段,有利于推动技术快速发展,并拓展包括IOT等多元化应用领域,行业景气度进一步提升。
1、AI对战从语言模型扩展到多模态乃至通才。PaLM-E借鉴了谷歌之前在VIT-22B上的工作,后者是谷歌在上月公布的一款视觉语言模型,已经在各种视觉任务上进行了训练,例如图像分类、目标检测、语义分割和图像字幕等。同时,微软也在“图像+语言模型”的路径上积极布局:在今年2月底发表的研究中,微软展现了如何使用ChatGPT为大疆Tello无人机编写“找饮料”程序的案例;微软最近发布的“ChatGPTforRobotics”论文,就尝试以类似于谷歌PaLM-E的方式将视觉数据和大型语言模型结合起来,对机器人进行控制。
2、模型的规模竞赛仍在继续。作为史上最大的“通才”模型,PaLM-E的参数(5620亿)是ChatGPT参数量(1750亿)的三倍有余。语言模型越大,在视觉语言与机器人任务的训练中,保持的语言能力就越强,拥有5620亿参数的PaLM-E几乎保持了它所有的语言能力。得益于PaLM-E的大语言模型核心,谷歌研究人员观察到,其表现出了“正迁移”能力,意味着它能把一项任务中学到的知识和技能迁移至另一项任务,而且与单任务机器人模型相比具有“明显更高的性能水平”。
3、强悍的语言能力是核心。工作原理上,PaLM-E是一个仅有解码器的大型语言模型(LLM),在给定前缀(prefix)或提示(prompt)下,能够以自回归方式生成文本补全。其训练数据为包含视觉、连续状态估计和文本输入编码的多模式语句。由于PaLM-E是基于语言模型,所以它会连续观察图像或传感器数据,并将其编码成与语言符号大小相同的向量序列,这使得模型能够以处理语言的相同方式“理解”感觉信息,为PaLM-E扩展更多应用场景打下坚实基础。
风险提示
监管风险;技术发展不及预期风险;版权风险。