谷歌推出PaLM-E,大模型向机器人控制领域迈进。3 月6 日,谷歌和柏林工业大学的研究团队推出了目前报道的最大的视觉语言模型——PaLM-E(PathwaysLanguage Model with Embodied),参数量高达5620 亿。PaLM-E 是PaLM-540B语言模型与ViT-22B 视觉Transformer 模型的结合,它被称为“PaLM-E”是因为它基于谷歌现有的“PaLM”大语言模型,并使其具体化(Embodied)。PaLM-E会进行连续观察,例如图像信息或传感器数据,并将它们编码为一系列与语言标记大小相同的向量。这允许模型以与处理语言相同的方式“理解”感官信息。 PaLM-E 是一