“模态”是指数据的存在形式,比如文本、音频、图像、视频等文件格式。多模态是一种全新的交互、生成模式,集合了图像、语音、文本等方式。我们认为,多模态/跨模态AI 大模型将得到相比ChatGPT 等NLP 大模型更大的应用。 近期google、微软等海外巨头在2023 年后在跨模态预训练大模型上有更大投入。3 月google 推出Palm-E 参数量达562B,可以理解图像,还能理解、生成语言,并将两者结合起来。微软推出多模态大型语言模型,此外计划在下周推出GPT-4。 目前我们已经可以在跨模态中看到更多应用可能性。除了已经相对成熟的文生图外,人