“模态”是指数据的存在形式,比如文本、音频、图像、视频等文件格式。多模态是一种全新的交互、生成模式,集合了图像、语音、文本等方式。我们认为,多模态/跨模态AI 大模型将得到相比ChatGPT 等NLP 大模型更大的应用。
近期google、微软等海外巨头在2023 年后在跨模态预训练大模型上有更大投入。3 月google 推出Palm-E 参数量达562B,可以理解图像,还能理解、生成语言,并将两者结合起来。微软推出多模态大型语言模型,此外计划在下周推出GPT-4。
目前我们已经可以在跨模态中看到更多应用可能性。除了已经相对成熟的文生图外,人机互动、机器人控制、图片搜索,语音生成等,大量应用涌现。
本篇深度中,我们解释了大量市场预期差。
市场认为,国内AI 大模型相比美国落后较多。我们认为,实际上国内巨头已在跨模态有较多提前布局。2022 年以前,百度、华为、阿里、腾讯、商汤等公司就已经开始尝试跨模态大模型应用。应用领域包括金融、电商、工业、智慧城市等众多领域。
市场认为,相比NLP 单模态大模型,多模态技术难度在每个单点上都提升。我们认为,多模态可能反而降低了单点技术难度。类似文生图等多模态大模型对于纯文本特征提取要求降低,不需要理解长文本,不需要理解多轮对话;对文本生成无要求。DALL-E 的参数量从GPT-3 的175B 降低到12B 就是一个佐证。
市场认为,视觉大模型仍然需要更多参数标注、且transformer 算法不适用于CV 场景。
我们认为,图像自动标注已经有了更多方法论,且trans 应用于CV 也开始成熟,算法和数据都已大幅迭代。更大参数的数据模型意味着更多的数据标注。我们认为更大参数的数据模型并不直接意味着更多标注数据需求,但RLHF 等需求可能增加。且近年来随着vit、swin transformer、mae 等论文推出,transformer 在CV 和跨模态等应用增加。CV 大模型参数量达到了百亿级别。
建议重点关注。视频、图像、文本素材:大华股份、海天瑞声、AI 领军、当虹科技
算力和基础设施:中科曙光、拓维信息、寒武纪、浪潮信息、光通信和光模块
多模态应用:1)文生图:新国都、中科创达;2)机器人:三花智控、鸣志电器、绿的谐波;3)其他应用:汤姆猫(申万传媒)、万兴科技、昆仑万维(申万传媒)、风语筑(申万传媒)。
视觉和跨模态算法:商汤(港股)、云从科技、虹软科技、科大讯飞
风险提示:大模型技术中美仍存在差异,部分技术尚处于早期实验室阶段,存在落地风险;实体清单等可能对训练硬件产生影响。