核心观点: Transformer 模型融合了词向量、注意力机制和预训练模式的诸多优势,其出现标志着深度学习进入大模型时代。OpenAI 推出基于Transformer和人类反馈强化学习的ChatGPT以其强大的语义理解和生成能力引爆了市场。技术侧重点理解大模型训练中的核心四要素:模型参数、训练数据、训练方法以及训练效率。随着预训练自然语言模型进入巨量化参数时代,模型算力需求迈上新台阶。相关投资机遇中,建议重点关注国产AI芯片供应链、海内外大模型相关垂直应用落地情况。
核心技术发展推动自然语言处理逐步成熟。对词向量的关注明确了训练目标,构建起语义信息和数据之间的桥梁;注意力机制增强上下文理解能力,提高语义信息学习能力;Transformer等模型推动计算结构从串行走向并行,大幅提升算法和语言模型的训练速度;预训练明确了训练思路,解决了数据量不足的问题,降低了模型应用的门槛。以上四点核心进展带来了语言模型语言理解和生成能力的大幅提升,人工智能语言模型逐步走向预训练大模型。对应行业发展,谷歌和OpenAI先后于2018年提出基于Transformer-Encoder的BERT和基于Transformer-Decoder的GPT。与此同时,国内外的其他技术巨头也纷纷加快自然语言处理模型研发进程。
训练好大模型的四要素:模型参数、训练数据、训练方法以及训练效率。在模型参数上,参数量越大,大模型性能往往越好,当参数量提升到一定程度后性能可能会产生跨越式提升;训练数据方面,大模型对数据量和数据质量均提出了更高要求,高质量的数据集在模型训练过程中带来了更高的边际收益; 在训练方法上,一方面需要更充分的预训练以及增大预训练难度,另一方面使用Prompt或Fine-tune可以显著提高模型在下游应用场景的表现;在训练效率上,并行计算、显存优化与模型稀疏性能显著提升大模型训练效率。
随着预训练自然语言模型进入巨量化参数时代,模型算力需求迈上新台阶。当前大规模的自然语言模型进入了千亿参数时代,模型的训练算力显著提升,例如GPT-3模型参数量为1750亿,训练算力需求为3.14E+23 flops,如采用1000块英伟达A100芯片提供算力,需要不间断训练55天,可以估算单次训练租用云服务器的成本是328万美金。大模型在商业化落地之后,大量的客户访问还会带来不菲的运行成本,近期ChatGPT官网每日访客数量接近5000万,估算云上月租金576万美元/每月,头部企业开发大模型竞争力更强。
后续关注:国产AI芯片及大模型相关应用落地。算力端重点关注国产AI芯片、英伟达供应链、华为AI芯片昇腾供应链。算法应用端重点关注国内相关企业如华为、百度及阿里等的大模型落地情况和相关垂直应用供应商,以及国内公司利用OpenAI技术在海外应用的产品进展。
风险提示
ChatGPT技术发展不及预期:ChatGPT属于先进AI算法,若后续GPT算法更新迭代效果不及预期,则会影响ChatGPT演进及拓展,进而会影响其商业化落地等;
算法歧视与人权道德风险:ChatGPT引入基于人工反馈的强化学习,在人工反馈中,不可避免的会参杂歧视问题,从而会将歧视带入后续的人机交互中;大型语言模型在进行预训练过程中,使用了大量数据,其中会涉及相关隐私问题;
算力基础设施支持不及预期:美国制裁中国高科技企业,对中国形成芯片、算力的封锁,大语言模型训练过程中需要大量算力资源,需要关注中美关系带来的中国算力的压力;
政策监管力度不及预期:大语言模型带来新的网络生态商业,尚属于前期成长阶段,政策监管难度加大,相关法律法规尚不完善,政策监管力度可能不及预期。
数据数量与数据质量不及预期:大型语言模型需要大量的高质量数据进行训练,若数据数量和质量存在短板,则会影响大语言模型效果。