事件
北京时间3 月2 日,OpenAI 宣布开放ChatGPT API,价格为每1000 tokens0.002 美元,较GPT-3.5 模型价格降低90%。同时,OpenAI 还推出Whisper 官方API,Whisper 模型可实现语音-文本(Speech-to-Text)的跨模态任务,使用者可实现语音的转录和翻译,费用为每分钟0.006 美元。
投资要点
微软宣布开放Whisper API 接口,AI 多模态进程加速1、Whisper 支持语音转录和翻译两项功能并接受各种语音格式,模型中、英、法、德、意、日等主流语言上取得85%以上的准确率,完全符合工业准确率标准,未来有望打开商业化空间;
2、Whisper 模型根据参数量和语言不同,共有9 种版本,可适应不同使用者的需求。在中文语料测试下,模型在语音识别、语气识别、自动断句等方面表现出色,可满足各类使用场景需求;
3、多模态将成为AI 大模型发展的重要趋势,Whisper 模型在跨模态任务上的出色表现,有望为AI 大模型多模态化发展奠定重要基础。
Whisper 模型拆解,性能优异应用场景丰富
1、Whisper 模型的编码/解码器架构仍基于Transformer,通过不同大小和类型的数据输入,实现模型的缩放性能,以及各项语音-文本任务的泛化性和鲁棒性;2、Whisper 模型较之前的语音识别模型有多项改进,在识别准确率、断句、漏音等维度上均有显著优化。目前已有Speak 为代表的产品使用Whisper API 提升服务质量,未来看好Whisper 在更多商业场景中的深度应用。
投资建议:关注具备底层算法模型核心技术优势的厂商1、推荐标的:拓尔思(中文NLP 龙头厂商),科大讯飞(智能语音处理及合成);
2、建议关注:谷歌(DeepMind),微软(ChatGPT,Whisper),Meta(OPT 模型),百度(“文心”模型),腾讯;
风险提示
1、AI 技术迭代不及预期的风险; 2、AI 商业化产品发布不及预期;3、政策不确定性带来的风险;4、下游市场不确定性带来的风险;