从开源模型GPT-2迈向通用模型的ChatGPT。自2017年6月,Google发布论文《Attentionisallyouneed》,首次提出Transformer模型,成为GPT发展的基础;2018年-2020年,OpenAI基于Transformer模型发布多篇论文,并陆续提出GPT-1、GPT-2、GPT-3的三类语言模型,并在2022年2月发布论文《Traininglanguagemodelstofollowinstructionswithhumanfeedback》(使用人类反馈指令流来训练语言模型),公布InstructionGPT模型,随后在2022年11月30日,OpenAI推出ChatGPT模型,并提供试用。仅仅不足6年时间,ChatGPT走完从理论到现实的历程,其核心催化在于算法+数据+算力的共振。
模型的进步是算法+算力的加持下,通过海量参数带来从量变到质变的升华。GPT模型依托于Transformer解除了顺序关联和依赖性的前提,提出一个建设性的主张:先通过大量的无监督预训练(Unsupervisedpre-training),再通过少量有监督微调(Supervisedfine-tunning),来修正其理解能力。整个算法模型包含三个步骤:1.人类反馈强化学习(RLHF);2.收集参照参数并训练奖励模型;3.使用PPO算法进一步对GPT实现的内容进行强化学习加成,从人类偏好学习模型解决了强化学习对奖励机制保持一致的高度依赖。而复盘技术路径,算法模型在2017年时已被提出,从GPT-1到ChatGPT依然遵循Transformer的框架。而真正带来升华的是在高性能算力加持下,通过优质数据的不断迭代演变而来。
高质量的数据资源是推动GPT进化的重要抓手。从GPT-1的1.17亿参数到GPT-2的15亿参数,再到GPT-3划时代的1750亿参数,OpenAI依托筛选过的优质数据形成参数量的阶梯式上升,最终带来GPT-3乃至ChatGPT具备理解上下文、连贯性等诸多先进特征。
在提出GPT-3的论文《LanguageModelsareFew-ShotLearners》中,OpenAI在收集近一万亿文字(参数)的数据库后,放弃直接使用海量数据训练模型,而是转向通过三种模式筛选优质数据进行训练,从而从万亿参数归纳出众人所熟知的1750亿参数,其核心原因在于“未经过滤或轻度过滤的爬虫数据往往比筛选后数据集质量更低”。
论文中所用的三种筛选数据模式如下:
1)根据与一系列高质量参考语料库的相似度比较,从而过滤出的爬虫数据;
2)通过对数据集内部和跨数据集的文档上执行重复数据的删除;
3)将已知的高质量参考语料库添加到训练组合中,以增强数据集的多样性。
根据OpenAI的设计,在筛选出的优质数据下,最终训练出的GPT-3成本极其高昂。即使在团队明确发现失误的前提下,依然无法承担二次训练的代价,其本质原因在于优质数据的来源是OpenAI通过大量前期的工作筛选而成。通过梳理,筛选后的数据主要分为:1)过滤后的爬虫数据、2)WebText2的数据集、3)一号图书馆数据、4)二号图书馆数据、5)英文版的维基百科等五种。而将五类数据映射至国内,我们发现在互联网高歌猛进的建设中,我国天然具备五类数据的优质土壤。
以百度、360和科大讯飞为代表的通用模型中国队,同时具备模型+算力+数据的天然属性。在模型上,无论是GPT-3、亦或是ChatGPT,其底层的技术仍未跳出2017年Transformer模型的框架。1)三六零:根据2月7日,公司在互动平台上的回答,公司的搜索引擎团队及人工智能研究院从2020年开始一直在包括类ChatGPT、文本生成图像等技术在内的AIGC技术上有持续性的研发及算力投入,目前公司的类ChatGPT技术的各项指标已实现强于GPT-2的水平,并在中文语境下实际效果强于ChatGPT2;2)百度公众号宣布将在3月上线类ChatGPT应用“文心一言”;3)在NLP所在的认知智能领域,科大讯飞主导承建了认知智能全国重点实验室(科技部首批20家标杆全国重点实验室之一),多年来始终保持关键核心技术处于世界前沿水平,并在去年获得CommonsenseQA2.0、OpenBookQA等12项认知智能领域权威评测的第一;4)浪潮信息发布的源1.0,作为人工智能巨量模型,单体模型参数量达到2457亿,超越美国OpenAI组织研发的GPT-3模型,成为全球最大规模的中文语料AI巨量模型。
结合OpenAI以非盈利的模式下,仅仅在一年多便从GPT-2升级到GPT-3,我们判断百度、三六零以及科大讯飞为代表中国队,在模型上的差距有望在一定时间内实现追平。
在算力上,OpenAI的算力依托于微软为其推出的超级计算机,根据微软表示,最新与OpenAI和合作研发的这款超级计算机居于世界Top5之列。而根据2022年6月1日新华网的报道,2022年上半年的全球超级计算机500强榜单中,中国共有173台超算上榜,上榜总数蝉联第一。同时,百度智能云落地新一代高性能AI计算集群,成为领先的AI原生云算力底座。研究人员可基于全新发布的实例组建上千节点规模的超高性能计算集群,成倍缩短超大AI模型的训练时间。经过百度内部NLP研究团队的验证,在这个网络环境下的超大规模集群上提交千亿模型训练作业时,同等机器规模下整体训练效率是普通GPU集群的3.87倍。我们认为,即使国内厂商在单颗芯片的算力上无法达到欧美水准,但通过组建多个算力集群叠加多员工迭代的加持上,将进一步抹平算力上的差距。以三六零为例,截至2022年半年报,公司货币资金超200亿,2021年研发投入超30亿,具备充足资金储备面对算力竞赛的格局。
三大巨头具备国内海量优质数据的优势。通过对GPT-3的五类数据分类,以百度、360和科大讯飞为代表的国内厂商,天然具备优质数据的储存。如百度和三六零同时具备类似CommonCrawl(filtered)的数据,对标Reddit的百度知道和360问答,以及对标维基百科的百度百科和360百科。两者更是国内搜索引擎第一与第二的龙头厂商,根据2月7日三六零在互动平台的回答,目前360搜索是中国搜索引擎的Top2,市场份额为35%。海量数据存于自身,天然具备数据清洗和数据迭代的核心功能。而科大讯飞AI训练模型依托自身在医疗领域和教育领域的领军地位,通过教育领域的成绩单和题库,以及医疗领域大量的处方单和病例等专业数据支撑自身专业AI布局,形成专用领域数据闭环的功能。
投资建议:百度和360作为国内前二的两大搜索引擎,具备海量通用数据之外,着重布局国家与科技巨头算力军备竞赛环节,均构建算法+数据+算力三大核心能力,或将成为国内通用算法的领军企业。科大讯飞通过在NLP方面长期的技术优势构建讯飞开放平台,提供超过500项AI产品及方案,并链接500万+合作伙伴共建人工智能生态;结合自身在教育、医疗、翻译、金融和司法等专业领域的数据积累,有望形成通用+专项模型的共振。在ChatGPT带来业务逻辑质变重估的趋势下,充分看好三者在通用模型的核心竞争力,维持“推荐”评级:三六零、科大讯。由于2022年疫情反复带来订单交付延期和费用率上升等原因,对应调整相关公司盈利预测,三六零:预计2022-2024年归母净利润为-24.49/5.01/11.70亿元,23-24年对应PE为104X/45X;科大讯飞:预计2022-2024年归母净利润为5.57/17.32/27.59亿元,23-24年对应PE为64X/40X。建议重点关注:百度集团-SW。
风险提示:技术落地不及预期,竞争格局加剧。