源起:从GPT-1到ChatGPT,商用化进程逐渐开启
从GPT-1到GPT-3.5,模型持续迭代。GPT(GenerativePre-TrainedTransformer)系列是OpenAI公司的一系列预训练模型,通过Transformer为基础模型,使用预训练技术得到通用的文本模型。目前已经公布论文的有文本预训练GPT-1,GPT-2,GPT-3,以及图像预训练iGPT,而ChatGPT和今年年初公布的InstructGPT是在GPT-4之前发布的预热模型,也被叫做GPT-3.5。ChatGPT和InstructGPT在模型结构,训练方式上都完全一致,即都使用了指示学习和人工反馈的强化学习来指导模型的训练,它们不同的仅仅是采集数据的方式上有所差异。与之前的模型相比,ChatGPT做到了在内容生成上的有用性,真实性和无害性,实现了算法和用户体验上的创新。
微软全线产品整合,ChatGPT开启商用化进程。OpenAI公司宣布推出ChatGPT的新订阅计划,起价为每月20美元,可以享受更快的响应时间和优先访问。2月2日,微软CEO宣布继搜索引擎必应、Office办公软件之后,将在云计算平台Azure中整合ChaGPT,标志着微软有望实现ChatGPT在全线产品中的整合。我们认为ChatGPT的商用化进程逐渐开启。
技术:预训练模型+人工精标+强化学习,实现NLP技术创新
从技术角度来看,ChatGPT的模型实现主要分为三个步骤,合称为RLHF(ReinforcementLearningbyHumanFeedback)技术:
1)SFT(SupervisedFineTuning):基于GPT-3的预训练模型,采集新的数据用GPT-3的训练方式对模型进行微调,这些数据一部分来自使用OpenAI的PlayGround用户,另一部分来自OpenAI雇佣的40名标注工(labeler);
2)训练RM(RewordModel):在采样的输入语句中,进行前向推理获得多个模型输出结果,通过人工标注进行这些输出结果的排序打标。最终这些标注数据用来训练Reward奖励模型。通过人工标注的方式来提供这个奖励,可以给那些涉及偏见的生成内容更低的分从而鼓励模型不去生成这些人类不喜欢的内容,实现模型的有用、真实和无害。3)PPO(ProximalPolicyOptimization):随机抽取新的样本,用第二阶段的RewardModel给产生的回答打分。这个分数即回答的整体Reward,进而将此Reward回传,由此产生的策略梯度可以更新PPO模型参数。整个过程迭代数次直到模型收敛。强化学习算法可以通过调整模型参数,使模型得到最大的奖励(Reward),最大奖励意味着此时的回复最符合人工的选择取向。
我们认为ChatGPT的算法创新主要在于,采用人工标注排序的方式构建强化学习的奖励模型,从而实现了预训练模型和强化学习的融合。另一方面,第一阶段GPT-3的大模型以及高质量人工标注数据的微调也促使了模型更加有效。
投资机会:布局NLP算法+数据标注+算力设施
从对于ChatGPT技术上的分析,我们可以看到自然语言处理技术的持续迭代升级,对应到当前市场来看,我们认为主要的发展方向和投资机会在于三个方向:
1)NLP技术:由于ChatGPT主要基于自然语言处理,因为在NLP领域沉淀较多的企业有望率先实现功能的部分复现,建议关注科大讯飞、拓尔思。
2)数据标注:在ChatGPT的训练过程中,加大了人工标注的力度和精度,代表着未来在人工智能领域,优质的数据源和强大的标注能力将成为行业的基础设施,利好人工智能数据标注企业如海天瑞声。
3)算力设施:我们可以看到ChatGPT主要源于GPT-3的预训练模型,而GPT-3相比于此前的模型,最大的不同在于模型体量的大幅提升,根据OpenAI的数据,GPT-3的参数量达到1750亿个,训练数据量达到45TB,而GPT-2参数仅有15亿个,40GB数据。因此,我们认为人工智能的跨越式发展,将成为算力流量消耗的重要驱动力,未来数据中心和相关的配套产业有望实现更好增长,建议关注润泽科技等。
建议关注
基础工具:普源精电-U、鼎阳科技、坤恒顺维、霍莱沃、概伦电子、华大九天。
智能汽车:德赛西威、中科创达、四维图新、道通科技、虹软科技、万集科技。
工业软件:宝信软件、中望软件、中控技术、赛意信息、能科科技、鼎捷软件。
数字能源:朗新科技、国能日新、南网科技、龙软科技、国网信通、远光软件。
人工智能:科大讯飞、海康威视、大华股份、奥普特、商汤-W、寒武纪。
网络安全:深信服、安恒信息、启明星辰、天融信、奇安信-U、信安世纪。
风险提示
1)疫情加剧降低企业信息化支出;2)财政与货币政策低于预期;3)供应链波动加大,影响科技产业发展。