ChatGPT快速渗透, AI产业迎发展新机
ChatGPT是由OpenAI公司开发的人工智能聊天机器人程序, 于2022年11月发布, 推出不久便在全球范围内爆火。 根据World of Engineering数据显示, ChatGPT达到1亿用户量用时仅2个月, 成为史上用户增长速度最快的消费级应用程序。 与之相比, TikTok达到1亿用户用了9个月, Instagram则花了2年半的时间。 从用户体验来看, ChatGPT不仅能实现流畅的文字聊天, 还可以胜任翻译、 作诗、 写新闻、 做报表、 编代码等相对复杂的语言工作。
ChatGPT爆火的背后是人工智能算法的迭代升级。 ChatGPT是基于GPT-3.5微调得到的新版本模型, 能够借助人类反馈的强化学习(RLHF) 技术来指导模型训练, 实现模型输出与人类预期的需求, 使对话内容更加人性化和富有逻辑性。 从2008年第一代生成式预训练模型GPT-1诞生以来, GPT系列模型几乎按照每年一代的速度进行迭代升级, 未来随着大语言模型(LLM) 技术的不断突破, AI相关应用有望加速落地, AI产业或将迎来新一轮发展机遇。
ChatGPT激起AI浪潮,大算力芯片迎来产业机遇
ChatGPT是生成式人工智能技术(AIGC) 的一种, 与传统的决策/分析式AI相比, 生成式AI并非通过简单分析已有数据来进行分析与决策, 而是在学习归纳已有数据后进行演技创造, 基于历史进行模仿式、 缝合式创作, 生成全新的内容。 AIGC的应用非常广泛, 包括自然语言生成、 图像生成、 视频生成、 音乐生成、 艺术创作等领域。
AIGC产业链主要分为上游算力硬件层、 中游数据/算法软件层和下游行业应用层。 硬件层依靠高性能AI芯片、 服务器和数据中心为AIGC模型的训练提供算力支持, 是承载行业发展的基础设施;数据/算法层软件层主要负责AI数据的采集、 清洗、 标注及模型的开发与训练, 多方厂商入局自然语言处理、 计算机视觉、 多模态模型等领域;行业应用层目前主要涉及搜索、 对话、推荐等场景, 未来有望在多个行业呈现井喷式革新。
多模态赋能下游行业智慧化升级
多模态大模型有望成为AI主流, 赋能下游行业智能升级。 生成式AI主要依赖于人工智能大模型, 如Transformer、 BERT、GPT系列等。 这些模型通常包含数十亿至数万亿个参数, 需要庞大的数据集进行训练, 致使AI算力的需求也呈现出指数级的增长。 多模态是一种全新的交互、 生成模式, 集合了图像、 语音、 文本等方式, 因其可以结合多种数据类型和模态的学习,将有望彻底改变我们与机器互动的方式, 快速占据人工智能主导地位。 我们认为多模态大模型长期来看不仅可以从成本端降本增效, 需求端也将通过快速渗透推广为下游行业带来持续增长需求, 从而快速推动下游行业智慧化应用升级。
模型更新升级带动下游行业不断发展
从GPT-1到ChatGPT, 模型参数与训练数据量不断增加, 所需算力资源不断提升:
GPT-1:最早的GPT模型之一, 包含了1.17亿个参数, 预训练数据量约为5GB。
GPT-2:参数数量达到了1.5亿个, 预训练数据量达40GB。
GPT-3:是目前为止最大的语言模型之一, 包含了1750亿个参数, 预训练数据量为45TB。
ChatGPT:基于GPT-3模型的变种之一, 参数量预计与GPT-3相近。
GPT-4性能提升显著, AIGC应用市场空间广阔
多模态模型是实现人工智能应用的关键。 3月14日OpenAI发布GPT-4多模态大模型, 拥有1) 强大的识图能力; 2) 文字输入限制提升至2.5万字; 3) 回答准确性显著提高; 4) 能够生成歌词、 创意文本、 实现风格变化。 在各种专业和学术基准上,GPT-4已具备与人类水平相当表现。 如在模拟律师考试中, 其分数在应试者前10%, 相比下GPT-3.5在倒数10%左右。 多模态大模型在整体复杂度及交互性上已有较大提升, 模型升级有望加速细分垂直应用成熟, 赋能下游智慧化升级, 带动需求快速增长。
AIGC下游市场渗透率低, 增长空间广阔。 根据 Gartner数据, 目前由人工智能生成的数据占所有数据的 1%以下, 预计2023年将有 20%的内容被生成式AI 所创建, 2025 年人工智能生成数据占比将达到 10%。 根据前瞻产业研究院数据, 2025年中国生成式商业AI应用规模将达2070亿元, CAGR(2020-2025) 为84.06%。