图片来源@视觉中国
从AI绘画的出圈,到如今OpenAI公司的ChatGPT的火爆,人工智能发展史上一个新的里程碑惊现于世。
据公开资料报道,ChatGPT上线5天就获得了100万用户,不到两个月就突破1亿月活用户。而此前,iPhone获得100万用户的时间为74天,TikTok实现1亿月活用户的时间为9个月。可见,ChatGPT的“吸粉”能力非同一般。
(资料图片仅供参考)
与此同时,ChatGPT也给资本市场掀起了一阵海浪。据公开媒体报道,微软将在此前先后投资OpenAI公司30亿美元的基础上,再追加100亿美元投资;谷歌将出资3亿美元收购OpenAI公司前雇员的初创公司Anthropic的竞品Claude;有美国版“今日头条”之称的BuzzFeed公司在官宣准备引入ChatGPT作为内容生产工具后股价立即飙升……当国内众多公司宣布正在或准备入局ChatGPT的竞品研发与应用时,国内A股市场一阵狂欢。
与一般的面向客服QA问答和专业任务型智能聊天机器人不同,ChatGPT可以根据人们的“提示”进行诗歌创作、问题探讨、报告撰写、提纲设计、摘要归纳、论文写作和代码编写,甚至可用于参加各类考试。因其面向开放领域、可连续式问答、良好的用户体验和看似无所不能的能力,火速成为政产学研等各领域各行业的街巷热议,以至于微软创始人比尔∙盖茨把ChatGPT出现的意义与当年的PC和互联网相提并论。
作为一款人工智能聊天机器人,ChatGPT何以能成为人工智能发展以来的“流量爆款”?它为人工智能之路昭示了出什么样的方向,又带给我们怎样的启发?本文将围绕ChatGPT的出发点、生成式AI、人工智能算法框架技术演进、预训练大模型PLM、人工智能内容生成AIGC进行讨论,希望给读者以有益的启发。
01 出发点:ChatGPT的第一性原理思维
什么是第一性原理思维?
简单来说就是回归本质,再进行重构。从第一性原理思维角度来看,就像PC、互联网、智能手机、移动互联网的演进路线一样,人工智能只有走向通用人工智能AGI,才有可能成为人们工作和生活过程中不可或缺的一部分,也才会产生真正的变革。反过来,也才会促进与加速人工智能的发展,“人工智障”才有可能彻底改变。
如今,以人工智能技术、机器人技术、虚拟现实技术、量子信息技术、可控核聚变、清洁能源以及生物技术为突破口的第四次工业革命已经到来,人类社会已进入到一个万物互联的智能时代,机器将具有感知、判断和推理能力,将自行产生知识,从而增强和替代人类知识,将人从脑力劳动中解决出来。从第一性原理思维角度看,几次工业革命演进的本质是机器逐渐取代人力,包括体力和脑力,从而不断提高社会生产效率和社会生产力,直到最终部分或全部取代人。
自上世纪50年代中期,人工智能的发展几经高涨与低落。最近十年,随着大数据、云计算以及基于神经网络的深度学习的发展,特别是以2016年谷歌旗下DeepMind公司的阿尔法狗(AlphaGo)战胜韩国围棋九段棋手李世石事件为标志,人工智能又迎来一个突飞猛进的春天。图像识别、人脸识别、视觉计算和自然语言处理等人工智能技术与产品如雨后春笋般涌现,广泛应用于智能客服、推荐系统、智能风控、智能诊断和异常检测等各领域各行业。
然而,与这些通过预设的算法或训练解决特定问题、只对某一方面有自动化专业能力的专用人工智能如火如荼的发展境遇不同,具有人类思维水平及心理结构的全面性智能化的通用人工智能AGI一直未能有喜人的进步。“人工智障”一直是对此前专用人工智能发展的揶揄。
究其原因,主要有三:一是专用人工智能的应用仍然居“庙堂之高”,类似互联网的早期,只是专业人士手中的“炫技”,未能飞寻常百姓手中;二是人机交互体验不友好,往往需要一定的专业技能才能操作;三是固化的“智能”,迭代升级成本高昂,缺乏像人类一样的自学习与思考。
人工智能只有走向通用人工智能AGI,才会产生真正的变革,促进与加速人工智能的发展。无疑,ChatGPT很好地把握了这一点。
首先,ChatGPT面向开放领域,不囿于某一专业领域,可进行诗歌创作、问题探讨、报告撰写、提纲设计、摘要归纳、论文写作和代码编写,初步具有一定级别的人类思维水平,具有参加MBA、法律、医学等各种专业考试能力,看似上知天文、下通地理、无所不能,类似“知识百科”。随着应用的不断深入以及不断从人类反馈中学习,ChatGPT将不断接近直至达到人类思维水平。正如OpenAI公司创始人兼首席执行官山姆·阿尔特(Sam Altman)在今年1月中旬接受《福布斯》采访时表示:“AGI是驱动我所有行动的推动力”。可见,ChatGPT只是通往通用人工智能AGI之路的起点。
其次,ChatGPT很好地选择了以自然语言作为人机交互界面,用户只需输入“提示”就能得到“答复”,而不需要操作键盘和鼠标(互联网时代的PC)或触控(移动互联网时代的智能手机)。良好的用户体验极大地消除了产品与使用、机器与人之间的“数字鸿沟”,这便是科技的第一性原理思维。事实上,早在2016年的微软全球开发者大会上,微软就提出“对话即平台”CAAP理念。智能时代,人机交互的媒介将是“对话”。
再次,与其他人工智能产品不同,“从人类反馈中强化学习”是ChatGPT独一无二的创新。首先基于海量的语料数据预训练出一个语言大模型(GPT-3.5),然后在此基础上通过少量的人工标注数据对GPT-3.5进行监督学习微调SFT;然后再用几个SFT模型对无标注数据进行测试,并对多个答复按好坏程度进行排序并标注(不同模型会给出不同的“答复”),以此标注数据继续训练出一个“奖励模型”RM(鼓励模型给出尽可能跟用户“提示”相匹配的答案,强化模型的一致性);最后通过奖励模型RM制定一种称之为“近端策略优化” PPO的算法,以持续优化模型参数。其原理示意图如下图1所示。
图1 ChatGPT的RLFH原理示意图
“第一性原理”是一种思维方法,强调从事情最根本的真理入手,透过事物表象,一层层剥开事物,看到事物的本质。然后再从最本质处一层一层往外进行推理——人工智能造福世人最根本的真理是通用人工智能AGI,而ChatGPT为通往通用人工智能AGI之路开启了一道门。
02 新范式:生成式AI(Generative AI)
如前文所言,作为一个产品,ChatGPT本质上是一款人工智能聊天机器人。但与一般人工智能聊天机器人不同,ChatGPT走的是第四种技术路线,它是一种生成式模型。从应用的角度来看,人工智能AI可分为判别式/分析式AI和生成式AI,而ChatGPT属于“生成式AI”。
人工智能聊天机器人的出现已有一段时间了,如亚马逊的智能聊天机器人Alexa、苹果公司的Siri、微软的Cortana、谷歌的Allo及国内其他众多产品。
从技术路线来看,人工智能聊天机器人可分为四种:基于规则、基于检索、基于语义解析和基于深度学习的生成模型。其中,基于规则的方法需要由专业人员编写相应的人工规则;基于检索的方法则需要事先根据先验知识编制成对的<提示,回复>语料库,应用时,首先在语料库中检索用户的“提问”,比对“提问”与“提示”(可能得到多个<提示,回复>对),然后利用rank模型(语义匹配模型)对“提问”和“回复”进行打分,最后利用打分的结果得到相应的回复;而基于语义解析的方法,是对每一句话进行深度自然语言处理之后,提取关键的语法语义信息,并生成相应的回复;最后一种是基于海量数据和深度模型的生成方法,根据接收到的输入(“提问”)生成语料库中没有的新文本(“回复”)。
在生成式AI之前,我们耳熟能详的AI应用如垃圾邮件识别、风控模型、智能推荐(短视频、网购等)、人脸识别、异常检测和自动驾驶等等,都属于判别式/分析式AI应用。判别式/分析式AI是根据已有数据进行分析、判断、预测,用于辅助决策。例如,如果我们要让计算机从图片中识别出狗,我们就先准备一批图片中有狗的样本图片,并标注出一系列可以判断图片是狗的要素特征,如“翘起的耳朵”“浑身长毛”“有尾巴”等,然后选择机器学习算法,如逻辑回归、决策树、朴素贝叶斯、神经网络等等,也可以是基于深度学习的卷积神经网络算法CNN或其他,让计算机对这些样本数据进行学习,从中摸索出足以判断某个图形是狗的规律,以此得到一个判别模型。日后就可以用此判别模型来判断新的图片中是否有狗。
而生成式AI更强调学习归纳后进行演绎创造,生成全新的内容。其背后的技术基础来源于一种称为“生成式对抗网络”GAN的思想原理。
生成式对抗网络GAN也是一种深度学习模型,由著名的深度学习理论专家伊恩·古德费洛(Ian J. Goodfellow)于2014年提出。一个GAN是由一个生成模型G和一个判别模型D构成。生成模型捕捉真实数据样本的潜在分布,并由潜在分布生成新的数据样本;判别模型是一个二分类器,判别输入是真实数据还是生成的样本。这两个模型交替训练,即生成模型不断学习生成更逼真的数据,判别模型则不断区分假数据和真实数据。直至判别模型已经无法判别是真还是假,生成模型G便形成。如下图2所示。
图2 GAN原理图
ChatGPT采用这一概念,并将其应用于基本文本的对话,以及创造软件代码。它使用GAN生成对输入文本的响应,使其能够与人类进行听起来自然的话,让它的回答表现得更像一个人。
2021知名调查机构Gartner在2021年高德纳IT博览会上,发布2022年需要探索的十二大重要战略技术趋势。其中,生成式AI位列其中。由于生成式AI能从数据中学习内容或对象,并运用数据生成全新的、完全原创的、逼真的设备,本质上是对生产力的大幅度提升和创造。至目前,生成式AI已催生了营销、设计、建筑和内容领域的创造性工作,并开始在生命科学、医疗、制造、材料科学、媒体、娱乐、汽车和航空航天等行业领域进行初步应用。
从判别式/分析式AI向生成式AI演变,已成了AI开发的新范式。
03 新驱动:注意力机制
自然语言处理中常用的一种通用算法框架是编码器-解码器网络。其中,编码器是将输入序列“编码”为一个输出(向量C),解码器是将该输出(向量C)作为输入“解码”为一个输出序列。在这个框架下可以使用不同的算法来解决不同的任务,它们也被应用于摘要和图像说明生成任务。如下图3所示。
图3 编码器-解码器网络示意图
传统上,编码器-解码器网络用得比较多的是循环神经网络RNN——通常是其变种:长短时记忆网络LSTM或是门控循环单元GRU。不过,基于循环神经网络RNN的编码器—解码器网络存在三个特点:一是要求输入序列和输出序列要等长,二是不论输入和输出的长度是什么,中间的“向量C”的长度都是固定的,三是从序列输入到序列输出是“串行”模式,模型训练效率低。这三个特点对于生成式预训练大模型建模是缺陷。
例如,对于语言翻译任务,如将“早上好”翻译为“Good Morning”,输入序列长度为3,输出序列长度为2,显然第一特点存在缺陷。中间向量C的固定长度对于长序列任务会存在“信息丢失”问题,串行模式导致训练效率低下。
为适应输入序列和输出序列不等长的任务需求,序列对序列模型Seq2Seq应运而生。如字面意思,这种结构最重要的地方在于输入序列和输出序列的长度是可变的,如输入序列长度为3(“早上好”),输出序列长度为2(“Good Morning”)。不过,Seq2Seq仍然存在中间向量C的长度固定和串行模式两个缺陷。
直到2017年,谷歌发表“Attention is All You Need”的论文,提出将“Attention”(注意力机制)应用到Seq2Seq中,形成一种新的算法框架“Transformer”(变换器),不再将整个输入序列编码为固定长度的中间向量C,而是编码成一个向量的序列(向量C1,向量C2,……,向量Cn),同时采用于并行模式取代串行模式,从而改进了“信息丢失”和“效率低下”这两个缺陷,参见下图4。
图4 注意力机制原理示意图
从此,Transformer作为一种新的编码器-解码器通用算法框架驱动着各种预训练大模型如雨后春笋般涌现,如下图5所示。ChatGPT也由此而来。
图5 基于Transformer的各种预训练大模型
04 新模式:预训练大模型
人工智能包括三要素:数据、算法和算力,三者的共同作用驱动了人工智能算法模型的开发与应用。整体上看,人工智能算法模型的开发模式可分为两个阶段。第一阶段是针对特定任务的“小模型”阶段。2017年,Transformer的出现,驱动着人工智能算法模型进入预训练“大模型”阶段。
所谓“小模型”,是指模型构建时往往针对一个特定任务,用于训练的数据量和模型的参数量相对较少,解决任务的能力往往囿于特定任务场景,而对于不同场景的同类任务的泛化应用能力相对较弱,即复用性较差。同时,由于每一次模型的开发都涉及数据采集、数据处理、数据标注、模型训练、模型部署、数据更新、模型调优等全流程环节,因此,开发效率低,开发和运维成本高。
而预训练“大模型”,是指最开始时并不针对某一个特定任务,而是在更为广泛的通用原始数据(无需进行人工标注)上进行无监督学习,得到一个通用基础模型。应用过程中,再针对特定任务,通过适当少量的人工标注数据进行有监督学习,即微调,以得到解决特定任务的算法模型。同时,通过各类任务的应用反馈再迭代升级基础通用模型,进一步增强模型的鲁棒性和泛化应用能力。如下图6所示。附6 预训练大模型+微调示意图
相比小模型,预训练大模型有助于用工程化、通用化思维开发算法模型,从而极大地提高了人工智能算法模型的开发效率。不同于小模型的碎片化,大模型各特定任务之间可通过基础通用模型进行连接。同时,预训练大模型的开发、部署和维护成本要低得多。
预训练大模型的发展趋势主要在三个维度:数据量越来越大(从GB级向TB级跃迁、从结构化数据为向结构化和非结构化多源数据为主转变)、模型参数越来越多(千亿级和万亿级)、从单任务单模态(或文本或图像或音频或视频)向多任务多模态(文本、图像、音频和视频)转变。
ChatGPT是基于GPT-3.5这个预训练大模型并结合“从人类反馈进行强化学习”(RLHF)方法进行微调而来。根据公开资料报道,ChatGPT的模型参数量达到1750亿,预训练数据量达到45TB。训练素材来自2/3的互联网内容,包括维基百科的600多万篇文章和世界几个大博物馆的所有藏书。这些素材包含了人类几千年来所积攒的绝大部分知识,以此为基础,ChatGPT成功地构建起了强大的知识体系。也正因此,它逐步开始能够胜任各种人类工作。
预训练大模型的出现,将重塑人工智能算法生态链。基础设施即人工智能计算中心(也称“智算中心”)、预训练大模型和算法API调用与应用开发将成为新的人工智能算法生态链中极为重要的三个层面。以国内为例,目前,作为基础设施层的智算中心建设正在各地如火如荼地开展;预训练大模型方面,以阿里(M6大模型)、华为(盘古大模型)、百度(文心大模型)和腾讯(混元大模型)为代表的国内众多企业都在纷纷入局;而调用接口APT进行应用开发将有助于促进许多中小企业、初创公司快速展开垂直行业应用。新的人工智能算法生态链将加速推进人工智能算法的产业化进程。
05 新变革:AIGC将成为新的内容生产者
如前文所述,ChatGPT具有写诗、作词、撰文、写作报告、总结摘要、设计提纲,甚至包括撰写软件代码等能力。通过对人类“提示”的理解,可以生成用户想要的“文字”材料,即“文本生成文本”。
无独有偶,“文本生成图像”也是过去一年人工智能领域一个现象级的技术创新与应用。其标志性事件是2022年8月份,一幅基于人工智能软件平台Midjourney生成的“太空歌剧院”的AI绘画荣获美国科罗拉多州艺术博览会头奖。另外,谷歌公司的“文本生成音频”产品MusicLM也正在粉墨登场。而在“文本生成视频”方面,谷歌的Phenaki和Imagen Video、Meta的Make-A-Video、百度的智能视频合成平台VidPress等文生视频模型都在纷纷走向台前。
最为震撼的当属谷歌旗下的DeepMind公司的人工智能产品AlphaFold,它能通过内容生成预测并绘画蛋白质的折叠结构。也因如此,“人工智能内容生成”AIGC被《科学》杂志评为2022年十大技术突破之一。
人类文明发展史,实际上是一部知识内容生成不断发展的历史。自1946年第一台电子管计算机的问世,到1958年第一台晶体管计算机的诞生,再到后来大规模和超大规模集成电路的出现,计算技术一直在摩尔定律的驱动下,促进人类知识内容生成的指数级增长。历经PC互联和移动互联,当今正进入万物互联时代,人类知识内容的生成与增长进入了一个前所未有的新阶段。数据携带信息,信息蕴含知识。据公开资料报道,从2016年至2020年五年的时间,全球数据增长量将比过去几千年人类所积累的数据的总和还要多。
从内容生成的发展阶段来看:可以划分为专家生成内容(如电视、电影和游戏等)、用户生成内容(如微信微博、开源社区、短视频等)、AI 辅助生产内容及 AI 生成内容。其中,PGC 模式下,内容生产和变现的权力掌握在少数人手中,集中程度更高,因此PGC 难以满足大规模的内容生产需求,即存在产能限制;而UGC模式由于生产者可为用户本身,因此突破了产能限制,但由于生产门槛相对较低,个性化和多样化需求繁荣,因此难以保证内容质量;而 AIGC 不仅可突破可PGC模式的产能瓶颈,也可兼顾内容质量的提升,特别是AIGC在图像和音视频方面的生成能力,将有助力于Web3.0游戏充分满足游戏参与者在场景和人物构建方面的个性化高质量需求。
作为知识内容生成发展过程中的新一轮范式转移,AIGC将带来以下几个方面的变革。
第一是数据增长。基于AIGC技术的合成数据迎来重大发展,合成数据将牵引人工智能的未来。Gartner预计到2025年,生成式人工智能将占所有生成数据的10%,到2030年合成数据将彻底取代真实数据。MIT科技评论将AI合成数据列为2022年十大突破性技术之一。合成数据的用途是成为真实世界数据的廉价替代品,用来训练、测试、验证AI模型,成为训练AI的主要数据来源。
第二是知识拓展。智能时代,AIGC将快速拓展人类对自然世界的认知,AlphaFold通过内容生成预测并绘画蛋白质的折叠结构便是例证。
第三是信息获取方式的改变。AIGC不仅改变创作,还将改变获取信息的主要方式。以ChatGPT为例,在寻找答案、解决问题的效率上,ChatGPT直接给出搜索结果,而现今的搜索引擎只能给出隐藏结果的网页列表。
第四是直接提高生产力。生成式AI可以嵌入生产和工作环节,与工作流程相结合,直接提高生产效率、降低生产成本,促进产业数字化转型。微软CEO萨蒂亚·纳德拉(Satya Nadella)在做客《华尔街日报》访谈时说:“……事实上,ChatGPT可以用来建立工作流程。这意味着零售、仓库、医疗保健等一线工人,他们不是IT专家,他们在计算机科学方面也不熟练,但实际上,他们可以参与到组织的数字化转型工作中来……,而且还可以参与到知识工作中来”。AIGC有望成为数字经济时代驱动需求爆发的杀手级应用。
第五是加速“经济奇点”的到来。“经济奇点”是人工智能专家(英)卡鲁姆·蔡斯(Calum Chace)创造的一个词,即AI技术本质上会造成社会的大规模失业。
第六是极大地降低经济社会成本。AIGC模型的通用化水平和工业化能力的持续提升将引起经济社会成本结构的重大改变。OpenAI公司创始人兼首席执行官山姆·阿尔特曼(Sam Altman)在他的“Moore"s law for everything”(即万物摩尔定律)一文中预测:人类社会需要的商品和服务,将会大规模地由AI来生产,这会导致商品和服务的价格下降,由于AI的大规模普及,房子、汽车、日常商品和服务的价格,每几年就会降低一半。
ChatGPT是在海量数据、超大模型和巨大算力的工程性结合下,通过对海量数据中单词-单词、句子-句子等之间的关联性概率预测,才体现出强大的语言对话能力。无疑,ChatGPT无法避免带有恶意和偏见的错误数据对知识生成结果的干扰。但随着法律和伦理规制的不断强化以及模型的迭代升级,再加上不断增强的自学习和推理能力,人类离通用人工智能AGI时代将越来越近。ChatGPT已经打开了通用人工智能AGI时代。
关键词: