从击败世界围棋冠军到重塑内容生成方式，人工智能经历了什么？世界快资讯

2023-06-27 19:23:02 来源：钛媒体APP

图片来源@视觉中国

从政策端来看，今年6月16日，微软公司创始人比尔·盖茨来华，并受到我国最高领导人的接见，这一事件释放了我国将要大力发展人工智能产业的强烈信号。此前，微软对OpenAI投资超百亿美元，是其背后最大的“金主”。实际上，我国对于人工智能产业以及更广阔的数字经济赛道早有战略布局。

去年12月15日，总书记在中央经济工作会议上的讲话提出，人工智能作为战略性新兴产业，是引领未来发展的新支柱、新赛道，要加快前沿技术研发和应用推广，支持专精特新企业发展。去年12月2日，中共中央、国务院还发布了《关于构建数据基础制度更好发挥数据要素作用的意见》（“数据二十条”），提出要促进数据合规高效流通使用、赋能实体经济，充分实现数据要素价值。

(资料图)

在市场端，我国各行各业对发展数字经济和人工智能的需求旺盛，国内外技术快速迭代越发成熟，形成了政策端和市场端的完整闭环。在国家政策对于数字经济、人工智能产业的大力支持下，我国的人工智能产业进入高速发展赛道。

什么是人工智能？

那么，什么是人工智能呢？在投资时，我们有必要对人工智能的发展史以及关键的计算机技术有一个基本的了解。顾名思义，人工智能就是具有类似人类的思维能力的机器。根据维基百科的定义，人工智能是由机器展示的感知、合成和推断信息的智能，“智能”包括学习和推理、概括和推断意义的能力。

人工智能发展史上的里程碑：

来源：洛克资本绘制

人工智能的发展经历了几个重要阶段。早在1950年，被称为“计算机科学之父”的艾伦·图灵（Alan Turing）发表了关于人工智能的开创性作品Computing Machinery and Intelligence。在本书中，图灵提出了以下问题：“机器能思考吗？”图灵还提出了著名的“图灵测试”（Turing Test）。图灵测试是指由人类评审者对机器与人类受试者提问，如果无法准确判断谁是人类、谁是机器，则该机器就通过了图灵测试。在1956年的达特茅斯会议上，约翰·麦卡锡（John McCarthy）创造了“人工智能”一词，这次会议标志着人工智能研究正式开始。随后，1957年，早期人工神经网络Perceptron Mark I诞生，展示了机器学习算法模拟人类智能的潜力。

1960年代，开始了“人工智能热潮”。在发现Perceptron模型的缺陷后，计算机科学家们开始积极探索各种创建和控制智能机器的新方法，尝试执行传统上认为需要人类智能来完成的任务。热潮过后，海外的人工智能发展遇到了瓶颈，遭遇1980年代的投资寒冬。

在寒冬中，尽管发展速度放缓，但仍然诞生了一些伟大的技术。计算机科学家们开始研究专家系统，旨在模仿特定领域（如医学、金融、语言或工程）的人类专家的决策能力。研究者试图利用专家的知识来建立一个系统，系统能够根据用户的查询，使用推理规则从其知识库中提取知识来输出决策。专家系统的出现很重要，因为它们是人工智能第一个真正有助于人类生活和成功落地的应用。时至今日，专家系统还在我们的日常生活中发挥作用，例如，我们电脑中的拼写及语法检查器。

专家系统的简化模型示意图：

图片来源：Javapoint

1990年代，机器学习算法和计算能力的进步，使研究人员开始使用统计方法直接从数据中学习模式和特征，而不必依赖预定义的规则。从数据中学得模型的过程称为“学习”（learning）或“训练”（training）。我们可以用机器学习届圣经“西瓜书”（周志华老师编写的《机器学习》）中形象生动的知名比喻来描述机器学习的简化过程：首先，收集许多西瓜的样本并测量各种特征，如大小、重量、颜色、根蒂形态、敲的声音等；其次，获得这些特征的“结果信息”，例如，（（色泽＝青绿；根蒂＝蜷缩；敲声＝浊响），好瓜）；对这些具有结果信息的特征的集合进行学习，建立模型来预测一个新的西瓜是否好吃；然后，可以用新的西瓜样本去测试模型，判断模型的准确性和有效性，并对模型进行再训练和调优。最后，可以用训练好的模型来对新采集的西瓜样本进行预测，判断哪些可能好吃。

相比于之前提及的专家系统，机器学习技术为人工智能发展注入了完全不同于传统“逻辑推理”方法的新鲜血液，提供了更多的可能性。正如“西瓜书”中所说，“机器学习是人工智能研究发展到一定阶段的必然产物。二十世纪五十年代到七十年代初，人工智能研究处于‘推理期’，那时人们以为只要能赋予机器逻辑推理能力，机器就能具有智能。……然而，人们逐渐认识到，仅具有逻辑推理能力是远远实现不了人工智能的。专家系统面临“知识工程瓶颈”，简单地说，就是由人来把知识总结出来再教给计算机是相当困难的。于是，一些学者想到，如果机器自己能够学习知识该多好！”机器学习技术已经在我们的生活中无处不在，广泛地支持着聊天机器人、语言翻译、社交媒体与购物网站及视频网站等各大平台的内容推荐、医学诊断、自动驾驶等各种领域的应用。

21世纪初，深度学习算法的出现，使机器能自动地从大型数据集中学习，机器学习进一步如火如荼地发展。深度学习和机器学习这两个概念看起来很相近，都是人工智能的子领域，但实际上，深度学习是机器学习的一个子领域。

深度学习由神经网络组成，“深度”是指由三层以上层组成的神经网络，可以使用下面的图表来形象地表示这个过程。

深度学习中的神经网络概念示意图：

图片来源：IBM

经典或“非深度”的机器学习更依赖于人类干预，即所谓的“调参”。而深度学习使该学习过程的大部分实现自动化，并允许使用更大的数据集。深度学习可以以原始形式（例如文本、图像）摄取非结构化数据，并且可以自动确定区分不同类别数据的特征层次结构。与机器学习不同，深度学习不依赖人工干预来处理数据，使得机器学习的门槛实际上变“低”了，从而使得其应用变得更加广泛。

机器学习技术在近年的一个重要里程碑是AlphaGo战胜李世石和柯洁。AlphaGo是第一个击败职业围棋世界冠军的计算机程序，可以说是历史上最强的围棋玩家。AlphaGo由谷歌（Google）旗下DeepMind公司戴密斯·哈萨比斯领衔的团队开发，将高级搜索树与深度神经网络相结合，将棋局盘面的描述作为输入，然后通过包含数百万个神经元连接的多个不同的网络层进行处理。研发团队还让AIphaGo与不同版本的自己比赛数千次，每次都能从错误中吸取教训。随着时间的推移，AlphaGo不断进步，在学习和决策方面变得越来越强大，这个过程被称为强化学习。

从决策式AI到生成式AI，人工智能新模式崛起

2022年底开始，以我们熟知的ChatGPT为首的大语言模型的涌现，代表着人工智能新范式的崛起。2022年11月，OpenAI发布ChatGPT，掀起AI浪潮。2023年3月，OpenAI又发布GPT-4，GPT-4的训练数据量更大，拥有更高级的推理能力，支持多模态，可以接受图像和文本输入。

GPT的全称是Generative Pre-trained Transformer，是一系列延伸自转换器架构（Transformer架构）的自然语言生成模型。相比于小模型，大模型的标志性特点就是更大规模的参数量。从GPT-1到GPT-3，模型的参数量从1.17亿个增长了1750亿个，在几年的时间内增长了1000多倍。尽管官方未披露GPT-4的参数量，但据悉已达到万亿级别。研究发现，当训练的参数量超过某个阈值时，就会量变引起质变，模型的精度会突然暴增，即所谓的“涌现能力”。因此目前，各大厂商在训练模型时，都会追求更大的参数量。

OpenAI推出的GPT系列发展史：

来源：洛克资本绘制

我们目前熟知的大语言模型，基本都是基于上述的Transformer架构。Transformer是一种新型的网络架构，用于自然语言处理（NLP）的深度学习模型，表现能力优异，远超CNN、RNN等方法。Transformer由encoder（编码器）和decoder（解码器）构成，具有优秀的语义特征提取能力、远距离特征捕获能力、综合特征提取能力、并行计算能力及运行效率。Transformer的核心之一是自注意力机制（Self-Attention），能够通过关系的特征进行学习，描述数据各元素之间的相关性，也就是数据本身的内在关联。根据业内人士解释，拥有自注意力机制的Transformer神经网络能够把成千上万个Transformer串联起来，通过对大规模文本数据的学习，建立从单词、短语、句子、段落不同层次之间相互连接的关系，并且基于这种连续关系进行统一整体的表达，因此从人类使用者看来，GPT产品拥有较高的理解能力和整体表达逻辑。

此前，人工智能的应用以“决策式AI”为主，通过学习数据中的条件概率分布进行分析、判断和预测来生成决策、进行相应的部署，比如推荐系统、自动驾驶、人脸识别、围棋象棋决策等。生成式AI则不是简单地对数据进行归纳，而是对数据进行演绎、创造、模仿，生成数据中原本不存在的新样本。例如，向ChatGPT输入指令，它可以生成文案、续写小说、与你聊天，这些丰富多彩、自然多变、贴近人类日常生活的内容生成是传统决策式AI力所不及的。生成式AI通过创建类似于训练数据的新数据来模仿人类的创造过程，成为人类的“协作者”甚至“创作者”。

生成式人工智能可以大幅度提升内容领域的生产力，在图像与音视频生成、市场营销、文学乃至计算机代码等内容生产领域的创造性工作中大有用武之地，并开始在办公协同、娱乐、医疗、商业、教育等各种场景中发挥作用。

AI画作《太空歌剧院》：

去年9月，美国科罗拉多州博览会举办了一场“数字艺术”大赛。在比赛中，一幅名叫《太空歌剧院》的作品脱颖而出，一举夺魁。这幅作品的创作者并不是一个传统的人类艺术家，而是一名39岁的游戏公司老板Jason Allen，他使用了AI作画应用Midjourney来创作这幅作品。创作过程如同Allen所说，“他花了近一个月的时间不断修改指令，在AI工具上输入尽可能准确具体的指令，创作出了100多副图画，然后从这上百张图画中，选出了自己喜欢的3张，并用工具进行了处理和微调，最后才打印在画布上。”该画作结合了古典与科幻元素，呈现出无与伦比的创意，同时包含了大量的几何形状、光影效果和细节纹理，视觉效果美轮美奂。

除了在图像生成、视频生成方面大放异彩之外，生成式AI日渐开始在人类的办公中发挥作用。此前，在今年3月17日的微软2023 Microsoft 365 Copilot发布会上，微软宣布为其Microsoft 365应用程序和服务推出由生成式人工智能驱动的Copilot，帮助人们生成文档、电子邮件、演示文稿等。Copilot由OpenAI公司的GPT-4提供支持，将作为聊天机器人出现在边栏中，使得Office用户能够调用它来在文档中生成文本、基于Word文档创建PowerPoint演示文稿，甚至帮助使用Excel中的数据透视表等功能。正如微软365负责人Jared Spataro说：“它与您一起工作，嵌入在数百万人每天使用的应用程序中：Word、Excel、PowerPoint、Outlook、Teams等。”Copilot也将存在于Outlook中，可以帮助用户总结电子邮件，甚至可以基于用户对语气和长度的选择创建回复草稿。

以大模型作为底层支持，一大批民间初创企业制作的下游插件或应用如春笋般涌现。从功能分类来看，下游应用主要分为办公协同和生活娱乐两类。在办公场景下，目前的生成式AI应用已经可以帮助用户阅读和总结提炼文档中的信息、生成初始版本的法律文书或协议、辅助用户进行数据分析、根据用户指令一键生成精美的PPT等。娱乐场景下的应用更是五花八门。除了上文提及的图片生成外，生成式AI还可以应用于音视频生成及剪辑、与用户进行互动式聊天（虚拟伴侣）、基于聊天交互的游戏、生成虚拟人化身/头像等。

AIGC在文字、代码、图像、音视频领域的应用：

来源：红杉资本

AIGC投资热潮下，自研大模型真的值得吗？

ChatGPT最大的贡献是完成了一场全民式的“AI教育”。因为使用门槛较低、功能新颖且具有强互动性，自去年底ChatGPT问世以来，该产品在很短的时间内就家喻户晓，且掀起了近半年来大火的AIGC投资热潮。我国的互联网头部企业更是纷纷追逐自研通用大模型的风口浪尖，开始在生成式人工智能领域的“军备竞赛”。目前，国内已有百度、阿里巴巴、腾讯、华为、科大讯飞等公司对AI大模型进行研究开发，若干自研的NLP大模型、CV大模型、多模态大模型已推出并实现部分落地。其中，腾讯另辟蹊径地尚未推出通用大模型，而是首先推出ToB的行业大模型，以一种“短平快”的方式切入赛道。实际上，国内外科技公司的自研通用大模型之争，更是一场烧钱的博弈。

目前国内互联网头部企业的自研大模型情况：

来源：洛克资本绘制

从训练大模型的经费数据上看，时至今日，微软已经陆续向OpenAI注资超130亿美元，且去年一年内，OpenAI的净亏损高达5.445亿美元。大模型训练所需的硬件成本极为高昂，据外国机构a16z Fintech Investments 测算，只有当一个公司一年的AI 运算预算超过5000万美元时，才能凭借足够的规模效应支撑自己批量采购GPU。OpenAI推出的GPT-3需要1024张A100 GPU芯片才能支撑起一次训练，且OpenAI至少需要32400张A100芯片用于日常推理，根据测算，仅训练ChatGPT的硬件成本就高达8亿美元以上，更不用说还有高昂的算法团队、数据方面等各种开支。

自研大模型，实际上是一个耗资耗时的系统性大工程，无论是在算法、算力还是数据方面，都需要投入极大的人力财力，从而影响整个公司的战略规划。如果训练不理想或是变现周期长、投入资本回报率不佳的话，无疑会给整个公司造成浪费战略资源、影响商业地位的负面效应。因此，是否要加入这场“烧钱”的自研通用大模型的战争，颇值得打一个问号。

在斥巨资自研通用大模型之外，还有一种比较节省资源的务实做法是搭建与自身产品生态相结合的“垂类大模型”或面向B端用户需求的“行业大模型”。相比于“大而全”的通用大模型，此类垂直细分的大模型更“小而美”，所需的资源量较小，应用落地更为精准，投入资本回报率更高，在当下整体偏于冒进的研发潮中是一种谨慎稳健的选择。

关注具体应用场景，另辟蹊径把AI带进千家万户

比垂直细分大模型更“小而美”的，则是上文提到的种种下游应用层的产品。这些产品借助于现有大模型的接口（API），借助于现有的“天花板级别”的大模型并向其付费，直接实现小微场景下的功能应用。大模型的价值，本就在于与各行各业的具体需求相结合，成为人类的协作者或指令下的创作者，广泛地激活生产力。用程序员的一句黑话来说，在低阶水平重复“造轮子”没有太大的意义（比如，圆形车轮已经是大家公认最好的了，却非要自己重新发明另一种形状的轮子）。对于有财力以及技术积累支撑的企业来说，在尖端水平上进一步突破技术的边界固然是一件有利于企业自身长远发展并且有利于整个人类社会的好事。但对于绝大多数资源有限的企业来说，更具商业价值和变现能力的是借助现有的轮子造自己的车。

我们看好人工智能整个产业的发展前景。生成式人工智能技术的发展势必会带来深远的影响，它在内容创作上开启无限可能，可能改变各个行业的商业模式，改变我们的工作、学习和生活、娱乐方式。另一方面，生成式人工智能只是人工智能领域的一个分支，侧重于内容生成，而决策式人工智能则凭借其强大的分析、推理、预测能力，在工业控制（机器人、汽车等）、推荐算法、图像识别等众多领域发挥重要作用。这两种人工智能并非新浪替代旧浪的关系，而是术业专攻、相辅相成，覆盖不同的应用场景。我们将密切追踪人工智能在各行各业中的实际落地应用，尤其是在各个行业、技术的交叉点上挖掘独特的商业价值。

关键词：