大模型能力竞争终局已定

2023年11月6日兴许会成为一个人类历史上一个里程碑式的时刻，在这一天，美国旧金山迎来了万众瞩目的首次OpenAI DevDay。期间，OpenAI CEO Sam Altman 展示了无比强大的GPT4-turbo和各种面向开发者的更新，这些新的功能覆盖了几乎市场对ChatGPT所期望的方方面面，从多模态到长文支持，从外部知识库到API指令集，从全面性能更高的性能到全新的GPT Store。

其惊人的能力引起激烈的讨论：包括老生常谈的“GPT是否会让某些工作岗位岌岌可危”；是否GPT的iPhone时代已经到来；是否一批LLM方向的AI创业公司即将失去生存空间，OpenAI是否会“赢者通吃”？

这次堪称史诗级的迭代更新，带来纷繁复杂的社会讨论，和未来的无限可能。相较于去追逐细化的各个功能性更新，了解未来发展的脉搏其实才是关键。为此，我们不再赘述各种新功能的意义，而是基于两个核心观点，从科技发展的脉络梳理未来，我们也许正站在新工业革命的新分界点：

1.过往： GPT-3.5就已经预示着LLM大模型竞争时代的结束

2.未来：围绕Agent的新时代开启，我们称之为Agent-Centric

这次DevDay的主要内容恰恰是“过去”与“未来”中继往开来的里程碑。

01、GPT能力的完善与大模型能力竞争的终结

OpenAI发布ChatGPT3.5引爆市场的几个月间，引发了一场大语言模型“大跃进式”的风暴。互联网巨头、风险投资、企业家、AI初创企业和开源社区投身于大模型的竞赛之中，各种大模型初创公司，各种开源模型层出不穷。在这场混战中，各家大模型都在理解力、数学逻辑、推理、创作等各种能力上你追我赶，而其目标几乎都是能够在综合能力上追赶ChatGPT。为了战胜ChatGPT，行业中几乎共识出两个重要的方向，即

1.多模态支持：认为人类的能力和思想来源于语言，文字，画面各种维度，所以实现多模态是超越LLM很重要的方式之一

2.记忆力与token长度：LLM最大的亮点之一便是语境中分析，而之前只能支持很短的描述限制了LLM的能力，所以，也有想通过增强记忆来提升模型，超越ChatGPT

然后实际的事实却大相径庭，ChatGPT不但在不同版本发布后能力上遥遥领先，而这次的GPT-4 Turbo的两个重要改进就是：多模态支持，包括语音，图片，视频等等；128K Token的长文本支持，大致相当于300多页的图书，直接秒杀行业中找到的两个突破方向，结束了比赛。

多模态支持和长文本处理能力的突破注定会被OpenAI实现，这背后主要有两个原因。首先，大型语言模型（LLM）的成功很大程度上归因于一种‘暴力美学’，即通过大规模参数的增加实现性能的飞跃和涌现能力的出现。这种方法的核心在于其泛化能力——从一个问题的解决方法中发现解决另一个问题的途径。OpenAI在模型理解和经验方面处于行业领先地位，加之在基础设施、算力和数据等方面的优势，使其成为这一领域的领跑者。其次，对于多模态和长文本支持这两个方向，由于AI研究领域的长期积累，这些主要变成了工程上的实现，而不再是理论上的障碍和挑战。实际上，GPT3.5问世所体现的泛化能力和在涌现上的突破，就已经是决定性的，也预示着LLM能力之争的终结，最近GPT4-Turbo的更新只是让这件事情成为既成事实，同时也开启了整个LLM革命的新时代。

需要指出，大模型能力之争的终结并不指只有OpenAI一家公司独大，而是指其它大模型所发展的方向和生存，不再是以模型基础能力为主要考量，将会向更多复杂的因素延展。

总体来说，大模型竞争格局开启“一超多强“时代，其中 OpenAI凭借其领先的技术成为"一超"，能力不断的提升，展示了大模型基础性能的天花板；与此同时，一批实力雄厚公司所研发的大模型，虽然在性能上与OpenAI的大模型有差距，但是依靠特定方向的能力提升或者其它赛道上的独特优势成为大模型领域的“多强”。在特定地域、特定应用场景、特定生态系统中占据绝对优势。

值得一提的是，在这“多强”中有很重要的一支力量就是开源模型，并且扮演了重要的角色。作为新时代底层基础设施的核心，越是底层，越强调民主和开源精神。如果大公司的大模型强调的是特异化的功能和生态支持提升体验，那么开源模型则具有易于获取和成本效益高的特点。开源模型不仅推动了技术的广泛传播和创新，而且为AI创业者提供了一个快速迭代和验证新理论、算法的有效平台，这对新技术的发展和商业化至关重要。如此，开源模型与大公司的闭源模型相辅相成，形成了一个动态平衡和互补的生态系统。

这样的大趋势和新生态系统正在形成中，“一超”的领地门槛高，很难突破，而多强的机遇，正在逐渐显现，其中最大的主线就是新型AI Agents，各种AI Agents将会开启新的智能代理时代。

02、新工业革命时代的Agent-centric开启

回顾整个数字时代历史，每个时期都有一个最核心的产品形态，这个核心产品形态是技术能够被全面应用和普惠到每一个人日常生活的媒介，也是在时代革命中最能产生价值和机会的领域。

最近的两次是互联网和移动互联网。以PC为主的互联网时代，最重要的产品形态自然是网页，是人们与虚拟交互门户，围绕这个核心，互联网时代即诞生过.com的巨大泡沫，在泡沫过程中，有潮起潮落的新企业，例如Yahoo，网景等等，更有抓住了时代机遇，站立在今天世界巅峰的新科技巨头，例如Google，Amazon，eBay，Microsoft等等。

在移动互联网时代，我们每天接触的就是各种APP，APP就是这个时代的核心产品形态，这个时代成长起来的科技巨头包括国外的Facebook、Uber、Airbnb，国内的腾讯、阿里、字节跳动都。

APP是这些巨头曾经一步一步进入人们生活的点点滴滴的媒介。在如今的大模型AI时代，这个媒介就是新的AI Agent，或者说由大模型驱动和赋能的AI Agent。

从“一超”OpenAI的DevDay来看，这次被行业讨论最多的更新恰恰就是针对Agent，让普通人和开发者能够以更低的门槛去参与这次AI浪潮。

1、OpenAI 面向开发者：Agent的核心组件

新型Agent区别于上一代AI 或者模型，粗略讲包括以下几个部分：

1.以大模型来实现大脑能力，提供最直觉的结论

2.以记忆和知识库为核心，为特定的领域和目标提供精准的结果，去除”大脑“产生的幻觉

3.以各种外部API作为触手，将Agent得出的各种结论，转化成实际的行为

除了前面提到的GPT-4 Turbo的能力，给了未来各种Agents一个更强大的”大脑“，这次DevDay的其它更新，其实也都是围绕着构建Agent，除了一些降低开发门槛，改进开发体验的更新，我们特别要提的三个重要更新，正好与上面Agent的核心组件相关：

1.知识数据库(retrieval platform)：任何智能代理的基础都是其知识库。在DevDay上，知识数据库的增强成为了焦点，强调了代理（Agents）从广阔、动态的特定信息库中提取知识的能力。DevDay之后全网火爆的各种GPTs，最重要的就是使用了这个新的知识库。

2.执行能力：代理不仅能解释任务，更能执行任务的能力被突出展示。这些能力标志着向更加自主、主动的AI系统的转变，这些系统能够在最小的人工干预下运作。

3.GPT商店 - 应用市场：就像曾经革命性地改变了手机使用方式的应用商店一样，GPT商店即将成为一个以AI代理为核心的应用中心市场。这个平台将成为推动众多AI驱动服务和创新的跳板。OpenAI用自己的用户流量和已有生态为未来的Agent提供更好的用户获取。

2、Agent-Centric时代的开启

正如我们所说的，我们将大模型理解为一个更加基础的新基建，那么在这个基建阶段性完善后，这个世界将迎来基于这个新基建的大变革，这也是我们所说的由大模型引发的工业革命，而在这个革命中，Agent就是那个核心产品形态，不仅是最上层与所有人交互的媒介是Agent，整个产业的发展，无论是底层技术，商业模式，中间组件，甚至是人们的生活习惯和行为都会围绕Agent 来改变，这就是我们所说的 Agent-Centric 时代的开启。

在未来的十年，以大模型作为新基建，Agent作为核心的产品形态很可能成为大众用户交互的媒介。提升Agent的相关性能、体验和使用领域，即将成为推动整个产业链——从底层技术到商业模式的核心目标，Agent改变人们习惯和行为或成为未来人类社会最重要的范式转变，这就是Agent Centric时代的到来。

这里特别要提一下在Agent-Centric时代中，Agent与LLM的关系。普遍的观点会觉得LLM与Agent的关系类似于操作系统（安卓，IOS) 与APP之间的关系，这种比喻有助于我们理解LLM如何为Agent提供智能平台和基础架构。就像这次DevDay发布的GPT Store被很多人称为“GPT的iPhone时刻”一样，预示着基建的阶段性成熟和Agent生态的开启。

然而这种类比其实遗落了一个这次工业革命很重要的一个原动力——能力的进化。

对应互联网时代的工业演化，将LLM比作互联网基础设施可能是一个更为贴切的比喻。在这个类比中，大模型仿佛是互联网本身，而每个Agent则像是利用互联网能力的独特应用程序或网站。

正如4G和5G的推出催生了新一代的应用和服务，大模型的能力提升也将导致Agent的创新和进化。这不仅仅是我们对未来的期待，更体现了LLM和Agent之间深层次的联系和相互依赖。这个类比还预示着未来一种新的无限可能：互联网时代，我们通过网页，APP与地球上任何角落的其他人直接交换信息和沟通，而未来人与人之间交流都是通过Agent的间接交互，这种全新的交互可能会完全改变我们在互联网时代以及移动互联网时代形成的行为和社会协作，我们也将在未来的系列内容中进一步深入探讨这种最深层次的范式转变。

在2023年上半年Stanford发表关于Agent小镇的研究工作，就预示了Agent-Centric时代的到来，而11月6日OpenAI的DevDay再次给出了里程碑式的提升和印证。全新的时代机遇到来令人兴奋，同时大家也会有疑惑，会不会过段时间OpenAI又更新了，之前想做的东西又没用了？巨头是否会赢者通吃？如何才能拥抱Agent时代？

03、机遇：跨越临界点之后的方向

在新的工业时代，应该用什么样的方法论去寻找努力和发展的方向，或者说如何才能实现未来的百花齐放的Agent世界？一个最基本的原理当然是：做离OpenAI最远的东西，从另一个角度“人”去思考问题。之所以DevDay让许多创业公司需要重新思考业务、方向和估值模型，很大的根本性原因还在于，很多思维依然停留在为OpenAI做一点点乐高式的叠加工作，从ChatGPT性能和不足等各种小的角度去做一些中间组件，但是在能力这个维度上，这些“一点点”自然也是OpenAI要做的方向，每当OpenAI快速迭代后，自然也就失去了原有的高光，甚至迅速失去生存空间。

那么什么是最远离OpenAI东西？

1.专业化和个性化，专注自上而下的发展：市场上对高度专业化和个性化解决方案的需求日益增长。在一个由OpenAI的广泛能力定义标准的领域里，为特定行业或用户需求提供定制服务具有巨大的价值。如果大模型是普适的底座，那么Agent就会出现各个方向上专属的适配。

2.超越LLM，做LLM做不了的高级认知能力：未来属于那些推动AI在认知方面能力极限的人。这包括两个方面：1.开发具有长期记忆和类似人类系统；2.具有思维的主动推理能力的Agent：GPT-4 Turbo 给出了长Token更新，使得GPT能够一次性理解一盘300页的长文，能够在一段时间记住一篇文章和人类的长期记忆还是有很大的不同的，如何去处理、模拟、超越人的长期记忆是Agent方向很重要的课题，也是超越OpenAI能力的一个重要的方向。

和长期记忆相关的，另一个重要的能力就是所谓人脑的System2能力，这是由诺贝尔经济学奖得主（2002年）Daniel Kahneman在其著作《思考：快与慢》中提出人脑的能力可以分为System1 和 System2。大模型其实是“人脑”system1的能力，更偏向于直觉，经验，和“快”反应，这是大模型作为预测模型所决定的，那么Agent能做的就是补充System2的”慢“能力，和长期记忆结合，提供更加复杂的决策、逻辑归因、推理、创作等等。

3.从指令反馈系统转变为能够主动规划和自主决策的系统：在过去大量Agent是被动交互，即在人类起始指令和最终目标的指引下，去完成特定任务，那么大模型驱动的Agent潜在的可以自己主动的去做规划和自主决策，主动与用户交互，给到完全不一样的体验。这也是大模型本身目前不具有的高阶功能，而且是没有办法完全标准化的功能。这样的能力需要在Agent层面实现。

4.重塑人机互动HCI（Human–Computer Interaction）：前面我们就提到了Agent在未来会极大重塑人与人之间交互的方式。那么随着大模型本身的提升和对Agent更多的支持，我们甚至会重新定义人与机器之间的交互界面和方式，我们的目标应该超越协助，发展成为合作伙伴关系，在这种关系中，AI系统参与复杂问题的解决和共同创造。

04、结语：深入研究Agent的重要性

（由GPT4生成，笔者修改）

在OpenAI DevDay展示的技术进步和对未来工业革命脉动的深刻洞察基础上，我们可以预见AI Agent的核心角色将成为推动未来技术革新和社会变迁的关键。在这个由Agent主导的新纪元，我们不仅将见证技术的突破，还将经历人类行为和社会合作模式的深刻变革。

作为新时代的媒介和合作者，AI Agent将在提升生活质量、优化商业流程、乃至催生新兴行业方面发挥至关重要的作用。未来的探索和讨论将不可避免地集中于AI Agent的开发、应用以及它们如何以全新的方式与人类互动。因此，我们计划在后续的文章中，从工业革命的进程、分类、技术架构、能力突破以及范式转变等多角度系统性地解析新型AI Agent的未来发展和技术迭代。希望能够通过深入探讨AI Agent的本质和未来走向，了解和进一步把握这个激动人心的时代变革的脉搏。