深度解析Multi-Agent：Web3与AI终将相互成就？_区块链资讯

2024-11-10

深度解析Multi-Agent：Web3与AI终将相互成就？

如果说 AIGC 开启了内容生成的智能时代，那么 AI Agent 则有机会把 AIGC 的能力真正产品化。

AI Agent 像一位更具象的全能员工，被称为是人工智能机器人的初级形态，能够如同人类一般观察周遭环境、做出决策，并自动采取行动。

比尔·盖茨曾直言，“掌控 AI Agent，才是真正的成就。届时，你将不再需要亲自上网搜索信息。”AI 领域的权威专家们同样对 AI Agent 的前景寄予厚望。微软 CEO 萨提亚·纳德拉曾预言，AI Agent 将成为人机交互的主要方式，能够理解用户需求并主动提供服务。吴恩达教授亦预测，在未来的工作环境中，人类和 AI Agent 将以更加紧密的方式协作，形成高效的工作模式，提高效率。

AI Agent 不单是技术的产物，更是未来生活与工作方式的核心。

这不禁让人回想，当 Web3 和区块链刚引起广泛讨论时，人们也常常用"颠覆"一词来形容这项技术的潜力。回顾过去几年，Web3 从最初的 ERC-20、零知识证明，逐渐发展到了与其他领域相融合的 DeFi、DePIN、GameFi 等。

若将 Web3 与 AI 这两大热门数字科技相结合，会不会产生 1 1>2 的效果呢？融资规模越来越庞大的Web3 AI 项目，能否为行业带来新的用例范式，创造新的真实需求？

AI Agent：人类最理想的智能助手

AI Agent 的想象力到底在哪里？网上盛传一个高分答案，“大语言模型只能编个贪吃蛇，而 AI Agent 可以编出一整个王者荣耀。”听起来很夸张，但并未言过其实。

Agent，国内通常翻译为“智体”。这一概念由“人工智能之父” Minsky 在 1986 年出版的《思维的社会》一书中提出，Minsky 认为社会中的某些个体经过协商之后可得出某一问题的解，这些个体就是 Agent。多年来，Agent 一直是人机交互的基石，从微软的剪辑助手 Clippy 到 Google Docs 的自动建议，这些早期形态的 Agent 表现出了个性化交互的潜力，但在处理更复杂任务方面能力仍然有限。直到大语言模型（LLM）的出现，Agent 的真正潜力才得以被挖掘。

今年 5 月，AI 领域权威学者吴恩达教授在美国红杉 AI 活动上分享了关于 AI Agent 的演讲，在其中，他展示了其团队做的一系列实验：

让 AI 去写一些代码并运行，对比不同 LLM 和工作流程得出的结果。结果如下：

GPT-3.5 模型：准确率 48%
GPT-4 模型：准确率 67%
GPT-3.5 Agent：高于 GPT-4 模型的表现
GPT-4 Agent：远高于 GPT-4 模型，非常出色

深度解析Multi-Agent：Web3与AI终将相互成就？

的确。大多数人在使用 ChatGPT 这种 LLM 时，方式通常是：输入一段提示词，大模型会立即生成答案，不会自动识别和纠正错误删除重写。

相比之下，AI Agent 工作流程是这样的：

首先，先让 LLM 写一个文章大纲，如有必要，先在互联网上搜索内容进行调研分析，输出初稿，然后阅读草稿并思考如何优化，如此循环往复、多次迭代，最终输出一篇逻辑严谨、错误率最低的高质量文章。

我们可以发现，AI Agent 与 LLM 的区别在于，LLM 与人类之间的交互基于提示词（prompt）进行。而 AI Agent 仅需设定一个目标，它就能够针对目标独立思考并做出行动。根据给定任务详细拆解出每一步的计划步骤，依靠来自外界的反馈和自主思考，自己给自己创建 prompt，来实现目标。

因此 OpenAI 对 AI Agent 的定义是：以 LLM 为大脑驱动，具有自主理解感知、规划、记忆和使用工具的能力，能自动化执行完成复杂任务的系统。

当 AI 从被使用的工具变成可以使用工具的主体，就成为了 AI Agent。这也正是 AI Agent 可以成为人类最理想智能助手的原因所在。例如，AI Agent 能够基于用户历史线上互动，了解并记忆用户的兴趣、偏好、日常习惯，识别用户的意图，主动提出建议，并协调多个应用程序去完成任务。

深度解析Multi-Agent：Web3与AI终将相互成就？

就如同在盖茨的构想中，未来我们不再需要为不同的任务切换到不同的应用中，只需用平常的语言告诉电脑和手机想做什么，根据用户愿意共享的数据，AI Agent 将提供个性化的响应。