2024-11-10
深度解析Multi-Agent:Web3与AI终将相互成就?
深度解析Multi-Agent:Web3与AI终将相互成就?
如果说 AIGC 开启了内容生成的智能时代,那么 AI Agent 则有机会把 AIGC 的能力真正产品化。
AI Agent 像一位更具象的全能员工,被称为是人工智能机器人的初级形态,能够如同人类一般观察周遭环境、做出决策,并自动采取行动。
比尔·盖茨曾直言,“掌控 AI Agent,才是真正的成就。届时,你将不再需要亲自上网搜索信息。”AI 领域的权威专家们同样对 AI Agent 的前景寄予厚望。微软 CEO 萨提亚·纳德拉曾预言,AI Agent 将成为人机交互的主要方式,能够理解用户需求并主动提供服务。吴恩达教授亦预测,在未来的工作环境中,人类和 AI Agent 将以更加紧密的方式协作,形成高效的工作模式,提高效率。
AI Agent 不单是技术的产物,更是未来生活与工作方式的核心。
这不禁让人回想,当 Web3 和区块链刚引起广泛讨论时,人们也常常用"颠覆"一词来形容这项技术的潜力。回顾过去几年,Web3 从最初的 ERC-20、零知识证明,逐渐发展到了与其他领域相融合的 DeFi、DePIN、GameFi 等。
若将 Web3 与 AI 这两大热门数字科技相结合,会不会产生 1 1>2 的效果呢?融资规模越来越庞大的Web3 AI 项目,能否为行业带来新的用例范式,创造新的真实需求?
AI Agent:人类最理想的智能助手
AI Agent 的想象力到底在哪里?网上盛传一个高分答案,“大语言模型只能编个贪吃蛇,而 AI Agent 可以编出一整个王者荣耀。”听起来很夸张,但并未言过其实。
Agent,国内通常翻译为“智体”。这一概念由“人工智能之父” Minsky 在 1986 年出版的《思维的社会》一书中提出,Minsky 认为社会中的某些个体经过协商之后可得出某一问题的解,这些个体就是 Agent。多年来,Agent 一直是人机交互的基石,从微软的剪辑助手 Clippy 到 Google Docs 的自动建议,这些早期形态的 Agent 表现出了个性化交互的潜力,但在处理更复杂任务方面能力仍然有限。直到大语言模型(LLM)的出现,Agent 的真正潜力才得以被挖掘。
今年 5 月,AI 领域权威学者吴恩达教授在美国红杉 AI 活动上分享了关于 AI Agent 的演讲,在其中,他展示了其团队做的一系列实验:
让 AI 去写一些代码并运行,对比不同 LLM 和工作流程得出的结果。结果如下:
GPT-3.5 模型:准确率 48%
GPT-4 模型:准确率 67%
GPT-3.5 Agent:高于 GPT-4 模型的表现
GPT-4 Agent:远高于 GPT-4 模型,非常出色
的确。大多数人在使用 ChatGPT 这种 LLM 时,方式通常是:输入一段提示词,大模型会立即生成答案,不会自动识别和纠正错误删除重写。
相比之下,AI Agent 工作流程是这样的:
首先,先让 LLM 写一个文章大纲,如有必要,先在互联网上搜索内容进行调研分析,输出初稿,然后阅读草稿并思考如何优化,如此循环往复、多次迭代,最终输出一篇逻辑严谨、错误率最低的高质量文章。
我们可以发现,AI Agent 与 LLM 的区别在于,LLM 与人类之间的交互基于提示词(prompt)进行。而 AI Agent 仅需设定一个目标,它就能够针对目标独立思考并做出行动。根据给定任务详细拆解出每一步的计划步骤,依靠来自外界的反馈和自主思考,自己给自己创建 prompt,来实现目标。
因此 OpenAI 对 AI Agent 的定义是:以 LLM 为大脑驱动,具有自主理解感知、规划、记忆和使用工具的能力,能自动化执行完成复杂任务的系统。
当 AI 从被使用的工具变成可以使用工具的主体,就成为了 AI Agent。这也正是 AI Agent 可以成为人类最理想智能助手的原因所在。例如,AI Agent 能够基于用户历史线上互动,了解并记忆用户的兴趣、偏好、日常习惯,识别用户的意图,主动提出建议,并协调多个应用程序去完成任务。
就如同在盖茨的构想中,未来我们不再需要为不同的任务切换到不同的应用中,只需用平常的语言告诉电脑和手机想做什么,根据用户愿意共享的数据,AI Agent 将提供个性化的响应。