Part 3 · AI 基础知识（下）— Agent + 前沿方向

2.3 AI Agent

从"聊天机器人"到"AI 同事"

普通 AI 只能"聊天"，Agent 能"做事"——这是质的飞跃

🗣️ 普通 AI（ChatGPT 等）

💬

只能"说"

问一句答一句
没有工具，不能上网
没有记忆，每次从零开始

类比：客服热线
只回答问题，不做事

🤖 Agent（AI 同事）

🦾

能"做"

给个目标，自己想办法执行
有工具：能搜索、读文件、发邮件
有记忆：越用越懂你

类比：全能助理
能独立完成复杂任务

Agent 核心公式

🧠

LLM

大脑

理解意图
生成计划

🔧

Tools

手脚

搜索、读文件
调 API、写代码

💾

Memory

经验

记住偏好
越用越懂你

🎯

Planning

主动性

拆解任务
动态调整

🔄

工作流 vs 智能体——两种 Agent 模式

⚙️ 工作流（Workflow）

你提前画好流程图，AI 按步骤执行

收到消息 → 分类 → 搜索 → 生成报告 → 发送

像流水线工人：步骤固定、结果可预测
适合：重复性任务、审批流程

🧠 智能体（Agent）

你给一个目标，AI 自己想办法完成

"帮我分析竞品" → AI 自己决定搜什么、看什么、怎么写

像独立工作的助理：灵活、自主决策
适合：开放性任务、复杂分析

💪

Agent 的三大核心能力

🔧

工具调用（Tool Use）

AI 可以上网搜索、读文件、调 API、操作浏览器、发邮件……

💡 类比：助理有了手机、电脑和各种 App

🔄

多步推理（Planning）

接到复杂任务后，自己拆解步骤、逐步执行、根据中间结果动态调整计划

💡 类比：助理会自己想"先查资料→再分析→最后写报告"

💾

记忆（Memory）

记住你的偏好、历史对话和过往任务，不用每次都重新交代背景

💡 类比：助理越用越懂你，知道你喜欢什么风格

🔁

ReAct 框架——Agent 怎么"想"和"做"

当前最流行的 Agent 运行模式：思考→行动→观察，循环往复直到任务完成。

💭

Thought（思考）

"用户想要整理会议纪要，我需要先找到今天有哪些会议"

↓

⚡

Action（行动）

调用日历工具 → 查询今天的会议列表

↓

👁️

Observation（观察结果）

发现今天有 3 场会议，获取到录音转写文件路径

↓ 循环

💭

Thought（继续思考）

"现在我有了转写内容，可以开始整理纪要了"

↓

✅

完成！

调用 LLM 生成结构化纪要 → 通过微信发回给你

💡 类比：你让助理订餐厅——他先想"查什么菜系" → 搜大众点评 → 结果不满意 → 换关键词再搜 → 找到合适的 → 帮你预订。Agent 就是这样工作的。

OpenClaw 深度解析

用一个真实项目理解 Agent 是怎么工作的

OpenClaw 是一款开源的本地 AI 智能体框架，和 ChatGPT 的本质区别：ChatGPT 只能"说"，OpenClaw 能"做"

🏗️

OpenClaw 三层架构——总览

OpenClaw 像一栋三层楼的大厦，每层各司其职：

📡 Channel 层（消息渠道）—— "耳朵和嘴巴"

连接微信、飞书、Slack、WhatsApp、Telegram、Web 等 20+ 平台

⬇️

🔀 Gateway 层（网关）—— "神经中枢"

消息路由｜会话管理｜认证授权｜流量控制

⬇️

🧠 Agent 层（智能体）—— "大脑"

Soul + Skill + Memory + MCP + CLI = 完整的智能体能力

💡 接下来我们逐层拆解，看看每一层到底怎么工作的。

📡

Channel 层——怎么连接各个渠道？

Channel 层的核心任务：把来自不同平台的消息统一成一种格式，再把 AI 的回复翻译回各平台的格式。

消息格式统一化

微信消息 (XML) 飞书消息 (JSON) Slack (Webhook) Telegram (API)

→

统一内部消息格式
{user, content, channel, timestamp}

每个平台有自己的适配器（Adapter）：微信适配器处理 XML、飞书适配器处理 JSON、Telegram 适配器处理 Bot API……你只需写一次 Agent 逻辑，就能在所有平台运行。

💡 类比：就像万能充电头——不管你用 Lightning、USB-C 还是 Micro USB，都转成同一种内部接口。

🔀

Gateway 层——怎么管理会话和路由？

Gateway 层是系统的"交通调度中心"，处理四件事：

🔍

消息路由

搞清楚谁发的、在哪个群、发给哪个 Agent。一个系统可以同时运行多个 Agent，Gateway 确保消息到对的地方。

💬

会话管理

每个用户的对话独立隔离：你和 Agent 聊的内容，别人看不到。群聊和私聊也互不干扰。

🔐

认证与权限

验证用户身份，控制谁能用、能用什么功能。比如普通用户只能查询，管理员可以修改配置。

⚡

流量与限速

防止某个用户疯狂发消息导致系统过载，控制 LLM API 的调用频率和成本。

💡 类比：公司的前台——接电话、确认来访者身份、把人领到正确的会议室，但自己不做业务。

🧠

Agent 层——大脑里到底有什么？

Agent 层是整个系统最核心的部分。它不只是"调用 LLM"，而是由五大模块协作：

👻 Soul（灵魂）—— Agent 的"人格"

Soul 定义了 Agent "是谁"：它的角色、性格、行为规则、说话风格。本质上就是一段精心设计的 System Prompt。

示例：一个财务助手的 Soul

"你是一位严谨的财务顾问。回答问题时必须引用数据来源，不确定的信息要明确标注。语气专业但友好，避免使用模糊表述。"

🎯 Skill（技能）—— Agent 的"专业能力"

Skill 是 Agent 能做的具体事情，每个 Skill 是一个封装好的能力模块。Agent 根据用户请求自动选择调用哪个 Skill。

📧

发邮件

📁

读写文件

🌐

网页搜索

📊

数据分析

🐍

运行脚本

📅

日历管理

💾 Memory（记忆）—— Agent 的"经验库"

前面讲过 LLM 的上下文窗口有限。Memory 模块突破了这个限制——通过外部存储实现持久化记忆。

对话记忆（Working Memory）

当前会话的上下文，存在 LLM 的 Context Window 里

会话记忆（Session Memory）

跨轮次的短期记忆，用向量数据库存储，自动检索相关片段

长期记忆（Long-term Memory）

"你喜欢简洁报告" "你每周一需要周报"——用户画像，永久保存

共享记忆（Shared Memory）

团队知识库——多个 Agent / 多个用户共享的知识，如公司制度、产品文档

🔌 MCP（Model Context Protocol）—— Agent 的"万能接口"

MCP 是 Anthropic 提出的开放协议，让 Agent 能用统一的方式连接任何外部工具——就像 USB 统一了所有数据线。

MCP 连接示意

🧠 Agent

↔

MCP 协议层

↔

📁 文件系统 🗄️ 数据库 🌐 Web API 📱 手机 App

没有 MCP 之前，每接入一个新工具就要写一套定制代码。有了 MCP，所有工具遵循同一标准，"即插即用"。目前 Claude、ChatGPT、各种开源框架都在接入 MCP 生态。

⌨️ CLI（命令行接口）—— Agent 操作电脑的"手"

OpenClaw 的 "操作系统即界面" 理念：不自己造轮子，而是直接调用你电脑上已有的工具：

git
代码管理

python
脚本执行

ffmpeg
音视频处理

curl
网络请求

open
打开文件/App

浏览器
自动化操作

Agent 通过 CLI 执行命令就像人在终端里打字一样。当然，这也带来了安全风险——所以 OpenClaw 有权限沙箱：哪些命令允许、哪些需要人工确认、哪些彻底禁止。

Agent 层的五大模块协作流程

👻 Soul 定义人格 → 🎯 Skill 选择能力 → 🔌 MCP 连接工具 → ⌨️ CLI 执行操作 → 💾 Memory 记住经验

▶️

完整流程示例：你说"帮我整理今天的会议纪要"

Channel 层：微信适配器收到你的消息，转为统一格式发给 Gateway

Gateway 层：识别你的身份，找到你的独立会话，分发给你的 Agent

Soul 理解你的意图 → Skill 选择"日历查询"和"文档生成"技能

通过 MCP 连接日历服务 → CLI 调用脚本读取会议录音转写文件

LLM 生成结构化纪要 → Memory 记下"用户偏好简洁格式"

✓

Channel 层 将纪要通过微信发回给你——完成！

💡

设计理念、应用场景与局限性

🎯 两大设计理念

🖥️

操作系统即界面

不造轮子，直接调用电脑上的工具（git、Python、ffmpeg 等）

🔒

主权 AI

数据留在你自己的电脑上，隐私可控——对企业尤其重要

✅ 应用场景

🏠

个人助理

日程管理、邮件处理
文件整理、学习辅助

💼

办公自动化

自动生成报告、数据整理
会议纪要、工单处理

🏢

企业知识库

内部文档问答
培训支持、审批自动化

⚠️ 局限性（保持客观）

⚙️ 部署门槛
需要技术基础，不像 ChatGPT 打开就用

🧠 依赖底层模型
它是"外壳"，智能取决于接入的 LLM

⚠️ 自动化风险
AI 操作电脑有误操作风险

📝 非创意型
纯写作场景，直接用 ChatGPT 更好

🤝

Multi-Agent——多个 Agent 怎么协作？

单个 Agent 能力有限，但一组 Agent 协作就像一个 AI 团队——各有专长，互相配合。

📐 典型的 Multi-Agent 架构

🎯 Orchestrator（编排器）

接收任务 → 拆解 → 分配 → 汇总

↙ ↓ ↘

🔍

搜索 Agent

负责信息收集
联网搜索、爬取数据

✍️

写作 Agent

负责内容生成
撰写报告、方案

🔎

审校 Agent

负责质量把控
事实核查、格式审校

↘ ↓ ↙

✅ 最终输出

💬 Agent 之间怎么通信？

📨 消息传递

Agent A 的输出作为 Agent B 的输入，像接力赛一样传递

📋 共享黑板

所有 Agent 读写同一个"黑板"，类似团队共用的 Google Doc

🔄 编排器调度

中央编排器统一分配任务、收集结果、处理冲突

💡 类比：就像一个项目组——项目经理（编排器）分配任务给研究员（搜索 Agent）、写手（写作 Agent）和审稿人（审校 Agent），最后汇总交付。

OpenClaw 代表了 AI 的下一个阶段：
从"你问我答"到"你说我做"

Soul 定义人格 · Skill 提供能力 · MCP 连接世界 · CLI 操作电脑 · Memory 积累经验

从理论到实践

📍 Coze 平台——零门槛搭建你自己的 Agent

OpenClaw 理解原理 → Coze 零代码搭建。人人都能做出自己的 AI 助手！

🛠️

两种搭建模式对比

💻 新版代码模式

行业分析助手

用代码定义逻辑，更灵活、更强大

🔗 打开 Coze 代码模式 ↗

✅ 适合：有一定编程基础的用户

🎨 旧版配置模式

新闻摘要助手

拖拽配置，所见即所得，上手极快

🔗 打开 Coze 配置模式 ↗

✅ 适合：零基础用户，5 分钟搞定

📸 代码模式截图（行业分析助手）

左侧代码 + 右侧 Agent 界面

运行结果 · 核电行业分析报告

📸 配置模式截图（新闻摘要助手）

人设 + 插件 + 预览三栏界面

测试运行 · AI 精选 5 条新闻

代码模式 · 报告含来源引用

发布渠道 · 豆包/飞书/微信/API

项目开发首页 · 管理你的 Agent

5 步搭建"新闻摘要助手"——完整操作指引

用 coze.cn（国内版，免费）跟着做：

创建 Bot（30 秒）

名称：每日新闻速报简介：输入关键词，获取今日热门新闻摘要

设定人设 Prompt + 选择模型（1 分钟）

在左侧「人设与回复逻辑」区域粘贴以下 Prompt：

你是一个专业的新闻摘要助手。当用户提供一个领域关键词时，你需要：

1. 搜索该领域今天的最新新闻
2. 精选最重要的 5 条，每条用一个标题 + 一句话摘要
3. 用 2-3 句话总结今天该领域的整体趋势
4. 给出一个"你可能还想了解"的延伸话题建议

要求：
- 语言简洁、重点突出
- 每条新闻标注来源
- 用 emoji 让排版更清晰
- 如果用户没有指定领域，主动询问感兴趣的方向

模型选择：GLM-4.7（推荐，免费）或豆包 · 大模型

添加插件和技能（30 秒）

在左侧「插件」区域点击「+」，搜索并启用：

必选 🌐 联网搜索
lianwangwenda / Web Search

必选 📰 实时新闻
getRealTimeNews

推荐 🔍 综合搜索
Comprehensive_News

推荐 ⏰ 时事热搜
xinwendingshisousuo

还可以开启「知识」→「长期记忆」让 Agent 记住用户偏好。

测试调试（1 分钟）

在右侧「预览与调试」面板，分别输入以下关键词测试：

人工智能科技教育财经

确认：是否有 5 条新闻、是否标注来源、格式是否清晰。不满意就回去调 Prompt。

发布上线（可选）

点击右上角「发布」，选择渠道：

📱 豆包 App 💬 飞书机器人 🟢 微信公众号 🔗 网页链接 ⚡ API 接口

💡 总耗时约 3 分钟，你就拥有了一个能联网搜索、自动整理新闻的 AI 助手！课后可以用同样方法搭建：会议纪要助手、小红书文案生成器、作业辅导员……

🤝

Multi-Agent（多 Agent 协作）

前面在 OpenClaw 部分已经详细介绍了 Multi-Agent 的架构。这里补充实际应用现状：

🧑‍💻 Claude Code / Cursor

自动拆解编程任务给多个子 Agent 并行处理

🏢 企业级应用

客服 Agent + 工单 Agent + 知识库 Agent 联合处理用户问题

🔬 科研辅助

文献搜索 Agent + 数据分析 Agent + 论文写作 Agent 协作

🖥️

Computer Use（操作电脑）——AI 直接帮你订机票

AI 不再只是"聊天"，而是直接操作你的电脑屏幕——看到屏幕内容、移动鼠标、点击按钮、输入文字。Anthropic 的 Claude 已经发布了此功能。

✈️ 实战案例：用 AI 在携程订机票

你说"帮我订明天下午从北京到上海的机票"，AI 会像一个远程控制你电脑的助手一样操作：

1.打开浏览器 → 导航到 ctrip.com

2.识别搜索框 → 输入"北京"到"上海"→ 选择日期

3.点击搜索 → 在结果页筛选下午航班 → 按价格排序

4.选中最优航班 → 填写乘客信息（从记忆中获取）

5.暂停——提交订单前回来确认："我找到了 14:30 的东航 MU5101，票价 ¥680，确认下单吗？"

6.你确认后 → AI 点击支付（或你手动扫码支付）

⚠️ 完成这个操作需要什么？

🧠 模型要求

Claude Opus 4+ 的 Computer Use 功能
或 OpenAI Operator

🖥️ 环境配置

Docker 容器或虚拟桌面（安全沙箱）
安装 Chrome 浏览器

🔐 权限设置

屏幕录制权限
键鼠控制权限
关键：支付环节必须人工确认

🌐 网站要求

携程网页版（非 App）
无复杂验证码/人机验证
已登录账号状态

⚠️ 当前的局限

Computer Use 目前还在早期阶段：网站反爬/验证码会导致失败；复杂的多步操作容易出错；速度较慢（每步都要截屏分析）。适合简单、标准化的操作流程，复杂场景仍需人工介入。

方式一：Claude.ai 网页版（最简单）

1. 开通 Claude Pro（$20/月）或 Max 订阅
2. 在对话中输入需要操作电脑的任务
3. Claude 会请求屏幕权限，授权后即可开始
4. 示例 Prompt：

"请帮我打开携程网站，搜索明天下午从北京到上海的机票，找到最便宜的经济舱航班并告诉我信息"

方式二：Browser Use（免费开源）

github.com/browser-use/browser-use — 开源 Python 工具库，支持 DeepSeek、GPT-4o 等模型
1. 安装：pip install browser-use playwright && playwright install
2. 还有 Web UI 版本，可视化界面操作，无需写代码
3. 支持多标签页管理、视觉识别、自我纠正机制
4. 可搭配免费模型（如 DeepSeek、本地 Ollama）使用，完全零成本

🔌

MCP 协议——怎么让 AI 连接你的工具？

Model Context Protocol 是 Anthropic 提出的开放标准，让 AI 能用统一的方式连接任何外部工具——就像 USB 统一了所有数据线。前面在 Agent 层已介绍了原理，这里重点讲怎么用。

🛠️ 实操：给 Claude 接入 MCP 工具

安装 Claude Desktop（macOS / Windows）
从 claude.ai/download 下载安装

编辑配置文件：打开 ~/Library/Application Support/Claude/claude_desktop_config.json
添加你想接入的 MCP Server 配置

重启 Claude Desktop，即可在对话中使用新接入的工具
Claude 会自动识别可用的 MCP 工具并在需要时调用

📦 常用 MCP Server 示例

📁 filesystem
读写本地文件和文件夹

🗄️ sqlite / postgres
直接查询和操作数据库

🐙 github
管理代码仓库、PR、Issue

🌐 brave-search
联网搜索获取实时信息

📧 gmail / outlook
读取和发送邮件

🔧 自定义 Server
用 Python/Node.js 写自己的工具

💡 关键认知：MCP 生态正在快速发展，目前已有数百个开源 MCP Server。未来 AI 连接工具会像手机装 App 一样简单——找到 → 安装 → 直接用。

2026 年是 Agent 爆发之年
每个人都会拥有自己的 AI 助理

从"你问我答"到"你说我做"，这个转变正在发生

🤖 AI Agent + 前沿方向