Module 2 · 下半场

🤖 AI Agent + 前沿方向

从"聊天机器人"到"能帮你做事的 AI 同事"——AI 的下一个阶段

从"聊天机器人"到"AI 同事"

普通 AI 只能"聊天",Agent 能"做事"——这是质的飞跃

🗣️ 普通 AI(ChatGPT 等)

💬

只能"说"

问一句答一句
没有工具,不能上网
没有记忆,每次从零开始

类比:客服热线
只回答问题,不做事

🤖 Agent(AI 同事)

🦾

能"做"

给个目标,自己想办法执行
有工具:能搜索、读文件、发邮件
有记忆:越用越懂你

类比:全能助理
能独立完成复杂任务

Agent 核心公式

🧠
LLM
大脑
理解意图
生成计划
🔧
Tools
手脚
搜索、读文件
调 API、写代码
💾
Memory
经验
记住偏好
越用越懂你
🎯
Planning
主动性
拆解任务
动态调整
🔄

工作流 vs 智能体——两种 Agent 模式

⚙️ 工作流(Workflow)

你提前画好流程图,AI 按步骤执行

收到消息 → 分类 → 搜索 → 生成报告 → 发送

流水线工人:步骤固定、结果可预测
适合:重复性任务、审批流程

🧠 智能体(Agent)

你给一个目标,AI 自己想办法完成

"帮我分析竞品" → AI 自己决定搜什么、看什么、怎么写

独立工作的助理:灵活、自主决策
适合:开放性任务、复杂分析

💪

Agent 的三大核心能力

🔧

工具调用(Tool Use)

AI 可以上网搜索、读文件、调 API、操作浏览器、发邮件……

💡 类比:助理有了手机、电脑和各种 App
🔄

多步推理(Planning)

接到复杂任务后,自己拆解步骤、逐步执行、根据中间结果动态调整计划

💡 类比:助理会自己想"先查资料→再分析→最后写报告"
💾

记忆(Memory)

记住你的偏好、历史对话和过往任务,不用每次都重新交代背景

💡 类比:助理越用越懂你,知道你喜欢什么风格
🔁

ReAct 框架——Agent 怎么"想"和"做"

当前最流行的 Agent 运行模式:思考→行动→观察,循环往复直到任务完成。

💭

Thought(思考)

"用户想要整理会议纪要,我需要先找到今天有哪些会议"

Action(行动)

调用日历工具 → 查询今天的会议列表

👁️

Observation(观察结果)

发现今天有 3 场会议,获取到录音转写文件路径

↓ 循环
💭

Thought(继续思考)

"现在我有了转写内容,可以开始整理纪要了"

完成!

调用 LLM 生成结构化纪要 → 通过微信发回给你

💡 类比:你让助理订餐厅——他先想"查什么菜系" → 搜大众点评 → 结果不满意 → 换关键词再搜 → 找到合适的 → 帮你预订。Agent 就是这样工作的。
案例深入

🦞 OpenClaw

"The AI that actually does things"——真正能帮你干活的 AI 数字员工

用一个真实项目理解 Agent 是怎么工作的

OpenClaw 是一款开源的本地 AI 智能体框架,和 ChatGPT 的本质区别:ChatGPT 只能"说",OpenClaw 能"做"

🏗️

OpenClaw 三层架构——总览

OpenClaw 像一栋三层楼的大厦,每层各司其职:

📡 Channel 层(消息渠道)—— "耳朵和嘴巴"

连接微信、飞书、Slack、WhatsApp、Telegram、Web 等 20+ 平台

⬇️

🔀 Gateway 层(网关)—— "神经中枢"

消息路由 | 会话管理 | 认证授权 | 流量控制

⬇️

🧠 Agent 层(智能体)—— "大脑"

Soul + Skill + Memory + MCP + CLI = 完整的智能体能力

💡 接下来我们逐层拆解,看看每一层到底怎么工作的。
📡

Channel 层——怎么连接各个渠道?

Channel 层的核心任务:把来自不同平台的消息统一成一种格式,再把 AI 的回复翻译回各平台的格式。

消息格式统一化

微信消息 (XML) 飞书消息 (JSON) Slack (Webhook) Telegram (API)
统一内部消息格式
{user, content, channel, timestamp}

每个平台有自己的适配器(Adapter):微信适配器处理 XML、飞书适配器处理 JSON、Telegram 适配器处理 Bot API……你只需写一次 Agent 逻辑,就能在所有平台运行。

💡 类比:就像万能充电头——不管你用 Lightning、USB-C 还是 Micro USB,都转成同一种内部接口。
🔀

Gateway 层——怎么管理会话和路由?

Gateway 层是系统的"交通调度中心",处理四件事:

🔍

消息路由

搞清楚谁发的、在哪个群、发给哪个 Agent。一个系统可以同时运行多个 Agent,Gateway 确保消息到对的地方。

💬

会话管理

每个用户的对话独立隔离:你和 Agent 聊的内容,别人看不到。群聊和私聊也互不干扰。

🔐

认证与权限

验证用户身份,控制谁能用、能用什么功能。比如普通用户只能查询,管理员可以修改配置。

流量与限速

防止某个用户疯狂发消息导致系统过载,控制 LLM API 的调用频率和成本。

💡 类比:公司的前台——接电话、确认来访者身份、把人领到正确的会议室,但自己不做业务。
🧠

Agent 层——大脑里到底有什么?

Agent 层是整个系统最核心的部分。它不只是"调用 LLM",而是由五大模块协作:

👻 Soul(灵魂)—— Agent 的"人格"

Soul 定义了 Agent "是谁":它的角色、性格、行为规则、说话风格。本质上就是一段精心设计的 System Prompt

示例:一个财务助手的 Soul

"你是一位严谨的财务顾问。回答问题时必须引用数据来源,不确定的信息要明确标注。语气专业但友好,避免使用模糊表述。"

🎯 Skill(技能)—— Agent 的"专业能力"

Skill 是 Agent 能做的具体事情,每个 Skill 是一个封装好的能力模块。Agent 根据用户请求自动选择调用哪个 Skill。

📧

发邮件

📁

读写文件

🌐

网页搜索

📊

数据分析

🐍

运行脚本

📅

日历管理

💾 Memory(记忆)—— Agent 的"经验库"

前面讲过 LLM 的上下文窗口有限。Memory 模块突破了这个限制——通过外部存储实现持久化记忆。

1

对话记忆(Working Memory)

当前会话的上下文,存在 LLM 的 Context Window 里

2

会话记忆(Session Memory)

跨轮次的短期记忆,用向量数据库存储,自动检索相关片段

3

长期记忆(Long-term Memory)

"你喜欢简洁报告" "你每周一需要周报"——用户画像,永久保存

4

共享记忆(Shared Memory)

团队知识库——多个 Agent / 多个用户共享的知识,如公司制度、产品文档

🔌 MCP(Model Context Protocol)—— Agent 的"万能接口"

MCP 是 Anthropic 提出的开放协议,让 Agent 能用统一的方式连接任何外部工具——就像 USB 统一了所有数据线。

MCP 连接示意

🧠 Agent
MCP 协议层
📁 文件系统 🗄️ 数据库 🌐 Web API 📱 手机 App

没有 MCP 之前,每接入一个新工具就要写一套定制代码。有了 MCP,所有工具遵循同一标准,"即插即用"。目前 Claude、ChatGPT、各种开源框架都在接入 MCP 生态。

⌨️ CLI(命令行接口)—— Agent 操作电脑的"手"

OpenClaw 的 "操作系统即界面" 理念:不自己造轮子,而是直接调用你电脑上已有的工具

git
代码管理
python
脚本执行
ffmpeg
音视频处理
curl
网络请求
open
打开文件/App
浏览器
自动化操作

Agent 通过 CLI 执行命令就像人在终端里打字一样。当然,这也带来了安全风险——所以 OpenClaw 有权限沙箱:哪些命令允许、哪些需要人工确认、哪些彻底禁止。

Agent 层的五大模块协作流程

👻 Soul 定义人格 → 🎯 Skill 选择能力 → 🔌 MCP 连接工具 → ⌨️ CLI 执行操作 → 💾 Memory 记住经验
▶️

完整流程示例:你说"帮我整理今天的会议纪要"

1
Channel 层:微信适配器收到你的消息,转为统一格式发给 Gateway
2
Gateway 层:识别你的身份,找到你的独立会话,分发给你的 Agent
3
Soul 理解你的意图 → Skill 选择"日历查询"和"文档生成"技能
4
通过 MCP 连接日历服务 → CLI 调用脚本读取会议录音转写文件
5
LLM 生成结构化纪要 → Memory 记下"用户偏好简洁格式"
Channel 层 将纪要通过微信发回给你——完成!
💡

设计理念、应用场景与局限性

🎯 两大设计理念

🖥️

操作系统即界面

不造轮子,直接调用电脑上的工具(git、Python、ffmpeg 等)

🔒

主权 AI

数据留在你自己的电脑上,隐私可控——对企业尤其重要

✅ 应用场景

🏠

个人助理

日程管理、邮件处理
文件整理、学习辅助

💼

办公自动化

自动生成报告、数据整理
会议纪要、工单处理

🏢

企业知识库

内部文档问答
培训支持、审批自动化

⚠️ 局限性(保持客观)

⚙️ 部署门槛
需要技术基础,不像 ChatGPT 打开就用

🧠 依赖底层模型
它是"外壳",智能取决于接入的 LLM

⚠️ 自动化风险
AI 操作电脑有误操作风险

📝 非创意型
纯写作场景,直接用 ChatGPT 更好

🤝

Multi-Agent——多个 Agent 怎么协作?

单个 Agent 能力有限,但一组 Agent 协作就像一个 AI 团队——各有专长,互相配合。

📐 典型的 Multi-Agent 架构

🎯 Orchestrator(编排器)

接收任务 → 拆解 → 分配 → 汇总

↙ ↓ ↘

🔍

搜索 Agent

负责信息收集
联网搜索、爬取数据

✍️

写作 Agent

负责内容生成
撰写报告、方案

🔎

审校 Agent

负责质量把控
事实核查、格式审校

↘ ↓ ↙
✅ 最终输出

💬 Agent 之间怎么通信?

📨 消息传递

Agent A 的输出作为 Agent B 的输入,像接力赛一样传递

📋 共享黑板

所有 Agent 读写同一个"黑板",类似团队共用的 Google Doc

🔄 编排器调度

中央编排器统一分配任务、收集结果、处理冲突

💡 类比:就像一个项目组——项目经理(编排器)分配任务给研究员(搜索 Agent)、写手(写作 Agent)和审稿人(审校 Agent),最后汇总交付。
OpenClaw 代表了 AI 的下一个阶段:
"你问我答""你说我做"
Soul 定义人格 · Skill 提供能力 · MCP 连接世界 · CLI 操作电脑 · Memory 积累经验

📍 Coze 平台——零门槛搭建你自己的 Agent

OpenClaw 理解原理 → Coze 零代码搭建。人人都能做出自己的 AI 助手!

🛠️

两种搭建模式对比

💻 新版代码模式

行业分析助手

用代码定义逻辑,更灵活、更强大

🔗 打开 Coze 代码模式 ↗

✅ 适合:有一定编程基础的用户
🎨 旧版配置模式

新闻摘要助手

拖拽配置,所见即所得,上手极快

🔗 打开 Coze 配置模式 ↗

✅ 适合:零基础用户,5 分钟搞定

📸 代码模式截图(行业分析助手)

代码模式全貌
左侧代码 + 右侧 Agent 界面
运行行业分析报告
运行结果 · 核电行业分析报告

📸 配置模式截图(新闻摘要助手)

配置三栏
人设 + 插件 + 预览 三栏界面
测试运行
测试运行 · AI 精选 5 条新闻
报告信息来源
代码模式 · 报告含来源引用
发布渠道
发布渠道 · 豆包/飞书/微信/API
项目管理
项目开发首页 · 管理你的 Agent
5

5 步搭建"新闻摘要助手"——完整操作指引

coze.cn(国内版,免费)跟着做:

1

创建 Bot(30 秒)

登录 coze.cn → 点击左上角「+ 创建」→ 选择「项目」

名称:每日新闻速报 简介:输入关键词,获取今日热门新闻摘要
2

设定人设 Prompt + 选择模型(1 分钟)

在左侧「人设与回复逻辑」区域粘贴以下 Prompt:

你是一个专业的新闻摘要助手。当用户提供一个领域关键词时,你需要: 1. 搜索该领域今天的最新新闻 2. 精选最重要的 5 条,每条用一个标题 + 一句话摘要 3. 用 2-3 句话总结今天该领域的整体趋势 4. 给出一个"你可能还想了解"的延伸话题建议 要求: - 语言简洁、重点突出 - 每条新闻标注来源 - 用 emoji 让排版更清晰 - 如果用户没有指定领域,主动询问感兴趣的方向
模型选择:GLM-4.7(推荐,免费)或豆包 · 大模型
3

添加插件和技能(30 秒)

在左侧「插件」区域点击「+」,搜索并启用:

必选 🌐 联网搜索
lianwangwenda / Web Search

必选 📰 实时新闻
getRealTimeNews

推荐 🔍 综合搜索
Comprehensive_News

推荐 ⏰ 时事热搜
xinwendingshisousuo

还可以开启「知识」→「长期记忆」让 Agent 记住用户偏好。

4

测试调试(1 分钟)

在右侧「预览与调试」面板,分别输入以下关键词测试:

人工智能 科技 教育 财经

确认:是否有 5 条新闻、是否标注来源、格式是否清晰。不满意就回去调 Prompt。

5

发布上线(可选)

点击右上角「发布」,选择渠道:

📱 豆包 App 💬 飞书机器人 🟢 微信公众号 🔗 网页链接 ⚡ API 接口
💡 总耗时约 3 分钟,你就拥有了一个能联网搜索、自动整理新闻的 AI 助手!课后可以用同样方法搭建:会议纪要助手、小红书文案生成器、作业辅导员……
前沿展望

🔮 AI Agent 前沿方向

2026 是 Agent 爆发之年——三个你必须知道的趋势

🤝

Multi-Agent(多 Agent 协作)

前面在 OpenClaw 部分已经详细介绍了 Multi-Agent 的架构。这里补充实际应用现状

🧑‍💻 Claude Code / Cursor

自动拆解编程任务给多个子 Agent 并行处理

🏢 企业级应用

客服 Agent + 工单 Agent + 知识库 Agent 联合处理用户问题

🔬 科研辅助

文献搜索 Agent + 数据分析 Agent + 论文写作 Agent 协作

🖥️

Computer Use(操作电脑)——AI 直接帮你订机票

AI 不再只是"聊天",而是直接操作你的电脑屏幕——看到屏幕内容、移动鼠标、点击按钮、输入文字。Anthropic 的 Claude 已经发布了此功能。

✈️ 实战案例:用 AI 在携程订机票

你说"帮我订明天下午从北京到上海的机票",AI 会像一个远程控制你电脑的助手一样操作:

1.打开浏览器 → 导航到 ctrip.com
2.识别搜索框 → 输入"北京"到"上海"→ 选择日期
3.点击搜索 → 在结果页筛选下午航班 → 按价格排序
4.选中最优航班 → 填写乘客信息(从记忆中获取)
5.暂停——提交订单前回来确认:"我找到了 14:30 的东航 MU5101,票价 ¥680,确认下单吗?"
6.你确认后 → AI 点击支付(或你手动扫码支付)

⚠️ 完成这个操作需要什么?

🧠 模型要求

Claude Opus 4+ 的 Computer Use 功能
或 OpenAI Operator

🖥️ 环境配置

Docker 容器或虚拟桌面(安全沙箱)
安装 Chrome 浏览器

🔐 权限设置

屏幕录制权限
键鼠控制权限
关键:支付环节必须人工确认

🌐 网站要求

携程网页版(非 App)
无复杂验证码/人机验证
已登录账号状态

⚠️ 当前的局限

Computer Use 目前还在早期阶段:网站反爬/验证码会导致失败;复杂的多步操作容易出错;速度较慢(每步都要截屏分析)。适合简单、标准化的操作流程,复杂场景仍需人工介入。

方式一:Claude.ai 网页版(最简单)

1. 开通 Claude Pro($20/月)或 Max 订阅
2. 在对话中输入需要操作电脑的任务
3. Claude 会请求屏幕权限,授权后即可开始
4. 示例 Prompt:"请帮我打开携程网站,搜索明天下午从北京到上海的机票,找到最便宜的经济舱航班并告诉我信息"

方式二:Browser Use(免费开源)

github.com/browser-use/browser-use — 开源 Python 工具库,支持 DeepSeek、GPT-4o 等模型
1. 安装:pip install browser-use playwright && playwright install
2. 还有 Web UI 版本,可视化界面操作,无需写代码
3. 支持多标签页管理、视觉识别、自我纠正机制
4. 可搭配免费模型(如 DeepSeek、本地 Ollama)使用,完全零成本
🔌

MCP 协议——怎么让 AI 连接你的工具?

Model Context Protocol 是 Anthropic 提出的开放标准,让 AI 能用统一的方式连接任何外部工具——就像 USB 统一了所有数据线。前面在 Agent 层已介绍了原理,这里重点讲怎么用

🛠️ 实操:给 Claude 接入 MCP 工具

1.
安装 Claude Desktop(macOS / Windows)
从 claude.ai/download 下载安装
2.
编辑配置文件:打开 ~/Library/Application Support/Claude/claude_desktop_config.json
添加你想接入的 MCP Server 配置
3.
重启 Claude Desktop,即可在对话中使用新接入的工具
Claude 会自动识别可用的 MCP 工具并在需要时调用

📦 常用 MCP Server 示例

📁 filesystem
读写本地文件和文件夹

🗄️ sqlite / postgres
直接查询和操作数据库

🐙 github
管理代码仓库、PR、Issue

🌐 brave-search
联网搜索获取实时信息

📧 gmail / outlook
读取和发送邮件

🔧 自定义 Server
用 Python/Node.js 写自己的工具

💡 关键认知:MCP 生态正在快速发展,目前已有数百个开源 MCP Server。未来 AI 连接工具会像手机装 App 一样简单——找到 → 安装 → 直接用。
2026 年是 Agent 爆发之年
每个人都会拥有自己的 AI 助理
从"你问我答"到"你说我做",这个转变正在发生

📝 模块二完整总结

上下半场的三个核心认知

🎲

LLM 是接龙选手

预测下一个词,概率最高不等于事实正确

✍️

Prompt 是科学

五要素公式:角色+背景+任务+要求+格式

🤖

Agent 是未来

LLM + 工具 + 记忆 + 规划 = AI 同事

休息 5 分钟

喝杯水、上个洗手间、活动一下

接下来 →

模块三:AI 工具全景——从入门到高阶

不只是知道工具名字,而是现场看到每个工具能做什么