从"聊天机器人"到"能帮你做事的 AI 同事"——AI 的下一个阶段
普通 AI 只能"聊天",Agent 能"做事"——这是质的飞跃
💬
只能"说"
问一句答一句
没有工具,不能上网
没有记忆,每次从零开始
类比:客服热线
只回答问题,不做事
🦾
能"做"
给个目标,自己想办法执行
有工具:能搜索、读文件、发邮件
有记忆:越用越懂你
类比:全能助理
能独立完成复杂任务
你提前画好流程图,AI 按步骤执行
像流水线工人:步骤固定、结果可预测
适合:重复性任务、审批流程
你给一个目标,AI 自己想办法完成
像独立工作的助理:灵活、自主决策
适合:开放性任务、复杂分析
AI 可以上网搜索、读文件、调 API、操作浏览器、发邮件……
接到复杂任务后,自己拆解步骤、逐步执行、根据中间结果动态调整计划
记住你的偏好、历史对话和过往任务,不用每次都重新交代背景
当前最流行的 Agent 运行模式:思考→行动→观察,循环往复直到任务完成。
"用户想要整理会议纪要,我需要先找到今天有哪些会议"
调用日历工具 → 查询今天的会议列表
发现今天有 3 场会议,获取到录音转写文件路径
"现在我有了转写内容,可以开始整理纪要了"
调用 LLM 生成结构化纪要 → 通过微信发回给你
"The AI that actually does things"——真正能帮你干活的 AI 数字员工
OpenClaw 是一款开源的本地 AI 智能体框架,和 ChatGPT 的本质区别:ChatGPT 只能"说",OpenClaw 能"做"
OpenClaw 像一栋三层楼的大厦,每层各司其职:
连接微信、飞书、Slack、WhatsApp、Telegram、Web 等 20+ 平台
消息路由 | 会话管理 | 认证授权 | 流量控制
Soul + Skill + Memory + MCP + CLI = 完整的智能体能力
Channel 层的核心任务:把来自不同平台的消息统一成一种格式,再把 AI 的回复翻译回各平台的格式。
消息格式统一化
每个平台有自己的适配器(Adapter):微信适配器处理 XML、飞书适配器处理 JSON、Telegram 适配器处理 Bot API……你只需写一次 Agent 逻辑,就能在所有平台运行。
Gateway 层是系统的"交通调度中心",处理四件事:
🔍
搞清楚谁发的、在哪个群、发给哪个 Agent。一个系统可以同时运行多个 Agent,Gateway 确保消息到对的地方。
💬
每个用户的对话独立隔离:你和 Agent 聊的内容,别人看不到。群聊和私聊也互不干扰。
🔐
验证用户身份,控制谁能用、能用什么功能。比如普通用户只能查询,管理员可以修改配置。
⚡
防止某个用户疯狂发消息导致系统过载,控制 LLM API 的调用频率和成本。
Agent 层是整个系统最核心的部分。它不只是"调用 LLM",而是由五大模块协作:
Soul 定义了 Agent "是谁":它的角色、性格、行为规则、说话风格。本质上就是一段精心设计的 System Prompt。
示例:一个财务助手的 Soul
"你是一位严谨的财务顾问。回答问题时必须引用数据来源,不确定的信息要明确标注。语气专业但友好,避免使用模糊表述。"
Skill 是 Agent 能做的具体事情,每个 Skill 是一个封装好的能力模块。Agent 根据用户请求自动选择调用哪个 Skill。
发邮件
读写文件
网页搜索
数据分析
运行脚本
日历管理
前面讲过 LLM 的上下文窗口有限。Memory 模块突破了这个限制——通过外部存储实现持久化记忆。
当前会话的上下文,存在 LLM 的 Context Window 里
跨轮次的短期记忆,用向量数据库存储,自动检索相关片段
"你喜欢简洁报告" "你每周一需要周报"——用户画像,永久保存
团队知识库——多个 Agent / 多个用户共享的知识,如公司制度、产品文档
MCP 是 Anthropic 提出的开放协议,让 Agent 能用统一的方式连接任何外部工具——就像 USB 统一了所有数据线。
MCP 连接示意
没有 MCP 之前,每接入一个新工具就要写一套定制代码。有了 MCP,所有工具遵循同一标准,"即插即用"。目前 Claude、ChatGPT、各种开源框架都在接入 MCP 生态。
OpenClaw 的 "操作系统即界面" 理念:不自己造轮子,而是直接调用你电脑上已有的工具:
gitpythonffmpegcurlopen浏览器Agent 通过 CLI 执行命令就像人在终端里打字一样。当然,这也带来了安全风险——所以 OpenClaw 有权限沙箱:哪些命令允许、哪些需要人工确认、哪些彻底禁止。
Agent 层的五大模块协作流程
🖥️
不造轮子,直接调用电脑上的工具(git、Python、ffmpeg 等)
🔒
数据留在你自己的电脑上,隐私可控——对企业尤其重要
🏠
个人助理
日程管理、邮件处理
文件整理、学习辅助
💼
办公自动化
自动生成报告、数据整理
会议纪要、工单处理
🏢
企业知识库
内部文档问答
培训支持、审批自动化
⚙️ 部署门槛
需要技术基础,不像 ChatGPT 打开就用
🧠 依赖底层模型
它是"外壳",智能取决于接入的 LLM
⚠️ 自动化风险
AI 操作电脑有误操作风险
📝 非创意型
纯写作场景,直接用 ChatGPT 更好
单个 Agent 能力有限,但一组 Agent 协作就像一个 AI 团队——各有专长,互相配合。
接收任务 → 拆解 → 分配 → 汇总
🔍
搜索 Agent
负责信息收集
联网搜索、爬取数据
✍️
写作 Agent
负责内容生成
撰写报告、方案
🔎
审校 Agent
负责质量把控
事实核查、格式审校
📨 消息传递
Agent A 的输出作为 Agent B 的输入,像接力赛一样传递
📋 共享黑板
所有 Agent 读写同一个"黑板",类似团队共用的 Google Doc
🔄 编排器调度
中央编排器统一分配任务、收集结果、处理冲突
OpenClaw 理解原理 → Coze 零代码搭建。人人都能做出自己的 AI 助手!



用 coze.cn(国内版,免费)跟着做:
登录 coze.cn → 点击左上角「+ 创建」→ 选择「项目」
在左侧「人设与回复逻辑」区域粘贴以下 Prompt:
在左侧「插件」区域点击「+」,搜索并启用:
必选 🌐 联网搜索
lianwangwenda / Web Search
必选 📰 实时新闻
getRealTimeNews
推荐 🔍 综合搜索
Comprehensive_News
推荐 ⏰ 时事热搜
xinwendingshisousuo
还可以开启「知识」→「长期记忆」让 Agent 记住用户偏好。
在右侧「预览与调试」面板,分别输入以下关键词测试:
确认:是否有 5 条新闻、是否标注来源、格式是否清晰。不满意就回去调 Prompt。
点击右上角「发布」,选择渠道:
2026 是 Agent 爆发之年——三个你必须知道的趋势
前面在 OpenClaw 部分已经详细介绍了 Multi-Agent 的架构。这里补充实际应用现状:
🧑💻 Claude Code / Cursor
自动拆解编程任务给多个子 Agent 并行处理
🏢 企业级应用
客服 Agent + 工单 Agent + 知识库 Agent 联合处理用户问题
🔬 科研辅助
文献搜索 Agent + 数据分析 Agent + 论文写作 Agent 协作
AI 不再只是"聊天",而是直接操作你的电脑屏幕——看到屏幕内容、移动鼠标、点击按钮、输入文字。Anthropic 的 Claude 已经发布了此功能。
你说"帮我订明天下午从北京到上海的机票",AI 会像一个远程控制你电脑的助手一样操作:
🧠 模型要求
Claude Opus 4+ 的 Computer Use 功能
或 OpenAI Operator
🖥️ 环境配置
Docker 容器或虚拟桌面(安全沙箱)
安装 Chrome 浏览器
🔐 权限设置
屏幕录制权限
键鼠控制权限
关键:支付环节必须人工确认
🌐 网站要求
携程网页版(非 App)
无复杂验证码/人机验证
已登录账号状态
⚠️ 当前的局限
Computer Use 目前还在早期阶段:网站反爬/验证码会导致失败;复杂的多步操作容易出错;速度较慢(每步都要截屏分析)。适合简单、标准化的操作流程,复杂场景仍需人工介入。
方式一:Claude.ai 网页版(最简单)
"请帮我打开携程网站,搜索明天下午从北京到上海的机票,找到最便宜的经济舱航班并告诉我信息"
方式二:Browser Use(免费开源)
pip install browser-use playwright && playwright installModel Context Protocol 是 Anthropic 提出的开放标准,让 AI 能用统一的方式连接任何外部工具——就像 USB 统一了所有数据线。前面在 Agent 层已介绍了原理,这里重点讲怎么用。
~/Library/Application Support/Claude/claude_desktop_config.json📁 filesystem
读写本地文件和文件夹
🗄️ sqlite / postgres
直接查询和操作数据库
🐙 github
管理代码仓库、PR、Issue
🌐 brave-search
联网搜索获取实时信息
📧 gmail / outlook
读取和发送邮件
🔧 自定义 Server
用 Python/Node.js 写自己的工具
上下半场的三个核心认知
预测下一个词,概率最高不等于事实正确
五要素公式:角色+背景+任务+要求+格式
LLM + 工具 + 记忆 + 规划 = AI 同事
☕
喝杯水、上个洗手间、活动一下
接下来 →
模块三:AI 工具全景——从入门到高阶
不只是知道工具名字,而是现场看到每个工具能做什么