2026-05-1618 分钟3k字

AI+测试的三个阶段：Prompt→Skill→Agent（2026版）

企业AI测试已经从「写好提示词」演进到「让AI自主干活」。这篇文章拆解三个阶段的真实差异，以及2026年最成熟的落地方式。

AI测试Agentic QAPlaywright MCPContext Engineering智能体

现在企业里真正开始落地的，已经不是单纯：

"AI 写测试用例"
"AI 生成 prompt（提示词，给 AI 的指令）"

而是：

从 Prompt Engineering（提示词工程）→ Context & Skill Engineering（上下文与技能工程）→ Agentic QA（智能体测试）的演进。

简单说：

阶段	核心能力	当前企业状态
Prompt	会提问	已普及
Context & Skill	可复用测试能力模块	正在规模化
Agent（智能体）	自主执行 QA（质量保证/测试）工作流	头部企业开始落地

一、现状：很多人还停在 Prompt 阶段

这是 2023~2024 年最常见的玩法。

例如：

你是一个资深测试工程师，

请根据以下 PRD（产品需求文档）生成测试用例。

或者：

请生成边界测试场景

这类东西的本质：

AI 当"高级补全文档工具"。

Prompt 的优点

确实有效：

提高写 case（测试用例）速度
补充边界条件
降低新人门槛
自动生成接口测试、SQL、Playwright（微软开源的浏览器自动化测试工具）脚本

很多公司已经日常使用。

但 Prompt 的问题非常明显

企业很快发现：

1. 不稳定

同一个 prompt，今天和明天结果不同。

2. 不可维护

Prompt 越来越长，最后几千字，没人维护得动。

3. 无上下文

AI 不知道真实业务、历史 bug（缺陷）、风险模块、用户行为、埋点数据。生成很多"正确但没价值"的测试。

所以企业开始往下一步走。

二、第一步升级：Context & Skill Engineering

行业里现在更常用的词是 Context Engineering（上下文工程）。"Skill"可以理解为 Context Engineering 在测试领域的具体实践——不只是给 AI 一堆信息，而是把程序性知识（怎么做、什么时候做、做错了怎么修）结构化地封装起来。

2026 年 3 月，MCP（Model Context Protocol，模型上下文协议）SDK（软件开发工具包）月下载量已达 9700 万次，Anthropic、OpenAI、Google、Microsoft、AWS 全部支持。这说明 Context Engineering 不是概念，是正在发生的基础设施升级。

Skill 本质是什么

一个可复用的"测试专家能力模块"。

不是一句 prompt。而是 Prompt + 工具 + 上下文 + 规则 + Workflow（工作流）+ Memory（AI 的记忆能力）+ Best Practice（最佳实践）的组合。

举个真实例子

传统 Prompt：

帮我测试登录功能

Skill 化之后，变成一个 Login-Test-Skill，内部包含：

登录测试知识库：知道 OAuth（开放授权协议）、JWT（JSON Web Token，一种令牌格式）、SSO（单点登录）、Token Refresh（令牌刷新）、风控、MFA（多因素认证）。

历史缺陷库：知道这个系统以前出过 token 泄漏、多端登录冲突、验证码失效。

自动工具链：自动调用 Playwright、Postman（接口测试工具）、Charles（网络抓包工具）、JMeter（性能测试工具）。

风险策略：自动优先测高风险路径、高频用户路径、金流路径。

输出标准化：自动输出 Test Case（测试用例）、Bug Report（缺陷报告）、Trace（链路追踪）、Coverage（测试覆盖率）。

所以：

Skill 已经不是"问 AI"。

而是：

给 AI 一个专业角色系统。

三、第二步升级：Agentic QA

Skill 解决了"AI 有知识"的问题。

但还不够。

因为 Skill 还是需要人来触发——你说"测登录"，它才测登录。

Agent（智能体）的区别在于：

AI 自己判断该干什么，然后去干。

Agent 和 Prompt 最大区别

Prompt：

AI 回答你。

Agent：

AI 替你干活。

这是本质区别。

一个真正的 QA Agent 工作流

开发提交一个 PR（Pull Request，代码合并请求）。Agent 自动：

1. 读取代码变更——分析哪些模块变了、哪些接口变了、哪些组件影响最大。

2. 分析历史风险——从 Jira（项目管理工具）/ Bug 库学习哪些地方最容易炸。

3. 自动生成测试策略——不是只生成 case，而是确定回归范围、风险等级、测试优先级。

4. 自动执行测试——直接调 Playwright MCP、Browser MCP、Appium MCP（移动端测试工具）去操作真实浏览器。

5. 自动分析失败原因——发现 selector（选择器，用于定位页面元素）变了、DOM（文档对象模型，网页的结构化表示）结构改了、接口 schema（接口结构定义）变了，然后自动修复测试（Self-Healing Test，自愈测试）。

6. 自动生成报告——风险摘要、失败原因、建议修复、覆盖率变化。

四、Playwright MCP：2026 年最成熟的落地实例

上面讲的是框架，这里给一个现在就能跑起来的例子。

2026 年，微软官方发布了 Playwright MCP Server（@playwright/mcp），GitHub 星标 31000+，是目前最成熟的 AI 测试基础设施。

它为什么重要

传统 AI 测试靠截图识别页面，又慢又贵又不准。

Playwright MCP 换了个思路：

不看截图，看无障碍树（Accessibility Tree）。

无障碍树是浏览器提供的一种结构化数据，用标签和引用来描述页面上的每个元素。AI 拿到的是这样的数据：

- heading "Checkout" [level=1]

textbox "Email address" [ref=e5]
textbox "Password" [ref=e6]
button "Submit" [ref=e7]
link "Forgot password?" [ref=e8]

AI 用 ref=e7 直接定位 Submit 按钮。

好处：快（不用图像编解码）、便宜（不用视觉模型 API）、稳（引用不受视觉变化影响）。

内置三件套：Planner → Generator → Healer

Playwright Test 现在内置了三个 Agent，组成完整的 Agentic 测试流水线：

Agent	做什么
Planner（规划器）	探索应用，自动生成 Markdown 测试计划
Generator（生成器）	把计划转成可执行的 Playwright 测试文件
Healer（修复器）	测试失败时自动修复（locator/定位器更新、等待调整、数据修正）

这不是实验功能，是微软打包进 Playwright Test 的正式能力。早期采用团队报告测试维护时间减少 40%~60%。

两分钟装好

# VS Code（微软代码编辑器） code --add-mcp '{"name":"playwright","command":"npx","args":["@playwright/mcp@latest"]}' # Claude Code（Anthropic 的 AI 编程工具） claude mcp add playwright npx @playwright/mcp@latest # Cursor（AI 代码编辑器）

npx @playwright/mcp@latest

装完就能用自然语言驱动浏览器跑测试。

npm（Node.js 包管理器）下载量说明一切

2025 年 4 月数据：

工具	月下载量	同比增长
Playwright	6740 万	+216%
Cypress（前端测试工具）	2600 万	+11%
Selenium（老牌浏览器自动化工具）	770 万	下降

Playwright 的 AI 集成层（MCP）是它爆发式增长的核心原因。

五、核心架构：Plan-Act-Verify 循环

现在企业 AI+测试的真正架构：

LLM（大语言模型） ↓ Context & Skill Layer（上下文与技能层） ↓ Agent Orchestrator（智能体编排器，Plan → Act → Verify 循环） ↓ MCP Tool Layer（工具层） ↓

Testing Infrastructure（测试基础设施）

关键在中间那层：Plan-Act-Verify（规划-执行-验证）推理循环。

Agent 不是一次性执行，而是：

Plan（规划）：规划该做什么
Act（执行）：执行操作
Verify（验证）：验证结果
失败则 Replan（重新规划）

这个循环比简单的"LLM 调工具"要复杂得多，也是 Agentic QA 和普通 AI 辅助测试的核心区别。

六、企业落地方向：做哪些、做到哪了

1. AI 测试用例生成（最基础）

成熟度：★★★★★，已经普及。

2. AI 自动生成 Playwright/Appium 脚本

成熟度：★★★★☆，已经很好用。Playwright MCP 让这件事从"写脚本"变成了"说话就行"。

3. AI 自动分析 PR 风险

成熟度：★★★★☆，很多公司在接 GitHub（代码托管平台）/Cursor/Copilot（微软 AI 编程助手）。

4. Self-Healing Automation（自愈自动化）

成熟度：★★★☆☆，开始落地。Playwright 内置的 Healer Agent 是目前最成熟的实现。

5. Autonomous QA Agent（自主测试智能体）

成熟度：★★☆☆☆，头部公司探索。Shiplight AI 等平台已经提供 Agent-Native（智能体原生）的完整 QA 解决方案。

6. Multi-Agent QA（多智能体协同测试）

风险分析 Agent、Case 生成 Agent、执行 Agent、Bug 分析 Agent、Root Cause Agent（根因分析智能体）协同工作。论文和社区已经很多。

七、治理层：Agent 不是万能的

2026 年领先企业发现：

最难的不是"让 Agent 干活"，而是"让 Agent 可靠地干活"。

1. 不懂业务

很多 bug 是业务逻辑 bug。AI 很难理解风控、金流、商业规则、用户心理。

2. 不懂真正风险

演唱会抢票，真正危险的是超卖、黄牛、分布式锁、库存一致性。AI 很容易遗漏。

3. AI 非常容易"看起来正确"

TechRadar 专门提到：AI QA 最大问题是"不可预测"和"幻觉"（AI 胡说八道）。

4. 自动修复可能修错

Self-Healing 听起来很美，但：

Agent 修了 locator（定位器），测试通过了——但测试覆盖的场景还对吗？
Agent 跳过了一个失败的断言——是问题不存在了，还是 Agent 放弃了？

所以：

人-AI 协作边界是 2026 年最核心的工程问题。

Agent 越自主，治理（Governance）越重要。谁来决定 Agent 的执行边界？出了问题谁负责？自动修复要不要人 review（审查）？这些问题比"怎么让 Agent 跑起来"更难。

八、测试工程师的能力转型

不是：

"会不会点页面"。

而是：

AI QA Orchestration（AI 测试编排）

能力	未来价值
Context Engineering（上下文工程）	极高
Workflow Design（工作流设计）	极高
Agent Design（智能体设计）	极高
MCP Tooling（工具集成）	极高
Risk Modeling（风险建模）	极高
Observability（可观测性，监控和追踪系统运行状态）	极高
Eval System（评估系统，衡量 AI 输出质量）	极高
Security Guardrail（安全护栏，防止 AI 做危险操作）	极高
Governance（治理）	极高

本质：

从"执行测试"升级为"设计质量系统"。

写在最后

未来 2~3 年测试行业会出现两类人：

传统点点点测试——会被迅速压缩，因为 AI 已经能自动生成 case、自动回归、自动脚本、自动截图、自动 diff（对比差异）。

AI-Native QA Engineer（AI 原生测试工程师）——会非常值钱，因为他们能设计 Agent、设计 Workflow、设计 Context、设计 Eval、连接 MCP Toolchain（工具链）、设计治理框架。

这条路线（Prompt → Skill → Agent）仍然是 2026 年最实用的转型路径。但要保持领先，需要在 Agent 之上叠加治理层：哪些场景完全交给 Agent？哪些必须人 review？Agent 的执行边界怎么设？出了问题怎么追溯？

这些才是 2026 年下半年真正拉开差距的地方。

本文是"肖恩的博客"系列文章之一，首发于 seanwalter.top。作者是一名从软件测试转型AI领域的开发者，记录在转型过程中的真实思考。