seanwalter
返回文章列表
2026-05-1618 分钟3k字

AI+测试的三个阶段:Prompt→Skill→Agent(2026版)

企业AI测试已经从「写好提示词」演进到「让AI自主干活」。这篇文章拆解三个阶段的真实差异,以及2026年最成熟的落地方式。

AI测试Agentic QAPlaywright MCPContext Engineering智能体

现在企业里真正开始落地的,已经不是单纯:

  • "AI 写测试用例"
  • "AI 生成 prompt(提示词,给 AI 的指令)"

而是:

从 Prompt Engineering(提示词工程)→ Context & Skill Engineering(上下文与技能工程)→ Agentic QA(智能体测试)的演进。

简单说:

阶段核心能力当前企业状态
Prompt会提问已普及
Context & Skill可复用测试能力模块正在规模化
Agent(智能体)自主执行 QA(质量保证/测试)工作流头部企业开始落地

一、现状:很多人还停在 Prompt 阶段

这是 2023~2024 年最常见的玩法。

例如:

你是一个资深测试工程师,

请根据以下 PRD(产品需求文档)生成测试用例。

或者:

请生成边界测试场景

这类东西的本质:

AI 当"高级补全文档工具"。


Prompt 的优点

确实有效:

  • 提高写 case(测试用例)速度
  • 补充边界条件
  • 降低新人门槛
  • 自动生成接口测试、SQL、Playwright(微软开源的浏览器自动化测试工具)脚本

很多公司已经日常使用。


但 Prompt 的问题非常明显

企业很快发现:

1. 不稳定

同一个 prompt,今天和明天结果不同。

2. 不可维护

Prompt 越来越长,最后几千字,没人维护得动。

3. 无上下文

AI 不知道真实业务、历史 bug(缺陷)、风险模块、用户行为、埋点数据。生成很多"正确但没价值"的测试。


所以企业开始往下一步走。


二、第一步升级:Context & Skill Engineering

行业里现在更常用的词是 Context Engineering(上下文工程)。"Skill"可以理解为 Context Engineering 在测试领域的具体实践——不只是给 AI 一堆信息,而是把程序性知识(怎么做、什么时候做、做错了怎么修)结构化地封装起来。

2026 年 3 月,MCP(Model Context Protocol,模型上下文协议)SDK(软件开发工具包)月下载量已达 9700 万次,Anthropic、OpenAI、Google、Microsoft、AWS 全部支持。这说明 Context Engineering 不是概念,是正在发生的基础设施升级。


Skill 本质是什么

一个可复用的"测试专家能力模块"。

不是一句 prompt。而是 Prompt + 工具 + 上下文 + 规则 + Workflow(工作流)+ Memory(AI 的记忆能力)+ Best Practice(最佳实践)的组合。


举个真实例子

传统 Prompt:

帮我测试登录功能

Skill 化之后,变成一个 Login-Test-Skill,内部包含:

登录测试知识库:知道 OAuth(开放授权协议)、JWT(JSON Web Token,一种令牌格式)、SSO(单点登录)、Token Refresh(令牌刷新)、风控、MFA(多因素认证)。

历史缺陷库:知道这个系统以前出过 token 泄漏、多端登录冲突、验证码失效。

自动工具链:自动调用 Playwright、Postman(接口测试工具)、Charles(网络抓包工具)、JMeter(性能测试工具)。

风险策略:自动优先测高风险路径、高频用户路径、金流路径。

输出标准化:自动输出 Test Case(测试用例)、Bug Report(缺陷报告)、Trace(链路追踪)、Coverage(测试覆盖率)。


所以:

Skill 已经不是"问 AI"。

而是:

给 AI 一个专业角色系统。


三、第二步升级:Agentic QA

Skill 解决了"AI 有知识"的问题。

但还不够。

因为 Skill 还是需要人来触发——你说"测登录",它才测登录。

Agent(智能体)的区别在于:

AI 自己判断该干什么,然后去干。


Agent 和 Prompt 最大区别

Prompt:

AI 回答你。

Agent:

AI 替你干活。

这是本质区别。


一个真正的 QA Agent 工作流

开发提交一个 PR(Pull Request,代码合并请求)。Agent 自动:

1. 读取代码变更——分析哪些模块变了、哪些接口变了、哪些组件影响最大。

2. 分析历史风险——从 Jira(项目管理工具)/ Bug 库学习哪些地方最容易炸。

3. 自动生成测试策略——不是只生成 case,而是确定回归范围、风险等级、测试优先级。

4. 自动执行测试——直接调 Playwright MCP、Browser MCP、Appium MCP(移动端测试工具)去操作真实浏览器。

5. 自动分析失败原因——发现 selector(选择器,用于定位页面元素)变了、DOM(文档对象模型,网页的结构化表示)结构改了、接口 schema(接口结构定义)变了,然后自动修复测试(Self-Healing Test,自愈测试)。

6. 自动生成报告——风险摘要、失败原因、建议修复、覆盖率变化。


四、Playwright MCP:2026 年最成熟的落地实例

上面讲的是框架,这里给一个现在就能跑起来的例子。

2026 年,微软官方发布了 Playwright MCP Server@playwright/mcp),GitHub 星标 31000+,是目前最成熟的 AI 测试基础设施。


它为什么重要

传统 AI 测试靠截图识别页面,又慢又贵又不准。

Playwright MCP 换了个思路:

不看截图,看无障碍树(Accessibility Tree)

无障碍树是浏览器提供的一种结构化数据,用标签和引用来描述页面上的每个元素。AI 拿到的是这样的数据:

- heading "Checkout" [level=1]
  • textbox "Email address" [ref=e5]
  • textbox "Password" [ref=e6]
  • button "Submit" [ref=e7]
  • link "Forgot password?" [ref=e8]

AI 用 ref=e7 直接定位 Submit 按钮。

好处:(不用图像编解码)、便宜(不用视觉模型 API)、(引用不受视觉变化影响)。


内置三件套:Planner → Generator → Healer

Playwright Test 现在内置了三个 Agent,组成完整的 Agentic 测试流水线:

Agent做什么
Planner(规划器)探索应用,自动生成 Markdown 测试计划
Generator(生成器)把计划转成可执行的 Playwright 测试文件
Healer(修复器)测试失败时自动修复(locator/定位器更新、等待调整、数据修正)

这不是实验功能,是微软打包进 Playwright Test 的正式能力。早期采用团队报告测试维护时间减少 40%~60%


两分钟装好

# VS Code(微软代码编辑器)

code --add-mcp '{"name":"playwright","command":"npx","args":["@playwright/mcp@latest"]}'

# Claude Code(Anthropic 的 AI 编程工具)

claude mcp add playwright npx @playwright/mcp@latest

# Cursor(AI 代码编辑器)

npx @playwright/mcp@latest

装完就能用自然语言驱动浏览器跑测试。


npm(Node.js 包管理器)下载量说明一切

2025 年 4 月数据:

工具月下载量同比增长
Playwright6740 万+216%
Cypress(前端测试工具)2600 万+11%
Selenium(老牌浏览器自动化工具)770 万下降

Playwright 的 AI 集成层(MCP)是它爆发式增长的核心原因。


五、核心架构:Plan-Act-Verify 循环

现在企业 AI+测试的真正架构:

LLM(大语言模型)

Context & Skill Layer(上下文与技能层)

Agent Orchestrator(智能体编排器,Plan → Act → Verify 循环)

MCP Tool Layer(工具层)

Testing Infrastructure(测试基础设施)

关键在中间那层:Plan-Act-Verify(规划-执行-验证)推理循环

Agent 不是一次性执行,而是:

  • Plan(规划):规划该做什么
  • Act(执行):执行操作
  • Verify(验证):验证结果
  • 失败则 Replan(重新规划)

这个循环比简单的"LLM 调工具"要复杂得多,也是 Agentic QA 和普通 AI 辅助测试的核心区别。


六、企业落地方向:做哪些、做到哪了

1. AI 测试用例生成(最基础)

成熟度:★★★★★,已经普及。

2. AI 自动生成 Playwright/Appium 脚本

成熟度:★★★★☆,已经很好用。Playwright MCP 让这件事从"写脚本"变成了"说话就行"。

3. AI 自动分析 PR 风险

成熟度:★★★★☆,很多公司在接 GitHub(代码托管平台)/Cursor/Copilot(微软 AI 编程助手)。

4. Self-Healing Automation(自愈自动化)

成熟度:★★★☆☆,开始落地。Playwright 内置的 Healer Agent 是目前最成熟的实现。

5. Autonomous QA Agent(自主测试智能体)

成熟度:★★☆☆☆,头部公司探索。Shiplight AI 等平台已经提供 Agent-Native(智能体原生)的完整 QA 解决方案。

6. Multi-Agent QA(多智能体协同测试)

风险分析 Agent、Case 生成 Agent、执行 Agent、Bug 分析 Agent、Root Cause Agent(根因分析智能体)协同工作。论文和社区已经很多。


七、治理层:Agent 不是万能的

2026 年领先企业发现:

最难的不是"让 Agent 干活",而是"让 Agent 可靠地干活"。


1. 不懂业务

很多 bug 是业务逻辑 bug。AI 很难理解风控、金流、商业规则、用户心理。


2. 不懂真正风险

演唱会抢票,真正危险的是超卖、黄牛、分布式锁、库存一致性。AI 很容易遗漏。


3. AI 非常容易"看起来正确"

TechRadar 专门提到:AI QA 最大问题是"不可预测"和"幻觉"(AI 胡说八道)。


4. 自动修复可能修错

Self-Healing 听起来很美,但:

  • Agent 修了 locator(定位器),测试通过了——但测试覆盖的场景还对吗?
  • Agent 跳过了一个失败的断言——是问题不存在了,还是 Agent 放弃了?

所以:

人-AI 协作边界是 2026 年最核心的工程问题。

Agent 越自主,治理(Governance)越重要。谁来决定 Agent 的执行边界?出了问题谁负责?自动修复要不要人 review(审查)?这些问题比"怎么让 Agent 跑起来"更难。


八、测试工程师的能力转型

不是:

"会不会点页面"。

而是:

AI QA Orchestration(AI 测试编排)

能力未来价值
Context Engineering(上下文工程)极高
Workflow Design(工作流设计)极高
Agent Design(智能体设计)极高
MCP Tooling(工具集成)极高
Risk Modeling(风险建模)极高
Observability(可观测性,监控和追踪系统运行状态)极高
Eval System(评估系统,衡量 AI 输出质量)极高
Security Guardrail(安全护栏,防止 AI 做危险操作)极高
Governance(治理)极高

本质:

从"执行测试"升级为"设计质量系统"。


写在最后

未来 2~3 年测试行业会出现两类人:

传统点点点测试——会被迅速压缩,因为 AI 已经能自动生成 case、自动回归、自动脚本、自动截图、自动 diff(对比差异)。

AI-Native QA Engineer(AI 原生测试工程师)——会非常值钱,因为他们能设计 Agent、设计 Workflow、设计 Context、设计 Eval、连接 MCP Toolchain(工具链)、设计治理框架。

这条路线(Prompt → Skill → Agent)仍然是 2026 年最实用的转型路径。但要保持领先,需要在 Agent 之上叠加治理层:哪些场景完全交给 Agent?哪些必须人 review?Agent 的执行边界怎么设?出了问题怎么追溯?

这些才是 2026 年下半年真正拉开差距的地方。


本文是"肖恩的博客"系列文章之一,首发于 seanwalter.top。作者是一名从软件测试转型AI领域的开发者,记录在转型过程中的真实思考。

评论

相关文章