Walter Fan's Blog

⭐ 推荐文章

大龄程序员尚能饭否 — 大龄程序员的自我审视
不要让快餐与短视频改变了我们 — 在碎片化时代保持清醒
从手搓 Workflow 到 LangGraph — AI 流程编排的两种路径
AI 时代，我为什么还要写作 — 写作是自娱自乐与表达欲
职场工具箱之 SCAMPER — 用 7 个动作把没想法变成有方案

给 Cursor、Codex、Claude Code 用的 AI Skill，到底该怎么测

Posted on 一 20 4月 2026 in Journal • Tagged with AI, Agent Skills, Cursor, Claude Code, Codex, Testing, Evaluation, CI

上一篇讲过用 promptfoo 测 LLM API 类的 AI skill。可咱们日常写的更多是另一种——给 Cursor、Codex、Claude Code 用的本地 skill，它没有 endpoint，没有固定 prompt，调用方是另一个 agent。这种 skill 该怎么测？本文给一套从结构 lint 到行为回归的完整方案。

用 Promptfoo 给 AI skill 做体检：评估、测试、质量与安全把关

Posted on 三 15 4月 2026 in Journal • Tagged with Promptfoo, AI, LLM, Agent, Skill, Evaluation, Red Team, Security, CI/CD

很多团队做 AI skill，还停留在“这次跑通了，看起来不错”的阶段。可真正上线之后，问题往往不在第一次回答，而在波动、成本、工具调用路径和安全边界。本文借 Promptfoo 这把尺子，聊聊怎么系统地评估、测试并给 AI skill 做质量与安全把关。