Walter Fan's Blog

用 Promptfoo 给 AI skill 做体检：评估、测试、质量与安全把关

Posted on 三 15 4月 2026 in Journal • Tagged with Promptfoo, AI, LLM, Agent, Skill, Evaluation, Red Team, Security, CI/CD

很多团队做 AI skill，还停留在“这次跑通了，看起来不错”的阶段。可真正上线之后，问题往往不在第一次回答，而在波动、成本、工具调用路径和安全边界。本文借 Promptfoo 这把尺子，聊聊怎么系统地评估、测试并给 AI skill 做质量与安全把关。