给 Cursor、Codex、Claude Code 用的 AI Skill,到底该怎么测

Posted on 一 20 4月 2026 in Journal • Tagged with AI, Agent Skills, Cursor, Claude Code, Codex, Testing, Evaluation, CI

上一篇讲过用 promptfoo 测 LLM API 类的 AI skill。可咱们日常写的更多是另一种——给 Cursor、Codex、Claude Code 用的本地 skill,它没有 endpoint,没有固定 prompt,调用方是另一个 agent。这种 skill 该怎么测?本文给一套从结构 lint 到行为回归的完整方案。


Continue reading

用 Promptfoo 给 AI skill 做体检:评估、测试、质量与安全把关

Posted on 三 15 4月 2026 in Journal • Tagged with Promptfoo, AI, LLM, Agent, Skill, Evaluation, Red Team, Security, CI/CD

很多团队做 AI skill,还停留在“这次跑通了,看起来不错”的阶段。可真正上线之后,问题往往不在第一次回答,而在波动、成本、工具调用路径和安全边界。本文借 Promptfoo 这把尺子,聊聊怎么系统地评估、测试并给 AI skill 做质量与安全把关。


Continue reading

Obsidian 加 LLM,个人知识库的正确打开方式

Posted on 三 08 4月 2026 in Journal • Tagged with Obsidian, LLM, 知识管理, AI, MCP, RAG

笔记散落各处,AI 却帮不了你?聊聊怎么用 Obsidian 的本地 Markdown 文件,配合 LLM 插件、MCP 和编译式知识库,把"一堆文件"变成"能回答问题的第二大脑"。


Continue reading

AI Agent 会越来越像人吗?从 Tool、Skill、Memory 到 Soul 和 Rules

Posted on 日 05 4月 2026 in AI • Tagged with AI, agent, memory, skills, rules, MCP, multi-agent, governance, multimodal

AI Agent 的演化,表面上看越来越拟人,技术上看其实是在一层层补齐“器官”:从思考与推理、多模态感知,到工具、技能、记忆、人格、规则、身体接口,再到多 Agent 协作与治理。它未必先替代人,但一定会先重写很多知识工作的分工边界。


Continue reading

蒸馏:AI 世界里的"吸星大法"

Posted on 日 05 4月 2026 in AI • Tagged with AI, distillation, LLM, agent, skill, knowledge-distillation, DeepSeek, OpenAI

大模型能蒸馏,Agent 的 Skill 也能蒸馏。蒸馏到底是什么?为什么 DeepSeek 能把 671B 的推理能力塞进 1.5B 的小模型?为什么你的 Agent 技能越写越臃肿时,也需要来一轮"蒸馏"?这篇把模型蒸馏和技能蒸馏串起来讲,一次搞懂。


Continue reading

AI Agent 为什么会越用越懂你?从 OpenClaw 的“养龙虾”聊起

Posted on 三 01 4月 2026 in AI • Tagged with AI, agent, OpenClaw, memory, personalization, context-engineering

很多人觉得 OpenClaw 这类 AI Agent 用久了会“自我进化”。真相没那么玄:多数时候,不是模型偷偷变聪明了,而是记忆、偏好画像、工具调用、反馈回路和工作流沉淀一起把它越养越顺手。


Continue reading

从 Prompt Engineering 到 Harness Engineering:AI 编程的四次进化

Posted on 六 28 3月 2026 in Tech • Tagged with harness-engineering, AI, prompt-engineering, context-engineering, Tauri, Rust, Claude Code

OpenAI 用 Codex 在五个月内生成了百万行代码,零行手写。背后的方法论叫 Harness Engineering——不是教 AI 怎么写代码,而是给 AI 搭一个"跑不偏"的环境。本文梳理从 Prompt Engineering 到 Harness Engineering 的四次进化,并用一个实战案例演示:一个不会 Rust 的老程序员,如何靠 Harness Engineering 用 Tauri 写出一个桌面 Todo 应用。


Continue reading

AI Agent Loop 讲透:以一个会自己写博客的 Python Demo 为例

Posted on 四 19 3月 2026 in Journal • Tagged with agent, agent-loop, AI, LLM, python, tool-calling, memory, planning

以 lazy-rabbit-agent 里的 agent_loop_demo.py 为例,讲清楚 AI Agent Loop 的本质:它不是玄学,而是由规划、记忆、工具调用、观察回流、格式约束与失败恢复组成的一台小发动机。


Continue reading

如何写好一个 AI Skill:让 AI Agent 从"什么都会"变成"真的能干活"

Posted on 二 17 3月 2026 in Tech • Tagged with AI, Skill, Agent, Prompt Engineering, Claude Code, Cursor, 方法论

AI Agent 就像你新招的天才实习生——什么都学过,但到了你的项目里,连 CI 怎么跑都不知道。AI Skill 就是那份"入职培训手册",把你的领域知识、工作流程、最佳实践打包成 AI 能理解和执行的模块。本文拆解写好 AI Skill 的方法、原则、示例和自检清单。


Continue reading

AI 编程时代,Scrum 该怎么变?

Posted on 日 15 3月 2026 in AI • Tagged with Scrum, Agile, AI, Vibe Coding, software engineering

Scrum 诞生于 1995 年,那时候写代码还得一行一行敲。三十年后的今天,AI 能在几分钟内生成一个完整的功能模块。当开发速度被 AI 拉到十倍甚至百倍,那些两周一个 Sprint、每天站会 15 分钟的仪式感,还有多少是必要的?


Continue reading

AI Friendly:为什么你的架构、API 和 UI 也该为 AI 设计?

Posted on 五 13 3月 2026 in Tech • Tagged with AI, AI Friendly, 架构设计, API, Context Engineering, Human-AI Interaction, 跨越鸿沟, 程序员转型, 方法论

我们花了 30 年让软件对人友好(User Friendly),现在该花点时间让它对 AI 也友好了(AI Friendly)。AI 可以给人赋能,人也可以给 AI 赋能——你给 AI 的上下文质量,决定了 AI 能回馈给你的输出质量。API 是否结构化、文档是否机器可读、日志是否语义清晰、UI 是否有良好的无障碍标记——这些原本就是"好设计"的标准,只不过 AI 的到来让它们从"最佳实践"升级成了"生存必需"。


Continue reading

职场工具箱之项目铁三角:范围、时间、成本——你最多只能锁住两个

Posted on 四 12 3月 2026 in Method • Tagged with 职场工具箱, 项目铁三角, Iron Triangle, 范围, 时间, 成本, 质量, 项目管理, AI, 方法论

老板说"范围不能砍、工期不能延、人不能加"——然后还希望质量别掉链子。如果你真信了,那你不是在做项目管理,你是在做魔术表演。项目铁三角(Iron Triangle)讲得很直白:范围、时间、成本,你最多只能锁住两个,第三个必须当变量。至于质量?它不是第四个旋钮,它更像地板——前三个旋钮拧过头,先塌的就是它。


Continue reading

用 pgvector 做 RAG:别急着上 Pinecone,你的 PostgreSQL 就够了

Posted on 二 10 3月 2026 in AI • Tagged with RAG, pgvector, PostgreSQL, embedding, vector-search, Python, AI

你刚写完一个 RAG demo,跑通了 OpenAI embedding + Pinecone,兴奋了三秒——然后老板问你:"这个月 Pinecone 账单多少?"于是你开始重新审视那台已经跑了三年的 PostgreSQL。好消息:装个 pgvector 扩展,它就是你的向量数据库。这篇文章给你一套从 Docker 部署到 Python 完整代码的实操指南,跑完就能用。


Continue reading

Claude 提示工程最佳实践:从"能用"到"好用"的距离,可能就差一个系统提示词

Posted on 四 05 3月 2026 in AI • Tagged with AI, prompt-engineering, Claude, LLM, 提示工程, Anthropic

大多数人用 Claude 就像用搜索引擎——丢一句话进去,看看出来什么。但 Claude 4.6 已经不是一个"问答机器"了,它更像一个刚入职的天才实习生:聪明得吓人,但完全不知道你们组的规矩。这篇文章拆解 Anthropic 官方最新的提示工程指南,把那些"看起来都懂、做起来全忘"的技巧变成你明天就能用的 checklist。


Continue reading

AI 时代的软件工程

Posted on 六 28 2月 2026 in Tech • Tagged with tech, blog, ai, 软件工程

AI 让"写代码"更便宜, 但让"证明没坑"更贵。软件工程的重心正在从"把需求写成代码", 转向"能力编排与治理": 把 prompt 当契约, 把评估当门禁, 把可观测性当边界, 把回滚当退路。


Continue reading

如何让 AI 真正“懂”你的项目?一套可落地的项目知识包

Posted on 一 16 2月 2026 in AI • Tagged with AI, 工程实践, 知识管理, 协作, 文档

做不到让 AI 一次性彻底理解一切,但可以用工程化方式把项目做成“可被 AI 消化的知识包”,再配合分轮喂料与自动化索引,效果可以非常接近“项目专家 + 能上手改代码的工程师”。


Continue reading

AI 时代,我为什么还要写作

Posted on 四 12 2月 2026 in AI • Tagged with journal, writing, AI

做过两年文字秘书,写周记、总结、技术博客成了习惯,乐此不疲。可 AI 时代写技术博客似乎没啥意思,全让 AI 写也没意思。最近想明白了:主要是自娱自乐、满足表达欲;自己写草稿,让 AI 帮着改改,倒也没什么。


Continue reading

AI 时代的软件工程正在发生什么?

Posted on 三 11 2月 2026 in AI • Tagged with journal, software-engineering, AI, prompt, AI-agent

当机器能参与编写、理解甚至设计代码时,软件工程的核心从 "把需求写成代码" 转向 "能力编排与治理" ;Prompt 成为新接口,设计能力比语法能力更稀缺。


Continue reading

从手搓 Workflow 到 LangGraph:AI 流程编排的两种路径

Posted on 日 08 2月 2026 in AI • Tagged with AI, workflow, langgraph, AI-agent, java, 流程编排

用自己手写的 lazy-form-workflow 和 LangGraph 对照,聊聊 "把复杂流程当图来跑" 这件事:图怎么建、边怎么跳、状态怎么传,以及 AI 决策节点该放在哪。


Continue reading

用 AI Agent 处理复杂流程:先写 Workflow,再写 Prompt

Posted on 五 06 2月 2026 in AI • Tagged with AI, AI-agent, workflow, MCP, a2a, prompt-engineering, langgraph

复杂流程不是靠"更长的 Prompt"解决的,而是靠可拆分的 SubAgent、可审计的 A2A 消息契约、可复用的 MCP 工具,以及"先声明后执行"的 workflow 把不确定性关进笼子里。


Continue reading