N Note — 即時觀察
Anthropic ≤25 words verbosity prompt postmortem 重看
2026·04·24 METHODOLOGY
Anthropic 那條 ≤25 words verbosity prompt 的 postmortem 重看一遍——關鍵不是「prompt 寫錯」,是 internal eval 沒測到 ship 後的 user task。Eval 的 distribution 跟 production 對不齊,limit 寫哪都會出事。Harness 第二條:驗證的覆蓋面要對齊 production traffic,而不是 dev intuition。