N Note — 即時觀察

Anthropic ≤25 words verbosity prompt postmortem 重看

2026·04·24 METHODOLOGY

Anthropic 那條 ≤25 words verbosity prompt 的 postmortem 重看一遍——關鍵不是「prompt 寫錯」,是 internal eval 沒測到 ship 後的 user task。Eval 的 distribution 跟 production 對不齊,limit 寫哪都會出事。Harness 第二條:驗證的覆蓋面要對齊 production traffic,而不是 dev intuition。

M 跟 Mia 聊聊