讓企業的 AI 真正落地,不只是 demo。

$落地的AI = 人設計的(限制 + 驗證) Harness $進化的AI = 落地的AI + 人把關的(目的 + 反饋) Self-Improve

兵無常勢,水無常形。

框架不變,形因企業而流。

Methodology is the riverbed. Implementation flows.

01我們解決什麼問題

Demo 到落地之間,
有一道沒人替您處理的縫。

過去兩年,AI 進入幾乎所有企業的 roadmap。但實際進入 production 的比例停在 30%。台灣有 70% 的企業跨不過 AI 化的門檻。

我們在客戶現場看到的幾乎都是同一組症狀:PoC 做出來、demo 漂亮、上 production 就崩。買了 Cursor 跟 Claude Code,工程團隊用得吃力,ROI 算不出來。想招 AI 工程師,履歷少、能力錯配、年薪喊到開不下手。

這不是工具問題,是方法問題。市面上 AI 落地失敗的 90%,集中在兩個沒被處理的環節:單次 task 沒有 deterministic 的限制與驗證,跨多次 task 沒有 anchor 來判斷改動算不算進步。我們的 methodology 就在這兩個環節上。

02我們的方法 — Methodology

兩條公式。
一條讓 AI 落地,一條讓 AI 進化。

AI 要落地、要進化,我們拆成兩條公式:Harness 跟 Self-Improve。Harness 解決「這次的 AI 動作做得對不對」,Self-Improve 解決「下次能不能做得更好」。兩條缺一不可。

第一條 — HARNESS

這一次,讓 AI 動作不出錯。

落地的 AI = 人設計的(限制 + 驗證)

限制 = 動作前先框架構。跟你管人類工程師一模一樣的事:規定他們用 MVVM 還是 Clean Architecture、規定每個 service 必須 implement 某個 interface、強制 TDD(先紅、再綠、再 refactor)。這些限制不是擋工程師,是讓他們走在確定的軌道上。AI 也要被這樣約束 — 用程式碼明確規定它能用哪些工具、走哪幾步,不能愛做什麼做什麼。

重點是:限制要寫在 AI 模型「外面」(程式碼裡),不能寫在 prompt 裡。Anthropic 自己就翻過車:他們在 prompt 裡規定 AI 只能回 25 個字,結果 AI 表面乖乖照做,整體智商掉了 3%。

驗證 = 動作後客觀檢查兩件事:一、功能對不對(跑測試、看輸出有沒有符合預期,像 TDD 的 green 一樣明確);二、有沒有照規矩寫(lint、type check、coding rule、架構規則一樣不能破)。

AI 每做完一步都要過這兩關。不能讓 AI 自己說「我做完了」就算數 — AI 會說謊,得用程式碼客觀判定。

第二條 — SELF-IMPROVE

跨多次,讓 AI 用得越來越好。

進化的 AI = 落地的 AI + 人把關的(目的 + 反饋)

目的 = 人鎖死方向 + 找得到 eval 訊號。Anthropic 在 Demystifying evals for AI agents 講得很白:self-improve 只在「outcome 能被客觀驗證」的領域跑得起來。先把 AI 要解決的問題寫死,旁邊一定要有個可量化指標 — 哪怕只是 proxy。減肥的目標是「健康」但實際盯卡路里;Mia chatbot 目標是「客戶離不開」但實際盯 7 天回訪率。沒這個訊號,AI 想往哪邊進化都行,goal drift 就是這樣來的。

反饋 = 多種訊號餵回 AI 進化。真實客戶對話、另一個 AI 模擬的 role-play(用 LLM 當 judge 看 transcript)、後端 log、GA 數值、eval suite 分數、人寫的 reviewer 回饋 — 任何形式都算,源頭追得回人就好。Anthropic 的 evaluator-optimizer workflow、Nous Research 的 Hermes Agent self-improving skills 都是同樣 pattern:agent 自己學新 skill,但 skill 好不好由人定義的 eval 決定。

改完先過 eval / A/B test 再 ship。對照 metric 跑 eval suite 或 A/B 對照組,實際動了才上、沒動就 rollback。守住三條紅線:AI 不能自己定 metric、不能自己當 judge、不能拿自己評的分數回去訓練自己 — 任何一條開缺,進化就變 reward hacking(Anthropic RL paper 自己量過,也叫 Goodhart's Law)。

最新發現 — 2026 / 05

Harness + Self-Improve 的自動化終點(暫時)

Anthropic 三天前在 Dev Conference demo 了把 Claude Code、Claude App、GitHub App 串成 end-to-end 自動化 pipeline 的做法 — 從 issue 到 PR、從 review 到 merge、從 CI 到 deploy 都不離開 AI orbit。

這個 pipeline 恰好是兩條公式的工業化形態:Harness 在每一步用 deterministic gate 守住,Self-Improve 在跨多步用人定義 eval 守住方向。Anthropic 第一方把這條路走通,等於業界對「AI 落地+進化」這個方向的最終驗證。

這就是我們導入時最後要把客戶帶到的地方 — 不是給工程師裝個 AI 助手,是讓整個 SDLC 在 AI 軌道上 self-improve。想看完整實作 → 安排 30 分鐘對談。

落地的 AI,是人設計出來的;進化的 AI,是人守著方向,讓 AI 自己跑出來的。

03合作前的對齊

誰適合,誰不適合。

適合 — FIT

中型企業 RD 想自建 AI 能力但卡住
已做過 AI PoC 但 production 上不去
工程團隊有在用 Cursor / Claude Code 但 ROI 不明
招不到合意的 AI 工程師、想用 harness 補位

不適合 — NOT FIT

想做新 AI 產品但還沒想清楚做什麼——方向感是 founder 的工作,我們不替您決定
期待 AI 一鍵解決所有問題的決策者
不願意調整 dev workflow 的 RD team

04Work — 近期案例

三個切片,不是全貌。
客戶名稱以類型呈現。

N° 003 2025 · Q4

製造業 · 內部系統 RD

Legacy PHP 內部系統重寫為 modern stack,工期壓縮 40%。

原估期程 9 個月

實際交付 5.4 個月

Regression 0 件

看完整案例 →

N° 002 2025 · Q2

B2B 平台 · Agent 整合

把崩在 production 的 LLM 流程穩定下來,production-grade harness 設計與交付。

Production 失敗率 −92%

P95 Latency −38%

交付期程 10 週

看完整案例 →

N° 001 2026 · Q1

中型 SaaS · RD 6 人團隊

把 PR cycle time 從 5 天降到 1.5 天,核心是給 Cursor 配對應的 harness。

PR Cycle Time −70%

交付期程 8 週

受影響工程師 6 人

看完整案例 →

看全部案例 →

05Latest — 即時觀察

每週 1–3 條。
業界 hot take + harness/self-improve 觀察。

2026·05·04 HARNESS
Cursor 1.4 把 hook 系統升級到 phase-aware,過去要繞過 sub-agent 才做得到的「PR 階段不准呼叫 model」現在三行 config 解決。
2026·04·28 SELF-IMPROVE
Claude 4.5 在自己生的 preference pair 上 fine-tune 後,human pref score 反而掉 2.4 個百分點。
2026·04·24 METHODOLOGY
關鍵不是「prompt 寫錯」,是 internal eval 沒測到 ship 後的 user task。

看全部 →

06聯絡

先聊三十分鐘,再決定要不要合作。

我們通常在三個工作日內回信。第一次聯絡會安排 30 分鐘免費對談,了解您的處境後判斷是否互相適合。我們不接您還不確定要做什麼的案子。

Email: hello@mazaifei.tw
地址: 台北市

LINE / MIA — 馬在飛 AI ASSISTANT

不確定您的卡點屬於哪一條公式? 跟 Mia 聊聊。

Mia 是我們訓練的對話助理,先用 5–10 分鐘幫您把問題拆乾淨——是 PoC 卡 production、Cursor ROI 算不出、還是 self-improve loop 在 goal drift。整理完再判斷要不要進到 30 分鐘對談。

在 LINE 上跟 Mia 聊聊 → 回覆時間 · 三個工作日內

讓企業的 AI 真正落地,不只是 demo。

Demo 到落地之間,有一道沒人替您處理的縫。

兩條公式。一條讓 AI 落地,一條讓 AI 進化。

這一次,讓 AI 動作不出錯。

跨多次,讓 AI 用得越來越好。

Harness + Self-Improve 的自動化終點(暫時)

誰適合,誰不適合。

適合 — FIT

不適合 — NOT FIT

三個切片,不是全貌。客戶名稱以類型呈現。

Legacy PHP 內部系統重寫為 modern stack,工期壓縮 40%。

把崩在 production 的 LLM 流程穩定下來,production-grade harness 設計與交付。

把 PR cycle time 從 5 天降到 1.5 天,核心是給 Cursor 配對應的 harness。

每週 1–3 條。業界 hot take + harness/self-improve 觀察。

先聊三十分鐘,再決定要不要合作。

不確定您的卡點屬於哪一條公式? 跟 Mia 聊聊。

Demo 到落地之間,
有一道沒人替您處理的縫。

兩條公式。
一條讓 AI 落地,一條讓 AI 進化。

三個切片,不是全貌。
客戶名稱以類型呈現。

每週 1–3 條。
業界 hot take + harness/self-improve 觀察。