最近把 KIMI 拉進我的專案型工作流做對照測試,結論很直接:
**它最大的問題不是判讀弱,而是連小事都不安分。**
我在意的不是它會不會想,而是:
**明明只叫它改一小塊,它卻很容易順手亂動別的地方。**
而且先說清楚,這不是我這邊沒設規則。
我這邊本來就有一套很嚴苛的專案規則檔,還不是一般「口頭提醒式」那種,而是明確限制很多事情:
* 固定格式
* 固定欄位
* 固定命名規則
* 固定修改順序
* 只能改指定區塊
* 不准亂補、不准亂刪、不准重排
* 多檔案之間要維持一致
* 驗收不是看起來差不多,是直接看 diff 乾不乾淨
也就是說,我不是在拿它做閒聊型任務,也不是隨便丟一句話讓它自由發揮。
我是拿它做**高規則密度、高保真要求、高一致性要求**的專案工作流。
為了避免誤判,我還特地把原本在 Cursor 裡跑的專案,**完整複製一份到桌面當沙盒對照組**,專門讓 KIMI 練手,不讓它直接碰主體。
結果這樣一隔離,問題反而更清楚了:
**KIMI 不是偶爾犯錯,而是會持續出現「微偏移累積」。**
常見狀況大概是這些:
1. **未指定區塊被改動**
明明只叫它改 A,結果 B、C 也被它順手動到。
2. **格式漂移**
標題層級、段落順序、欄位順序、命名格式,會慢慢偏掉。
3. **保真度差**
原文沒問題,它卻喜歡自己換句子、刪字、補字、改寫。
4. **自作主張補內容**
沒叫它總結,它自己總結;沒叫它優化,它自己優化。
5. **長任務後規則服從下降**
前面還像有在守規則,後面開始鬆掉。
6. **表面完成,實際很髒**
回覆看起來像做完了,但一比 diff 就知道一堆非預期改動。
我真正不爽的是這點:
**這些都不是大錯,而是小錯。**
但偏偏這種小錯最浪費時間,因為你不能直接報廢,你得一行一行去驗屍,看它到底偷改了哪裡。
模型便宜,結果把成本轉嫁到人身上。
省下的是 token,浪費的是注意力。
更關鍵的是:
**同一套工作流、同一套規則、同類任務,我拿 GPT 跟 Claude 做,雖然也不是百分之百完美,但至少「只改指定內容」這件事明顯穩很多。**
也就是說,這不是我規則寫得太鬆,也不是我工作流太亂。
我現在想討論的核心不是「KIMI 聰不聰明」,
而是:
**為什麼它對規則的服從度這麼差?**
**為什麼明明有嚴格規則檔,還是壓不住它的 over-edit / unintended changes?**
**這是模型本身的編輯特性問題,還是有什麼更有效的壓制方式?**
我目前已經做過的控制包含:
* 規則檔前置
* 明確限制只能改指定區塊
* 禁止補充、禁止優化、禁止擴寫
* 沙盒副本測試,不直接碰主專案
* 用 diff 驗收,不看它口頭自稱完成
* 拆小任務,不讓它一次做太多
但即便這樣,還是常出現小範圍漂移。
所以我現在比較想問有實戰經驗的人幾件事:
* KIMI 有沒有真正有效的方式,能壓低局部修改時的非預期改動?
* 有沒有哪種 prompt 結構,對它特別有效?
* 有沒有人測過,它是不是天生就比較不適合高格式、高保真的 edit 類任務?
* 還是其實答案很簡單:**它只能當草稿機,不能當專案編輯器。**
我現在的觀察很直接:
**KIMI 的問題不是不會做大事,而是連小事都容易偏移。**
而專案工作流最怕的,剛好就是這種小偏移。
GPT / Claude 至少比較像「你叫它動 1 公分,它大多數時候真的只動 1 公分」。
KIMI 比較像「你叫它動 1 公分,它順手把旁邊也摸兩下,然後還覺得自己有幫忙優化」。
如果有人也在拿它做規則密度高、格式要求硬、不能亂動的小範圍修改,想看你們是不是也遇到同樣問題。




























































































