剛剛,Anthropic深夜血洗500億美金行業

日期: 2026-03-10 | 來源: 新智元 | 有0人參與評論 | 字體: 小中大
Claude 為什麼標記該問題

它是如何驗證這個問題確實存在的

需要注意的是，這些評論不會自動批准或阻止PR合並，因此不會破壞現有的代碼評審流程.

默認情況下，Claude Code Review主要關注代碼正確性（correctness）。

也就是說，它重點檢查：

會導致生產環境故障的bug

實際邏輯問題

而不會重點關注代碼格式、風格偏好、是否缺少測試等問題。

如果希望擴展檢查范圍，需要用戶進行配置。

內部測試結果，堪稱恐怖

Anthropic的內部測試結果，堪稱恐怖！也更加證明了，傳統的代碼評審，基本就是個笑話。

內部數據實在是觸目驚心：只有16%的PR獲得了實質性的評審意見。

在1000行以上的大型PR中，84%的代碼都被它揪出了問題，平均每個PR抓到7.5個Bug。

為什麼？原因就是，工程師太忙了。

Anthropic在過去壹年裡，每個工程師的代碼產出增長了200%。代碼越來越多，誰還有功夫壹行壹行細看？

而在實施該功能後，代碼庫中有實質性修復建議的PR比例，從16%暴漲到了54%。

這意味著，以前有近40%的潛在屎山代碼，是在人類程序員眼皮子底下溜過去的，而現在，它們全被Claude揪了出來。

更恐怖的是小於50行的小PR，從前大家覺得，就這麼幾行，能有什麼問題。

結果，其中的31%都被發現了問題，每叁個小改動，就有壹個藏著bug。

而那些被揪出來的問題，工程師的的認可度直接達到99%以上！只有不到1%的結果，被工程師標記為誤報。

這個准確率，已經超過了絕大多數人類reviewer。

Anthropic舉了自己內部的壹個例子：對壹個生產服務的壹行代碼更改，看起來是常規操作，屬於通常會快速獲得批准的差異。但代碼評審將其標記為嚴重問題。

該更改會導致身份驗證失效，這種故障模式在差異對比中容易被忽略，但壹經指出就非常明顯。

該問題在合並前得到了修復，工程師事後表示，他們自己可能不會發現這個問題。

再講壹個真實案例。
- 新聞來源於其它媒體，內容不代表本站立場！
原文鏈接
原文鏈接:

上壹頁 1 2 3 456 下壹頁

在此頁中閱讀全文

我們的贊助商

評論

目前還沒有人發表評論, 大家都在期待您的高見

發表評論

相關功能

新聞