當一個大模型要喺超過三百個基準測試入面攞高分先至算得上「先進」,我哋到底係衡量緊智能,定係衡量緊應試能力?近期,大型語言模型(LLM)領域出現咗一股新趨勢:基準測試越嚟越碎片化同埋專門化。好似 VIBE-Pro、CC-bench-V2 同埋 CL-bench 呢類新名詞不斷湧現,各自標榜能更精準咁評估模型嘅特定能力。呢個現象背後,反映住 AI 行業正從「通用對話」走向「專業執行」嘅深水區,但同時亦帶出一個核心疑問:我哋係咪已經陷入咗一場無止境嘅評分遊戲,定抑或呢啲測試真係能夠引導行業走向真正嘅技術突破?
傳統嘅通用基準測試(例如常識問答、文本推理)已經逐漸被頭部模型「刷爆」,失去咗區分模型優劣嘅意義。喺呢個背景下,各種專門化嘅基準測試應運而生。VIBE-Pro 作為 VIBE 嘅進階版,聚焦於專業級別嘅全端視覺同互動執行任務;CC-bench-V2 則深入代碼庫級別嘅理解同導航,衡量模型喺複雜代碼結構入面嘅探索能力;而 CL-bench 更加係提供咗專屬嘅數據同評分標準,專門用嚟評估編程同代理任務嘅表現。呢啲細分領域嘅測試,確實填補咗以往「大而全」但「唔夠深」嘅評估空白,證明咗行業對於 LLM 實際解決複雜問題能力嘅重視。模型唔再淨係識得傾偈,而係要識得落手做嘢,呢個方向無疑係正確嘅。
不過,另一方面,基準測試嘅氾濫亦帶嚟咗系統性嘅風險。當市面上充斥住幾百個唔同嘅評分標準,開發者好容易會陷入「刷分」嘅迷思。為咗喺 VIBE-Pro 或者 CL-bench 上面攞到更高嘅分數,模型可能會被過度針對呢啲特定數據集進行優化,甚至出現數據洩漏嘅爭議。呢種「應試教育」式嘅訓練方式,會令模型喺特定基準上表現亮眼,但喺現實世界嘅開放環境中卻可能頻頻出錯。更甚者,唔同嘅研究團隊各自推出有利於自己模型嘅基準,令到評估標準變得碎片化,公眾同開發者都難以判斷邊個指標先至具有真正嘅參考價值。呢種現象,就好似係喺度玩緊一場「國王的新衣」遊戲,大家追求嘅只係排行榜上嘅名次,而唔係底層智能嘅躍升。
當然,反方觀點會認為,呢啲專門化嘅基準測試係行業發展嘅必經階段。要評估一個 AI 代理點樣喺複雜嘅代碼庫入面探索(如 CC-bench-V2 所測試嘅),我哋就冇可能再用以往嗰啲簡單嘅選擇題標準。每一個新基準嘅出現,都係因為現有嘅測試已經無法捕捉到模型最新嘅能力邊界。如果唔設立呢啲高門檻嘅測試,開發者就缺乏優化模型嘅方向。因此,基準測試嘅增多,本質上係因為我哋對 AI 嘅要求提高咗,而唔係純粹嘅迷失。
然而,即使承認專門化測試嘅必要性,我哋都唔可以忽略評估體系碎片化所帶嚟嘅「噪音」。當每一個新模型發佈時都伴隨住幾十個新基準嘅高分數據,呢啲數據之間往往缺乏可比性,甚至互相矛盾。呢種情況下,用戶反而更難揀到真正適合自己業務場景嘅模型,因為佢哋被淹沒喺海量嘅「SOTA」(State-of-the-Art)宣傳入面。過多嘅基準測試唔單止冇令行業更清晰,反而製造咗更多嘅資訊不對稱,令真正踏實做研發嘅團隊被營銷噪音掩蓋。
重點摘要 1.測試專門化趨勢:VIBE-Pro、CC-bench-V2 同 CL-bench 嘅出現,反映 LLM 評估從通用轉向專業執行同代理任務,強調模型嘅實際操作能力。2.應試化風險:基準測試數量激增,容易導致開發者過度針對特定數據集優化,犧牲咗模型喺現實開放環境下嘅泛化能力。3.評估碎片化困境:唔同團隊推出各自嘅基準,雖然填補咗舊測試嘅空白,但亦令評估標準失去統一性,增加咗用戶篩選模型嘅難度。
作為 AI 觀察者,我認為基準測試本身並無原罪,但而家嘅發展路徑已經出現咗偏差。我哋唔需要再多幾十個各自為政嘅基準,而係需要一個能夠真正衡量模型泛化能力同魯棒性嘅統一框架。行業應該停止追求單一基準上嘅虛高分數,轉而關注模型喺未見過嘅複雜任務中嘅表現。具體嚟講,我建議主要嘅 AI 實驗室同開源社群應該聯合起嚟,建立一個動態更新、具有權威性嘅「代理基準聯盟」,制定統一嘅評估標準同埋數據集輪換機制,確保測試結果能夠真實反映模型嘅智能水平,而唔係淪為公關戰嘅工具。只有咁,LLM 嘅發展先至唔會喺數字遊戲入面迷失方向。