科技媒體 TechCrunch 昨日(12 月 23 日)發(fā)布博文,認為 OpenAI 的 o3 模型雖然在 ARC-AGI 等測試中取得了亮眼成績,但背后的高計算成本,讓其短期內(nèi)很難在實際應用中普及。
o3 性能
o3 的新功能之一是可以調(diào)整推理時間,分為低、中、高三種計算級別,計算級別越高,o3 的任務執(zhí)行性能越好。
而 o3 是 OpenAI 是邁向該目標的重要一步,在 ARC-AGI 基準測試中,o3 在高計算設置下獲得了 87.5% 的分數(shù),在低計算設置下得分為 75.7%,性能是 o1 的三倍。
在 EpochAI 的 Frontier Math 基準測試中,o3 解決了 25.2% 的問題(其他模型均不超過 2%),創(chuàng)造了新紀錄。
o3 模型成本過高
ARC-AGI 基準測試的創(chuàng)建者 Fran ois Chollet 在博文中寫道,OpenAI 的 o3 模型雖然是 AI 領域的一個重要突破,但成本著實太高。
根據(jù) ARC-AGI 測試的性能圖標,o3 的高分版本每項任務都使用了價值超過 1000 美元(IT之家備注:當前約 7303 元人民幣)的計算資源,o1 模型每個任務使用約 5 美元的計算資源,而 o1-mini 僅使用幾美分。
這意味著 OpenAI 雖然獲得了將近 88% 的高分,但卻消耗了 170 多倍的計算資源,而高計算版本 o3 整個測試下來,調(diào)用資源成本超過 1 萬美元(當前約 73033 元人民幣),只有財力雄厚的機構(gòu)和個人才能負擔得起 o3 模型的使用成本。
o3 模型的高計算成本使其更適合處理復雜問題,例如長期戰(zhàn)略決策,而非日常小問題;更高效的 AI 推理芯片和更具成本效益的 AI 芯片可能是未來降低 o3 模型使用成本的關(guān)鍵。