AI「思考」只是假象?
剛剛,一項(xiàng)來(lái)自蘋果的重磅研究揭示了「大推理模型(LRM)」背后的驚人真相——這些看似聰明的模型,在面對(duì)稍復(fù)雜點(diǎn)的題目時(shí),準(zhǔn)確率居然會(huì)全面崩潰!
隨著問(wèn)題變難,推理模型初始會(huì)延長(zhǎng)思考,但隨后思考深度反而下降,盡管仍有充足token預(yù)算——它們恰在最需要深入思考時(shí)選擇了放棄!
這太違背直覺(jué)了,似乎Scaling Law在推理時(shí)完全失效了。
值得一提的是,論文作者中還有Samy Bengio,他也是圖靈三巨頭Yoshua Bengio的兄弟。
論文地址:https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf
LRM模型因能「寫出思考過(guò)程」而備受期待,被認(rèn)為是AI推理能力躍升的關(guān)鍵。
DeepSeek-R1 模式的開(kāi)源開(kāi)啟了LLM進(jìn)化到LRM的進(jìn)程
但研究人員通過(guò)可控游戲環(huán)境的系統(tǒng)實(shí)驗(yàn)證明:現(xiàn)有LRMs不僅在高復(fù)雜度任務(wù)上力不從心,甚至還展現(xiàn)出一種「反常的推理崩潰曲線」——題目越難,它們反而越不「努力」。
研究還通過(guò)在相同計(jì)算token預(yù)算下對(duì)比思考模型與普通模型,發(fā)現(xiàn):
不同于大多數(shù)僅衡量最終性能的研究,這項(xiàng)最新研究分析了它們實(shí)際的推理軌跡——深入觀察其冗長(zhǎng)的「思考」過(guò)程。
三種不同的性能區(qū)間
與以往主要依賴數(shù)學(xué)問(wèn)題來(lái)評(píng)估語(yǔ)言模型推理能力的研究不同,本研究引入了可控的解謎環(huán)境。
這種環(huán)境可以精確調(diào)節(jié)問(wèn)題的復(fù)雜度,同時(shí)保持邏輯過(guò)程的一致性,從而更嚴(yán)謹(jǐn)?shù)胤治瞿P偷耐评砟J胶途窒扌浴?/div>