6月12日消息,人工智能光鮮亮麗的外表令世人目眩神迷,大語言模型生成的對(duì)答文采斐然,看似與人類思維無異。然而在光鮮的外表之下,蘋果公司的最新研究清晰揭示出這樣一個(gè)令人不安的現(xiàn)實(shí):雄辯不等于智慧,模仿也絕非理解。
蘋果公司這項(xiàng)新研究題為《思考的幻覺》(The Illusion of Thinking),在人工智能學(xué)界掀起軒然大波。研究表明,即便是最頂尖的推理模型本質(zhì)上也缺乏真正的認(rèn)知能力。這一發(fā)現(xiàn),印證了Facebook母公司Meta首席AI科學(xué)家楊立昆(Yann LeCun)等知名學(xué)者多年來所堅(jiān)持的觀點(diǎn):當(dāng)前人工智能系統(tǒng)只是精密的“模式匹配機(jī)器”,而非能夠思考的實(shí)體。
人工智能的巨大幻象
蘋果研究團(tuán)隊(duì)的研究過程具備系統(tǒng)性,結(jié)果則具備顛覆性。他們創(chuàng)建了可控的解謎環(huán)境,在保持邏輯一致性的前提下,能精確調(diào)整任務(wù)復(fù)雜度,從而揭示出大型推理模型(LRM)在三種不同難度下的表現(xiàn)。
研究發(fā)現(xiàn),標(biāo)準(zhǔn)模型在低復(fù)雜度任務(wù)中的表現(xiàn)竟優(yōu)于那些本應(yīng)更強(qiáng)大的推理模型。而在中等復(fù)雜度任務(wù)中, 額外的“思考”過程帶來的效果增量微乎其微。在面對(duì)高復(fù)雜度任務(wù)時(shí),兩種模型都徹底“癱瘓”。
更引人注目的是研究人員觀察到的反直覺“規(guī)模效應(yīng)”。按理說真正的智能在面對(duì)更復(fù)雜的問題時(shí),能力應(yīng)該會(huì)隨之提升,但這些模型反而呈現(xiàn)出一種怪異模式:即便算力充足,其推理“努力程度”在達(dá)到某個(gè)臨界點(diǎn)后仍會(huì)急劇下降。這表明模型根本沒有真正進(jìn)行推理;它們只是在沿用已習(xí)得的模式,一旦遇到新穎挑戰(zhàn)便不知從何下手。
這項(xiàng)研究暴露出當(dāng)前模型在精確計(jì)算方面的根本局限:它們無法運(yùn)用明確算法,并且在面對(duì)類似謎題時(shí)推理邏輯不一致。當(dāng)那層華麗的語言外衣被剝?nèi)ィO碌牟贿^是精致卻空洞的思維模仿。
專家看法
蘋果的這一研究結(jié)果讓專家們開始質(zhì)疑當(dāng)前人工智能能力的深度以及該領(lǐng)域未來的發(fā)展路徑。IBM技術(shù)內(nèi)容經(jīng)理阿什·米尼亞斯(Ash Minhas)表示:“這篇論文從根本上證明了大型語言模型無法進(jìn)行推理。它們只是在進(jìn)行模式匹配。”他補(bǔ)充說,這項(xiàng)研究的結(jié)果凸顯出“弱人工智能”與“通用人工智能”之間的區(qū)別,明確了當(dāng)前大語言模型是弱人工智能。
OpenAI前董事會(huì)成員、喬治城大學(xué)安全與新興技術(shù)中心戰(zhàn)略總監(jiān)海倫·托納(Helen Toner)最近在美國參議院司法小組委員會(huì)作證時(shí)就表示:“據(jù)我所知,公眾和圈內(nèi)人士對(duì)人工智能的最大落差主要來自少數(shù)幾家致力于開發(fā)’通用人工智能’的公司內(nèi)部。”她說,像OpenAI、谷歌和Anthropic等頂尖人工智能公司正將構(gòu)建通用人工智能視為“完全嚴(yán)肅的目標(biāo)”。
有不少專家認(rèn)為,通用人工智能遠(yuǎn)未成為現(xiàn)實(shí)。正如米尼亞斯所言,“這篇論文強(qiáng)調(diào)我們?nèi)蕴幱谌跞斯ぶ悄茈A段,離通用人工智能還很遠(yuǎn)。”
“僅靠Transformer架構(gòu)不足以實(shí)現(xiàn)推理,”米尼亞斯總結(jié)道,“要獲得真正的推理能力,模型架構(gòu)必須迎來新的突破。”
美國學(xué)者加里·馬庫斯(Gary Marcus)一直是人工智能模型能力的主要審慎派代表,他形容蘋果的研究“相當(dāng)具有顛覆性”。
馬庫斯在個(gè)人專欄中補(bǔ)充道,這些發(fā)現(xiàn)對(duì)當(dāng)前競(jìng)相開發(fā)通用人工智能提出了疑問。在談及支撐著ChatGPT等工具的大語言模型時(shí),馬庫斯寫道:“任何人如果認(rèn)為大語言模型是通往那種能夠從根本上改善社會(huì)的通用人工智能的直接路徑,那都是在自欺欺人。”
英國薩里大學(xué)以人為本人工智能研究所的安德魯·羅戈伊斯基(Andrew Rogoyski)表示,蘋果論文標(biāo)志著整個(gè)行業(yè)在通用人工智能領(lǐng)域“仍在摸索前行”,并且當(dāng)前方法可能已經(jīng)走入一條“死胡同”。
他說:“研究發(fā)現(xiàn)大型推理模型在復(fù)雜問題上會(huì)‘失去方向’,而在中低復(fù)雜度問題上表現(xiàn)良好,這意味著我們當(dāng)前所采用的方法可能陷入了一個(gè)潛在的僵局。”
這些發(fā)現(xiàn)也與楊立昆等頂尖專家多年來發(fā)出的警告不謀而合。楊立昆一直堅(jiān)稱,五年內(nèi)現(xiàn)有的語言模型基本上都會(huì)被淘汰,這并非因?yàn)橛辛烁玫陌姹荆且驗(yàn)檫@條實(shí)現(xiàn)路徑存在根本缺陷。
但也有人質(zhì)疑蘋果的研究結(jié)果和動(dòng)機(jī)。科技類咨詢資深撰稿人克里斯·史密斯(Chris Smith)就認(rèn)為蘋果明顯有“吃不到葡萄說葡萄酸”的意味。史密斯說,畢竟“蘋果智能”遠(yuǎn)落后于ChatGPT、Gemini以及其他主流人工智能模型,推理模型方面更是毫無建樹。Siri甚至連現(xiàn)在是幾月份都說不清楚。
史密斯表示,這項(xiàng)研究發(fā)布的時(shí)間點(diǎn)也令人質(zhì)疑。當(dāng)時(shí)蘋果即將舉辦2025年全球開發(fā)者大會(huì),而人工智能并非會(huì)上主要焦點(diǎn)。蘋果在已經(jīng)發(fā)布商業(yè)推理模型的OpenAI、谷歌以及其他人工智能公司面前,仍然處于落后地位。而在大會(huì)前夕看到蘋果貶低推理模型,確實(shí)感覺有些奇怪。
史密斯還認(rèn)為,這項(xiàng)研究的發(fā)現(xiàn)很重要,相信其他人會(huì)嘗試驗(yàn)證或挑戰(zhàn)這些發(fā)現(xiàn)。甚至有些人可能會(huì)利用這些見解來改進(jìn)自己的推理模型。他說,自己作為一名ChatGPT用戶,即使推理模型無法真正思考,也不會(huì)放棄使用。譬如ChatGPT o3雖然會(huì)犯錯(cuò),也會(huì)出現(xiàn)幻覺,但它的“推理”能力仍然感覺比基礎(chǔ)大語言模型更強(qiáng)。
基準(zhǔn)測(cè)試亟待改進(jìn)
蘋果論文也強(qiáng)調(diào)了人工智能行業(yè)需要更可靠的基準(zhǔn)測(cè)試。米尼亞斯認(rèn)為,當(dāng)前的基準(zhǔn)測(cè)試問題存在缺陷,因?yàn)槟P涂梢酝ㄟ^模式匹配而非真正的推理來解決它們。他說:“如果基準(zhǔn)測(cè)試是基于真正的推理,或者推理問題更復(fù)雜,那么所有模型的表現(xiàn)都會(huì)很糟糕。”
米尼亞斯說,蘋果研究人員為此構(gòu)建了一個(gè)合成數(shù)據(jù)集,將符號(hào)打亂排列后得到用于訓(xùn)練和測(cè)試模型的專項(xiàng)數(shù)據(jù)集。
“他們已經(jīng)證明,一旦在輸入序列中對(duì)符號(hào)本身或額外語境進(jìn)行調(diào)整,模型性能就會(huì)明顯下降,”他解釋道。
蘋果研究方法包括在訓(xùn)練集中引入各種“干擾信息”和附加條款,用以觀察模型性能如何變化。然而,IBM數(shù)據(jù)科學(xué)家杰斯·博佐格(Jess Bozorg)指出這種研究也有局限性:“他們沒有具體說明在添加內(nèi)容時(shí)考慮了多少種干擾信息,也沒有具體說明他們使用了哪些干擾信息。”
人性的相似之處:更偏愛自信的“雄辯者”