科學(xué)家證實大模型能像人類一樣“理解”事物
記者10日從中國科學(xué)院自動化研究所獲悉,來自該所等單位的科研人員首次證實,多模態(tài)大語言模型在訓(xùn)練過程中自己學(xué)會了“理解”事物,而且這種理解方式和人類非常類似。這一發(fā)現(xiàn)為探索人工智能如何“思考”開辟了新路,也為未來打造像人類一樣“理解”世界的人工智能系統(tǒng)打下了基礎(chǔ)。相關(guān)研究成果在線發(fā)表于《自然·機器智能》雜志。
人類智能的核心,就是能真正“理解”事物。當(dāng)看到“狗”或“蘋果”時,我們不僅能識別它們長什么樣,如大小、顏色、形狀等,還能明白它們有什么用、能帶給我們什么感受、有什么文化意義。這種全方位的理解,是我們認(rèn)知世界的基礎(chǔ)。而隨著像ChatGPT這樣的大模型飛速發(fā)展,科學(xué)家們開始好奇:它們能否從海量的文字和圖片中,學(xué)會像人類一樣“理解”事物?
傳統(tǒng)人工智能研究聚焦于物體識別準(zhǔn)確率,卻鮮少探討模型是否真正“理解”物體含義。“當(dāng)前人工智能可以區(qū)分貓狗圖片,但這種‘識別’與人類‘理解’貓狗有什么本質(zhì)區(qū)別,仍有待揭示。”論文通訊作者、中國科學(xué)院自動化研究所研究員何暉光說。
在這項研究中,科研人員借鑒人腦認(rèn)知的原理,設(shè)計了一個巧妙的實驗:讓大模型和人類玩“找不同”游戲。實驗人員從1854種常見物品中給出3個物品概念,要求選出最不搭的那個。通過分析高達470萬次的判斷數(shù)據(jù),科研人員首次繪制出了大模型的“思維導(dǎo)圖”——“概念地圖”。
何暉光介紹,他們從海量實驗數(shù)據(jù)里總結(jié)出66個代表人工智能如何“理解”事物的關(guān)鍵角度,并給它們起了名字。研究發(fā)現(xiàn),這些角度非常容易解釋清楚,而且與人腦中負(fù)責(zé)物體加工的區(qū)域的神經(jīng)活動方式高度一致。更重要的是,能同時看懂文字和圖片的多模態(tài)模型,“思考”和做選擇的方式比其他模型更接近人類。
此外,研究還有個有趣發(fā)現(xiàn),人類做判斷時,既會看東西長什么樣,比如形狀、顏色,也會想它的含義或用途,但大模型更依賴給它貼上的“文字標(biāo)簽”和它學(xué)到的抽象概念。“這證明,大模型內(nèi)部確實發(fā)展出了一種有點類似人類的理解世界的方式。”何暉光說道。(記者陸成寬)