新方法避免AI一本正經(jīng)“胡言亂語(yǔ)”
來(lái)源:科普中國
發(fā)布時(shí)間:2024-09-12
瀏覽次數:1237

目前,大語(yǔ)言模型逐漸成為文學(xué)、法律、醫學(xué)、自然科學(xué)研究等領(lǐng)域中不可或缺的工具。然而,在應用過(guò)程中,大語(yǔ)言模型常會(huì )出現 “幻覺(jué)”現象——可能生成看似合理但實(shí)際并不準確或不真實(shí)的信息。比如,在新聞領(lǐng)域,大語(yǔ)言模型可能會(huì )編造出完全不存在的新聞事件;在法律領(lǐng)域,它可能引用虛構的法律條文和案例;在醫學(xué)領(lǐng)域,它可能會(huì )提供錯誤的診療建議,甚至危及患者生命安全。鑒于此,用戶(hù)在使用這些大語(yǔ)言模型輸出的答案時(shí)不要盲目相信,而應對每次輸出的答案進(jìn)行仔細核實(shí)和驗證。

英國牛津大學(xué)研究團隊近日在國際學(xué)術(shù)期刊《自然》上發(fā)表論文,嘗試解決大語(yǔ)言模型輸出中的這種“幻覺(jué)”現象,從而提高輸出的可信性。通過(guò)評估大語(yǔ)言模型在特定提示詞下生成內容時(shí)的不確定性,可計算出該模型的困惑程度。作為一種警示,它提醒用戶(hù)或模型自身采取額外的循證措施,以確保更準確地輸出答案。

為了更準確衡量模型的困惑程度,該論文引入了“語(yǔ)義熵”概念來(lái)計算輸出的不確定性。所謂語(yǔ)義熵,實(shí)際上是信息熵的一種,用于衡量一個(gè)物理系統中所包含的信息量。

為了簡(jiǎn)單理解“熵”所表示的意思,我們可以想象一個(gè)人在岔路口時(shí)作出判斷的情形:如果這個(gè)人向左走或向右走的概率相同,那么這是“熵”的最大情況,代表信息不確定性的極大值,說(shuō)明這個(gè)人對前方的路完全沒(méi)有把握;而如果這個(gè)人總是選擇向左走,從不選擇向右走,則這是“熵”的最小情況,代表信息不確定性的極小值,說(shuō)明這個(gè)人對前方的路完全有把握。

然而,當涉及語(yǔ)言時(shí),情況會(huì )變得更加復雜。相同的意思可以通過(guò)不同的表達方式來(lái)傳達。例如, “埃菲爾鐵塔的位置在哪里”,答案可以是“巴黎”“在巴黎”或“在法國首都”。為了解決這種語(yǔ)言本身導致的不確定性,研究人員將意義相同的回答進(jìn)行聚類(lèi),從而形成一個(gè)統一的輸出答案,進(jìn)而計算出聚類(lèi)后模型輸出答案的“熵”。如果模型輸出的句子都是表達相同語(yǔ)義的句子,那么語(yǔ)義熵值就會(huì )較低,這意味著(zhù)模型對于自己的輸出答案非常確定;反之, 語(yǔ)義熵則會(huì )很高,表明模型對自己輸出的答案感到不確定。

利用語(yǔ)義熵概念,研究人員對包括GPT-4和LLaMA2在內的多個(gè)大語(yǔ)言模型進(jìn)行深入研究。結果顯示,語(yǔ)義熵在所有模型和數據集上的表現都非常出色,是目前用于評估模型困惑程度的最佳方法,能有效識別出大語(yǔ)言模型是否在“胡言亂語(yǔ)”。另外,通過(guò)對大語(yǔ)言模型進(jìn)行反復提問(wèn),我們可以有效地定量計算出它對問(wèn)題答案的不確定程度,并通過(guò)拒絕回答不確定的問(wèn)題來(lái)提高輸出答案的整體準確度。

語(yǔ)義熵的優(yōu)勢顯而易見(jiàn),它不需要對大語(yǔ)言模型進(jìn)行改動(dòng)或重新訓練,也不需要額外的成本就可立即應用于目前所有的大語(yǔ)言模型。此外,在設計大語(yǔ)言模型時(shí),我們可以將語(yǔ)義熵作為參考指標,在遇到可能不確定的答案時(shí)可以選擇拒絕回答或嘗試進(jìn)行聯(lián)網(wǎng)搜索,從而提高答案的可靠性。語(yǔ)義熵甚至可以用于人類(lèi)也不知道答案的未知問(wèn)題,定量判斷大語(yǔ)言模型輸出答案的確定性。

值得注意的是,利用語(yǔ)義熵來(lái)判斷大語(yǔ)言模型輸出的困惑程度,并不等同于對輸出正確與否的判斷。換句話(huà)說(shuō),大語(yǔ)言模型輸出答案具有很低的語(yǔ)義熵,只意味著(zhù)它在其已有的訓練數據基礎上確信自己答案是正確的。這表明大語(yǔ)言模型有極高概率生成單一語(yǔ)義的句子,但這些句子是否實(shí)際正確仍無(wú)法完全保證。

盡管如此,這項研究無(wú)疑是在實(shí)現完全機器自主語(yǔ)言生成的道路上邁出了重要一步,為大語(yǔ)言模型理解其自信度提供了新的視角,給未來(lái)發(fā)展帶來(lái)了無(wú)限可能。

(作者王琳琳系中國科普作家協(xié)會(huì )會(huì )員、吉林省科學(xué)技術(shù)工作者服務(wù)中心助理研究員,劉傳波系吉林省科普創(chuàng )作協(xié)會(huì )會(huì )員、中國科學(xué)院長(cháng)春應用化學(xué)研究所博士)

點(diǎn)擊查看 中國科普資源名錄 資源展示

點(diǎn)擊查看 中國科普資源名錄 資源需求


歡迎掃碼關(guān)注深i科普!

我們將定期推出

公益、免費、優(yōu)惠的科普活動(dòng)和科普好物!


聽(tīng)說(shuō),打賞我的人最后都找到了真愛(ài)。
做科普,我們是認真的!
掃描關(guān)注深i科普公眾號
加入科普活動(dòng)群
  • 參加最新科普活動(dòng)
  • 認識科普小朋友
  • 成為科學(xué)小記者
色依依国内精品中文字幕|国产精品嫩草影院免费观看|亚洲ⅤA制服丝袜一区二区|久久精品无码一级毛片温泉|无码专区亚洲综合另类