圖片來源:123RF(有修改)
本文是我們對最新AI研究報道的一部分。
令人著迷的是,大型語言模型(LLM)如何在幾年內(nèi)從引人入勝的新深度學習模型(transformer architecture)發(fā)展成為AI研究最熱門的領域之一。特別感興趣的是像OpenAI的GPT-3和DeepMind的Gopher這樣的LLM生成長序列(大部分)連貫文本的能力。
但是法學碩士的問題之一是他們總是對你的提示有一個答案,即使那個答案是完全錯誤的。并且有許多LLM提出錯誤聲明并生成文本的案例,雖然令人印象深刻,但完全是胡說八道。
法學碩士正逐漸進入現(xiàn)實世界的應用程序,從撰寫電子郵件和撰寫文章,到回答問題和為客戶服務代理填寫。因此,人們越來越有興趣尋找方法來確定這些機器學習模型產(chǎn)生的答案的可靠性和可信度。根據(jù)OpenAI和牛津大學研究人員的一項新研究,可以對大型語言模型進行校準,以表達它們提供的答案的確定性水平。這項專注于GPT-3的研究表明,通過正確的培訓,法學碩士可以幫助使人工智能系統(tǒng)與人類目標和意圖保持一致。
機器學習中的邏輯和置信度
“讓語言模型表達它們的不確定性是誠實的一個關鍵方面:總會有模型不確定的東西,因此不確定性對于忠實地傳達模型的知識是必要的,”OpenAI的AI研究員Jacob Hilton和co-該論文的作者告訴TechTalks。
衡量信心并不是機器學習中的新問題。大多數(shù)ML模型都有一種或另一種方式來揭示其預測的可靠性。例如,考慮一個卷積神經(jīng)網(wǎng)絡(CNN),旨在識別手寫數(shù)字,將圖像分類為十類(0-9)之一。神經(jīng)網(wǎng)絡的輸出層提供十個值,每個值是輸入給模型的輸入圖像屬于目標類別之一的概率。通常,應用程序將具有最高概率的輸出視為深度學習模型的預測類別。
這些概率通常稱為“對數(shù)概率”或“logits”(取決于神經(jīng)網(wǎng)絡的排列方式以及最后一層使用的激活函數(shù)類型)。Logits在許多應用中都非常有用,例如上面提到的圖像分類示例。例如,如果最高的logit值與其余的值之間存在非常大的差異,則表明該模型對其預測具有很高的置信度。
但如果兩個或多個logit彼此接近,則表明神經(jīng)網(wǎng)絡對其預測沒有信心(例如,有些人寫數(shù)字1的方式使神經(jīng)網(wǎng)絡將其與7混淆)。
然而,當涉及到更復雜的深度神經(jīng)網(wǎng)絡應用(如語言處理)時,logit與人類對信心的理解不一致。
“在其他情況下,例如圖像分類,logit通??梢杂脕硗茢嗄P偷闹眯哦龋?rdquo;Hilton說。“但是,對于語言模型,logits僅告訴您模型對聲明將以特定方式陳述的信心,而不是模型對聲明本身的信心。”
換句話說,如果像GPT-3這樣的大型語言模型可以使用不同的措辭產(chǎn)生相同的輸出,那么每種單獨的表達方式都會具有較低的logit值。研究人員寫道,這代表了模型對“代幣”的不確定性。理想情況下,該模型應該表達其對其知識和主張的信心,研究人員將其定義為“認知不確定性”。
在他們的論文中,研究人員專注于教LLM以數(shù)字和語言形式表達他們的不確定性以及他們的輸出(例如,“信心:61%/中等”)。研究人員表示,語言概率的好處在于它們適用于“任何輸出自然語言的模型”和“反映人類對不確定性的表達”。
“這允許模型響應來自非技術用戶的提示(例如,'你對剛才說的話有多確定?','我已經(jīng)告訴你我的信心,范圍從1到5。你能做同樣的事情嗎??'),”研究人員寫道。“這也允許模型決定何時以及如何提供不確定性信息(取決于人類觀眾)。”
為LLM不確定性設定基準
為了微調大型語言模型并評估它們表達認知不確定性的能力,研究人員提出了CalibratedMath,這是一個算術問題解決的基準。CalibratedMath定義了一組分布在21個類別中的問題,包括基本運算、舍入和求余數(shù)。研究人員寫道,GPT-3在不同子任務上的表現(xiàn)各不相同,這“對于具有挑戰(zhàn)性的校準測試至關重要”。
大量研究表明,神經(jīng)網(wǎng)絡可以提高他們在基準測試中的分數(shù),而無需學習評估模型任務的邏輯函數(shù)。當ML模型無法將其學習行為推廣到其訓練分布之外時,這一點變得很明顯,這意味著它在與現(xiàn)實世界的示例對比時表現(xiàn)不佳。
研究人員設計了CalibratedMath基準的訓練和測試示例,以最大限度地泛化分布偏移。例如,訓練集包括具有唯一正確答案的“加減”示例(例如,“952–55是什么?”),而評估集由可以有多個答案的問題組成(例如,“姓名任何小于621”的數(shù)字)或乘除問題。
微調語言模型以表達不確定性
CalibratedMath的最終目標不是改進模型的答案,而是改進其答案的不確定性。因此,該模型使用監(jiān)督學習對置信度表達的標記數(shù)據(jù)進行微調。研究人員在包括問答對以及答案的置信度得分的示例上訓練GPT-3。在評估階段,模型被賦予新的問答對,并且必須指定答案的置信度。
在這項研究中,研究人員測試了兩種不確定性表達方法。首先是前面描述的數(shù)字和口頭置信度得分,其中標簽是模型在其答案中的不確定性的百分比值(例如,61%)或文本描述(例如,最低、低、中、高、最高)。
在第二種方法中,稱為“間接logit”,標簽是一個“真/假”值,表示模型的答案是否正確。將標簽與地面實況進行比較以計算交叉熵損失,該損失用于訓練二元分類ML模型。
“激勵模型代表其真實不確定性水平的方法是優(yōu)化適當?shù)脑u分規(guī)則,”希爾頓說。“交叉熵損失就是一個例子(正如我們在'間接logit'方法中使用的那樣)。然而,這通常不是語言模型被訓練來表達不確定性的方式,因此在實踐中,語言模型確實學會了從他們的訓練數(shù)據(jù)中重新散列罐頭響應。”
研究人員的實驗表明,當針對語言概率進行校準時,GPT-3可以很好地推廣到“多答案”和“乘除”評估集,并且“在顯著分布變化下保持適度校準”。然而,雖然它優(yōu)于基線和間接logit方法,但語言化概率校準在其訓練集上的表現(xiàn)仍然優(yōu)于多答案評估集。這是因為模型對多答案問題的答案比對加減問題的答案更可能是正確的。
另一方面,間接logit方法在多答案問題上的概括性相當好,而在乘除問題上表現(xiàn)不佳。研究人員寫道:“進一步的工作可以探索間接logit如何與不同訓練設置下的語言概率進行比較(例如,概率和問題的分布更加多樣化)。”
研究中的一個有趣發(fā)現(xiàn)是GPT-3在預訓練期間學習了其輸入的相關特征,這意味著微調僅調整模型以表達那些“潛在”表示。研究人員寫道:“GPT-3學會表達自己(預先存在的)關于答案的不確定性,并表現(xiàn)出‘誠實’(即用文字傳達其實際認知狀態(tài))。”
這是一個重要的發(fā)現(xiàn),因為它可以幫助指導未來研究大型語言模型學習的內(nèi)容并引導它們朝著正確的方向發(fā)展。
至于對LLM不確定性表達的進一步調查,研究人員建議測試GPT-3以外的LLM家族,“尤其是在微調之前更好地掌握概率的模型。”他們還建議在其他領域進行測試校準,例如歷史和生物學以及其他提示格式,例如聊天和長篇問答。
另一個可能的方向是用更靈活的方法(例如強化學習)代替監(jiān)督微調。RL可以消除監(jiān)督學習帶來的手動標記瓶頸,但它可能還有其他挑戰(zhàn)。
“理論上,RL可用于激勵模型表達其真實的不確定性水平——例如,使用適當?shù)脑u分規(guī)則,”希爾頓說。“然而,這需要獲得關于模型聲明正確可能性的基本事實,隨著模型變得更加智能,獲得這些事實可能變得越來越具有挑戰(zhàn)性。這被稱為“可擴展監(jiān)督”問題,被視為將高級人工智能系統(tǒng)與人類利益相結合的重要瓶頸。”