大型語(yǔ)言模型如何教會(huì)自己遵循人類指令？

沃卡惠
行業(yè)資訊
2024-03-29 09:19:21
531

如今，人們對(duì)能夠使大型語(yǔ)言模型(LLM)在很少或沒(méi)有人為干預(yù)的情況下改進(jìn)功能的技術(shù)越來(lái)越感興趣。大型語(yǔ)言模型(LLM)自我改進(jìn)的領(lǐng)域之一是指令微調(diào)(IFT)，也就是讓大型語(yǔ)言模型教會(huì)自己遵循人類指令。

指令微調(diào)(IFT)是ChatGPT和Claude等大型語(yǔ)言模型(LLM)獲得成功的一個(gè)主要原因。然而，指令微調(diào)(IFT)是一個(gè)復(fù)雜的過(guò)程，需要耗費(fèi)大量的時(shí)間和人力。Meta公司和紐約大學(xué)的研究人員在共同發(fā)表的一篇論文中介紹了一種名為“自我獎(jiǎng)勵(lì)語(yǔ)言模型”的新技術(shù)，這種技術(shù)提供了一種方法，使預(yù)訓(xùn)練的語(yǔ)言模型能夠創(chuàng)建和評(píng)估示例，從而教會(huì)自己進(jìn)行微調(diào)。

這種方法的優(yōu)點(diǎn)是，當(dāng)多次應(yīng)用時(shí)，它會(huì)繼續(xù)改進(jìn)語(yǔ)言模型。自我獎(jiǎng)勵(lì)語(yǔ)言模型不僅提高了它們的指令遵循能力，而且在獎(jiǎng)勵(lì)建模方面也做得更好。

自我獎(jiǎng)勵(lì)的語(yǔ)言模型

對(duì)大型語(yǔ)言模型(LLM)進(jìn)行微調(diào)以適應(yīng)指令遵循的常用方法是基于人類反饋強(qiáng)化學(xué)習(xí)(RLHF)。

在人類反饋強(qiáng)化學(xué)習(xí)(RLHF)中，語(yǔ)言模型根據(jù)從獎(jiǎng)勵(lì)模型收到的反饋來(lái)學(xué)習(xí)優(yōu)化其反應(yīng)。獎(jiǎng)勵(lì)模型是根據(jù)人類注釋者的反饋進(jìn)行訓(xùn)練的，這有助于使語(yǔ)言模型的響應(yīng)與人類的偏好保持一致。人類反饋強(qiáng)化學(xué)習(xí)(RLHF)包括三個(gè)階段：預(yù)訓(xùn)練大型語(yǔ)言模型(LLM)，創(chuàng)建基于人類排名輸出的獎(jiǎng)勵(lì)模型，以及強(qiáng)化學(xué)習(xí)循環(huán)，其中大型語(yǔ)言模型(LLM)根據(jù)獎(jiǎng)勵(lì)模型的分?jǐn)?shù)進(jìn)行微調(diào)，以生成與人類判斷一致的高質(zhì)量文本。

圖1人類反饋強(qiáng)化學(xué)習(xí)(RLHF)

另一種方法是直接偏好優(yōu)化(DPO)，在這種方法中，語(yǔ)言模型可以生成多個(gè)答案，并從人類那里接收直接反饋得知哪一個(gè)答案更可取。在直接偏好優(yōu)化(DPO)中，不需要?jiǎng)?chuàng)建單獨(dú)的獎(jiǎng)勵(lì)模型。

雖然這些技術(shù)已被證明是有效的，但它們都受到人類偏好數(shù)據(jù)的大小和質(zhì)量的限制。人類反饋強(qiáng)化學(xué)習(xí)(RLHF)具有額外的限制，即一旦訓(xùn)練完成，獎(jiǎng)勵(lì)模型就會(huì)被凍結(jié)，其質(zhì)量在大型語(yǔ)言模型(LLM)的整個(gè)微調(diào)過(guò)程中都不會(huì)改變。

自我獎(jiǎng)勵(lì)語(yǔ)言模型(SRLM)的思想是創(chuàng)建一種克服這些限制的訓(xùn)練算法。研究人員在論文中寫(xiě)道：“這種方法的關(guān)鍵是開(kāi)發(fā)一個(gè)擁有訓(xùn)練過(guò)程中所需的所有能力的代理，而不是將它們分成不同的模型，例如獎(jiǎng)勵(lì)模型和語(yǔ)言模型。”

自我獎(jiǎng)勵(lì)語(yǔ)言模型(SRLM)有兩個(gè)主要功能：首先，它可以對(duì)用戶的指令提供有益且無(wú)害的響應(yīng)。其次，它可以創(chuàng)建和評(píng)估指令和候選響應(yīng)的示例。

這使得它能夠在人工智能反饋（AIF）上迭代訓(xùn)練自己，并通過(guò)創(chuàng)建和訓(xùn)練自己的數(shù)據(jù)來(lái)逐步改進(jìn)。

在每次迭代中，大型語(yǔ)言模型(LLM)在遵循指令方面變得更好。因此，它在為下一輪訓(xùn)練創(chuàng)建示例方面也有所改進(jìn)。

自我獎(jiǎng)勵(lì)語(yǔ)言模型(SRLM)的工作原理

圖2自我獎(jiǎng)勵(lì)語(yǔ)言模型(SRLM)創(chuàng)建自己的訓(xùn)練示例并對(duì)其進(jìn)行評(píng)估

自我獎(jiǎng)勵(lì)的語(yǔ)言模型從在大量文本語(yǔ)料庫(kù)上訓(xùn)練的一個(gè)基礎(chǔ)大型語(yǔ)言模型(LLM)開(kāi)始。然后，該模型在一小部分人類注釋的示例上進(jìn)行微調(diào)。其種子數(shù)據(jù)包括指令微調(diào)(IFT)示例，其中包括成對(duì)的指令和響應(yīng)對(duì)。

為了改進(jìn)結(jié)果，種子數(shù)據(jù)還可以包括評(píng)估微調(diào)(EFT)示例。在評(píng)估微調(diào)(EFT)中，為大型語(yǔ)言模型(LLM)提供一條指令和一組響應(yīng)。它必須根據(jù)響應(yīng)與輸入提示的相關(guān)性對(duì)響應(yīng)進(jìn)行排序。評(píng)估結(jié)果由推理描述和最終分?jǐn)?shù)組成，這些例子使大型語(yǔ)言模型(LLM)能夠發(fā)揮獎(jiǎng)勵(lì)模型的作用。

一旦在初始數(shù)據(jù)集上進(jìn)行了訓(xùn)練，該模型就可以為下一次訓(xùn)練迭代生成數(shù)據(jù)。在這個(gè)階段，模型從原始的指令微調(diào)(IFT)數(shù)據(jù)集中采樣示例，并生成一個(gè)新的指令提示符。然后，它為新創(chuàng)建的提示生成幾個(gè)候選響應(yīng)。

最后，該模型采用LLM-as-a-Judge對(duì)響應(yīng)進(jìn)行評(píng)估。LLM-as-a-Judge需要一個(gè)特殊的提示，包括原始請(qǐng)求、候選人回復(fù)和評(píng)估回復(fù)的說(shuō)明。

圖3 LLM-as-a-judge提示

一旦模型創(chuàng)建了指令示例并對(duì)響應(yīng)進(jìn)行了排序，自我獎(jiǎng)勵(lì)語(yǔ)言模型(SRLM)就會(huì)使用它們來(lái)創(chuàng)建人工智能反饋訓(xùn)練(AIFT)數(shù)據(jù)集，也可以使用這些說(shuō)明以及回答和排名分?jǐn)?shù)來(lái)創(chuàng)建偏好數(shù)據(jù)集。有兩種方法可以組裝訓(xùn)練數(shù)據(jù)集。一個(gè)是該數(shù)據(jù)集可以與直接偏好優(yōu)化(DPO)一起使用，以教會(huì)語(yǔ)言模型區(qū)分好響應(yīng)和壞響應(yīng)。另一個(gè)是可以創(chuàng)建一個(gè)僅包含最高排名響應(yīng)的監(jiān)督微調(diào)（SFT）數(shù)據(jù)集。研究人員發(fā)現(xiàn)，加入排名數(shù)據(jù)可以提高訓(xùn)練模型的性能。

一旦新創(chuàng)建的示例被添加到原始數(shù)據(jù)集中，就可以再次訓(xùn)練模型。這個(gè)過(guò)程將重復(fù)多次，每次循環(huán)都會(huì)創(chuàng)建一個(gè)模型，該模型既能更好地遵循指示又能更好地評(píng)估響應(yīng)。

研究人員寫(xiě)道：“重要的是，由于該模型既可以提高其生成能力，又可以通過(guò)相同的生成機(jī)制作為自己的獎(jiǎng)勵(lì)模型，這意味著獎(jiǎng)勵(lì)模型本身可以通過(guò)這些迭代得到改進(jìn)。我們相信，這可以提高這些學(xué)習(xí)模式未來(lái)自我完善的潛力上限，消除了制約瓶頸。”

實(shí)驗(yàn)自我獎(jiǎng)勵(lì)語(yǔ)言模型(SRLM)

研究人員以Llama-2-70B為基礎(chǔ)模型測(cè)試了自我獎(jiǎng)勵(lì)語(yǔ)言模型。作為指令微調(diào)的種子數(shù)據(jù)，他們使用了包含數(shù)千個(gè)指令微調(diào)示例的Open Assistant數(shù)據(jù)集。Open Assistant還提供了具有多個(gè)排序響應(yīng)的指令示例，這些指令可用于評(píng)估微調(diào)(EFT)。

他們的實(shí)驗(yàn)表明，自我獎(jiǎng)勵(lì)語(yǔ)言建模的每一次迭代都提高了大型語(yǔ)言模型(LLM)遵循指令的能力。此外，大型語(yǔ)言模型(LLM)在獎(jiǎng)勵(lì)建模方面變得更好，這反過(guò)來(lái)又使它能夠?yàn)橄乱淮蔚鷦?chuàng)建更好的訓(xùn)練示例。他們?cè)贏lpacaEval基準(zhǔn)測(cè)試上的測(cè)試表明，三次迭代自我獎(jiǎng)勵(lì)語(yǔ)言模型(SRLM)的Llama-2表現(xiàn)優(yōu)于Claude 2、Gemini Pro和GPT-4.0613。

但是，這種方法也有局限性。像其他允許大型語(yǔ)言模型(LLM)自我改進(jìn)的技術(shù)一樣自我獎(jiǎng)勵(lì)語(yǔ)言模型(SRLM)可能導(dǎo)致模型陷入“獎(jiǎng)勵(lì)黑客”陷阱，在這個(gè)陷阱中，它開(kāi)始優(yōu)化響應(yīng)以獲得所需的輸出，但其原因是錯(cuò)誤的。獎(jiǎng)勵(lì)黑客攻擊可能導(dǎo)致不穩(wěn)定的語(yǔ)言模型在現(xiàn)實(shí)世界的應(yīng)用程序和不同于其訓(xùn)練示例的情況下表現(xiàn)不佳。也不清楚這個(gè)過(guò)程可以在多大程度上根據(jù)模型大小和迭代次數(shù)進(jìn)行縮放。

但是自我獎(jiǎng)勵(lì)語(yǔ)言模型(SRLM)具有明顯的優(yōu)勢(shì)，可以為訓(xùn)練數(shù)據(jù)提供更多信息。如果已經(jīng)有一個(gè)帶注釋的訓(xùn)練示例的數(shù)據(jù)集，那么可以使用自我獎(jiǎng)勵(lì)語(yǔ)言模型(SRLM)來(lái)提高大型語(yǔ)言模型(LLM)的能力，而無(wú)需向數(shù)據(jù)集添加更多示例。

研究人員寫(xiě)道：“我們相信這是一個(gè)令人興奮的研究方向，因?yàn)檫@意味著該模型能夠在未來(lái)的迭代中更好地為改進(jìn)指令遵循分配獎(jiǎng)勵(lì)——這是一種良性循環(huán)。雖然這種改進(jìn)在現(xiàn)實(shí)情況下可能會(huì)飽和，但它仍然允許持續(xù)改進(jìn)的可能性，而人類的偏好通常用于建立獎(jiǎng)勵(lì)模型和指令遵循模型。”

上一篇：工業(yè)5.0：融合技術(shù)大趨勢(shì)，重塑智慧城市的未來(lái)

下一篇：人工智能威脅分析增強(qiáng)風(fēng)險(xiǎn)管理