国产熟女一区二区五月婷-又爽又黄又无遮挡网站-亚洲国产精品视频在线播放-国内偷拍国内精品网999

當(dāng)前位置:首頁 > 最新資訊 > 行業(yè)資訊

字節(jié)跳動(dòng)李航:對語言大模型的若干觀察和思考

本文闡述筆者對LLM的一些看法,主要觀點(diǎn)如下:

ChatGPT的突破主要在于規(guī)模帶來的質(zhì)變和模型調(diào)教方式的發(fā)明。

LLM融合了實(shí)現(xiàn)人工智能的三條路徑。

LLM的開發(fā)需要結(jié)合第三者體驗(yàn)和第一者體驗(yàn)。

LLM能近似生成心智語言。

LLM需要與多模態(tài)大模型結(jié)合,以產(chǎn)生對世界的認(rèn)識。

LLM本身不具備邏輯推理能力,需要在其基礎(chǔ)上增加推理能力。

1.LLM強(qiáng)大之所在

1.1LLM的主要突破

ChatGPT和GPT4為代表的LLM有以下主要手段。

模型:Transformer擁有強(qiáng)大的表示能力,能對具有組合性(compositinality)的語言進(jìn)行很好的表示和學(xué)習(xí)。

預(yù)訓(xùn)練(pre-trning):使用大規(guī)模文本數(shù)據(jù)進(jìn)行語言建模(language modeling),學(xué)習(xí)進(jìn)行的是數(shù)據(jù)壓縮,也就是單詞序列的生成概率最大化或預(yù)測誤差最小化。

監(jiān)督微調(diào)SFT(supervised fine tunning):學(xué)習(xí)的是輸入到輸出的映射,X→Y,或者是輸入到輸出的映射及產(chǎn)出過程X,C_1?,C_n→Y,學(xué)習(xí)到模型的基本行為。這里,C_1?,C_n代表思維鏈。

基于人類反饋的強(qiáng)化學(xué)習(xí)RLHF(reinforcement learning from human feedback):根據(jù)人的反饋,調(diào)整模型的整體行為。

ChatGPT和GPT4,相比傳統(tǒng)的深度學(xué)習(xí)技術(shù),如BERT,主要是在智能性和通用性上取得了巨大突破。具備語言、知識、簡單推理能力,能夠很好地近似人的智能行為。不需要標(biāo)注數(shù)據(jù)就可以在不同領(lǐng)域完成不同任務(wù),也就是進(jìn)行零樣本或小樣本學(xué)習(xí)。

LLM帶來的巨大進(jìn)步,所能產(chǎn)生的效果是之前我們大多數(shù)人都沒有能預(yù)見到的。究其原因,一是使用大數(shù)據(jù)大模型大算力,規(guī)模帶來了質(zhì)的變化。ChatGPT有175B參數(shù),300B的token做訓(xùn)練。而之前的模型參數(shù)規(guī)模超過1B的都不多。二是Open開發(fā)出了一套調(diào)教大模型的方法,包括基本步驟、技巧和工程實(shí)現(xiàn)。利用語言建模的機(jī)制將人的知識和能力輸入給大模型。大規(guī)模系統(tǒng)的工程實(shí)現(xiàn)和模型的調(diào)教方法成了Open的核心競爭力。這一點(diǎn)可以從相關(guān)技術(shù)的演進(jìn)過程中看出。

1.2歷史演進(jìn)

ChatGPT和GPT4技術(shù)的一個(gè)源頭是生成式對話。

從2012年到2017年在華為諾亞方舟實(shí)驗(yàn)室我們對對話進(jìn)行了研究,2015年開發(fā)了領(lǐng)域第一個(gè)基于序列到序列seq2seq的生成式對話系統(tǒng)Neural Responding Machine。當(dāng)時(shí)的序列到序列模型還是基于LSTM的。但是即使是這樣的模型,也能生成自然的中文。表1給出生成的對話例子。使用4百萬微博數(shù)據(jù)訓(xùn)練的7千萬參數(shù)的這個(gè)模型,對給定一個(gè)發(fā)話,可以生成一個(gè)回復(fù),形成一輪對話。表中給出top5的幾個(gè)回復(fù)??梢钥闯鲇行┗貜?fù)是合適的,有些是不合適的。

圖片

為解決序列到序列有時(shí)產(chǎn)生不合理結(jié)果的問題,我們于2017年開發(fā)了基于深度強(qiáng)化學(xué)習(xí)的方法,對序列到序列seq2seq的學(xué)習(xí)結(jié)果做進(jìn)一步的調(diào)優(yōu)。與RLHF有相同的算法,先學(xué)習(xí)獎(jiǎng)勵(lì)模型,然后基于策略梯度,調(diào)節(jié)整個(gè)序列到序列模型(策略模型)。模型也是基于LSTM的。當(dāng)時(shí)的研究發(fā)現(xiàn),加上深度強(qiáng)化學(xué)習(xí)的微調(diào),可以把序列到序列的生成結(jié)果做得更好。

Google的研究團(tuán)隊(duì)于2017年發(fā)表了Transformer模型。序列到序列的生成開始轉(zhuǎn)向使用Transformer。由于Transformer強(qiáng)大的表示和學(xué)習(xí)能力,生成式對話的效果有了大幅度的提升,也從單輪對話的生成逐漸發(fā)展到多輪對話的生成。

2018年Open團(tuán)隊(duì)發(fā)表了GPT-1模型。其基本想法是,先訓(xùn)練一個(gè)基于Transformer的大規(guī)模語言模型,在其基礎(chǔ)上通過有監(jiān)督的微調(diào)SFT方法,學(xué)習(xí)序列到序列模型,把自然語言的理解和生成任務(wù)都轉(zhuǎn)化為序列到序列生成的任務(wù),在一個(gè)模型上實(shí)現(xiàn)所有的任務(wù),包括生成式對話。之后又于2019年發(fā)表了GPT-2,2020年發(fā)表了GPT-3,逐步發(fā)展到ChatGPT和GPT-4。

傳統(tǒng)的相對小的生成式模型也可以生成自然的人類語言,甚至是基于LSTM的。因?yàn)閷W(xué)習(xí)的目標(biāo)是單詞序列的預(yù)測誤差最小化。但生成的自然語言所描述的內(nèi)容有很多在現(xiàn)實(shí)中是不會(huì)發(fā)生的或者不合理的,也就是有嚴(yán)重的幻覺(hallucination)。而大規(guī)模語言模型,由于學(xué)習(xí)手段和規(guī)模,其生成的自然語言所描述的內(nèi)容,在現(xiàn)實(shí)中是很容易發(fā)生的,甚至是合理的,幻覺現(xiàn)象也得到比較有效的控制。

ChatGPT之前,業(yè)界開發(fā)出了一系列的生成式大模型,做生成式對話等任務(wù)。整體觀察的現(xiàn)象是能更好地完成各種任務(wù),但是能力都沒有能夠達(dá)到ChatGPT的水平。仔細(xì)閱讀GPT-3和InstructGPT的論文,認(rèn)真觀察ChatGPT等各種LLM的結(jié)果,讓人感到Open的核心競爭力是他們開發(fā)了一整套語言大模型的調(diào)教方法和工程實(shí)現(xiàn)方法。調(diào)教方法包含預(yù)訓(xùn)練、SFT、RLHF等基本步驟,更重要地,包含高質(zhì)量大規(guī)模數(shù)據(jù)的準(zhǔn)備,將數(shù)據(jù)一步步喂給模型的訓(xùn)練細(xì)節(jié)

2.LLM的特點(diǎn)

2.1結(jié)合了人工智能三條路徑

實(shí)現(xiàn)人工智能可以考慮到以下三條路徑:

輸入經(jīng)驗(yàn)知識:人將知識通過規(guī)則等形式教給計(jì)算機(jī),讓計(jì)算機(jī)進(jìn)行智能性處理。

實(shí)現(xiàn)人類大腦:解明人腦的機(jī)制,基于相同的原理實(shí)現(xiàn)人類智能。

從數(shù)據(jù)中學(xué)習(xí):通過數(shù)據(jù)驅(qū)動(dòng)機(jī)器學(xué)習(xí)的方法模擬人類智能。

圖1.實(shí)現(xiàn)人工智能的三條路徑

人工智能傳統(tǒng)的符號處理屬于第1條路徑。機(jī)器學(xué)習(xí)屬于第3條路徑。深度學(xué)習(xí)是受人腦啟發(fā)的機(jī)器學(xué)習(xí),屬于第3條路徑,但也借鑒了第2條路徑。

第1條路徑最容易想到,但是人工智能的歷史證明,它有很大的局限性。第2條路徑依賴于腦科學(xué)的進(jìn)步,目前研究進(jìn)展緩慢,也是非常困難的。第3條路徑看上去不是很直接,但是是目前實(shí)現(xiàn)人工智能的主要手段。

筆者認(rèn)為LLM主要屬于第3條路徑,但也借鑒了第2條路徑,兼具第1條路徑的特點(diǎn),因?yàn)長LM是深度學(xué)習(xí),模型中的知識和能力是人通過精選的數(shù)據(jù)和巧妙的訓(xùn)練方法授予的。三條路徑的融合使LLM成為當(dāng)前實(shí)現(xiàn)人工智能的最強(qiáng)大手段。

2.2第三者體驗(yàn)和第一者體驗(yàn)

對外部世界的認(rèn)識和理解,我們可以站在第三者的角度,觀察現(xiàn)象,總結(jié)規(guī)律,分享結(jié)果,屬于第三者體驗(yàn)(third person expeirence)??茖W(xué)是在第三者體驗(yàn)基礎(chǔ)上建立起來的。我們每個(gè)人的內(nèi)心感受和想法是自己的精神活動(dòng),很難與他人分享,只能大概描述,屬于第一者體驗(yàn)(first person experience)。

可以認(rèn)為符號處理是基于開發(fā)者第一者體驗(yàn)的,而機(jī)器學(xué)習(xí)是基于開發(fā)者第三者體驗(yàn)的。比如,圍棋大師總結(jié)下棋的經(jīng)驗(yàn),定義規(guī)則,在其基礎(chǔ)上開發(fā)圍棋系統(tǒng),就是基于第一者體驗(yàn)的。觀察圍棋大師下棋,從其下棋數(shù)據(jù)中自動(dòng)學(xué)習(xí)規(guī)律,開發(fā)圍棋系統(tǒng),就是基于第三者體驗(yàn)的。

有趣的是,LLM的開發(fā)基于第三者體驗(yàn),也結(jié)合第一者體驗(yàn)。因?yàn)槟P褪腔谏疃壬窠?jīng)網(wǎng)絡(luò),使用大規(guī)模數(shù)據(jù),通過預(yù)測誤差最小化的方式學(xué)到的,這些都可以認(rèn)為是基于第三者體驗(yàn)的。但是在學(xué)習(xí)過程中的數(shù)據(jù)收集,數(shù)據(jù)清洗,數(shù)據(jù)標(biāo)注,以及在推理過程中使用的提示(prompt),上下文學(xué)習(xí)(in context learning),都需要開發(fā)者基于自己的經(jīng)驗(yàn),有效地將知識和能力提供給模型,這應(yīng)該看作是基于第一者體驗(yàn)。這一點(diǎn)與其他的機(jī)器學(xué)習(xí)有本質(zhì)的不同。這也就意味著開發(fā)LLM,既需要能夠觀察數(shù)據(jù)和模型的統(tǒng)計(jì)指標(biāo),比如scaling law,又要能夠站在使用者的角度準(zhǔn)備數(shù)據(jù),調(diào)教模型。而后者的技巧需要很多觀察和摸索才能掌握。

2.3LLM的優(yōu)點(diǎn)和局限

LLM在一定程度上解決了通用性問題,進(jìn)一步提高了智能性。大數(shù)據(jù)、大模型返回的結(jié)果大概率是現(xiàn)實(shí)中應(yīng)該發(fā)生的而且是合理的。開發(fā)者通過預(yù)訓(xùn)練、SFT、RLHF、Prompt等方式,調(diào)教模型,可以大大提高模型的能力。

LLM已經(jīng)非常強(qiáng)大。但也有大家指出的明顯需要解決的問題:1.如何優(yōu)化模型,也就是降低訓(xùn)練和使用成本,同時(shí)擴(kuò)大可處理問題的規(guī)模。2.如何保證模型生成內(nèi)容的真實(shí)性,也就是避免幻覺。3.如何構(gòu)建可信賴大模型,也就是保證模型生成結(jié)果的有用性,安全性等。

筆者在ChatGPT出現(xiàn)之前,曾經(jīng)指出深度學(xué)習(xí)需要更多地借鑒人腦的處理機(jī)制,需要更多的理論指導(dǎo)。這在LLM時(shí)代也依然是成立的。LLM規(guī)模已經(jīng)極其龐大,可能需要新的理論,對模型的能力進(jìn)行分析和解釋。當(dāng)模型達(dá)到一定規(guī)模以后,整個(gè)系統(tǒng)的Dynamics呈現(xiàn)了完全不同的規(guī)律,需要進(jìn)一步研究。

3.重要研究課題

總結(jié)起來,LLM時(shí)代有以下重要研究課題。

LLM的優(yōu)化

LLM的真實(shí)性

可信賴LLM與倫理

LLM的理論

多模態(tài)大模型

LLM+邏輯推理

智能體(agent)

面向未來,多模態(tài)大模型、LLM加邏輯推理、智能體等都是重要的研究課題。下面重點(diǎn)討論前兩個(gè)課題。

4.從人類智能角度看LLM

4.1人腦、心智、意識

人腦是一個(gè)巨大的神經(jīng)網(wǎng)絡(luò),推測有1千億個(gè)神經(jīng)元,1千萬億個(gè)突觸。腦神經(jīng)網(wǎng)絡(luò)由諸多去中心化(decentralized)的子網(wǎng)絡(luò)組成,每個(gè)子網(wǎng)絡(luò)負(fù)責(zé)一個(gè)特定的功能,子網(wǎng)絡(luò)之間有一定的連接。神經(jīng)網(wǎng)絡(luò)進(jìn)行的是并行處理,處理速度快,在下意識中進(jìn)行。人腦神經(jīng)網(wǎng)絡(luò)的一部分被激活時(shí)產(chǎn)生某種狀態(tài),稱作神經(jīng)表示(neural representation)。

心智(mind)是我們每個(gè)人體驗(yàn)的內(nèi)心的感知和認(rèn)知,既有意識的部分又有下意識的部分,主要是意識層面的。目前腦科學(xué)的一個(gè)有利假說是,意識是人腦整體信息同步的機(jī)制,信息同步在工作空間(workspace)中進(jìn)行。意識中的信息處理是串行處理,處理速度慢。

具身認(rèn)知論(emboddied cognition)認(rèn)為,在人的思維過程中,在意識中的處理產(chǎn)生的是表象(image),心智計(jì)算論(computational theory of mind)認(rèn)為意識中的處理產(chǎn)生的是心智語言(mental language,mentalese)[8]。目前沒有定論,本文根據(jù)需要,同時(shí)借用兩者的觀點(diǎn)。

圖片

圖2人腦和心智的組成

圖2給出了人腦和心智的組成。下意識中的腦(神經(jīng)網(wǎng)絡(luò))分成不同的腦區(qū)負(fù)責(zé)聽覺、視覺、運(yùn)動(dòng)、語言,數(shù)學(xué)等功能。意識得到下意識神經(jīng)網(wǎng)絡(luò)處理的結(jié)果,通過心智語言表示出來,或者產(chǎn)生表象,在工作空間里進(jìn)行各種處理。

心智語言是認(rèn)知科學(xué)家福多、平克等提出的假說。一個(gè)重要特點(diǎn)是,自然語言是有歧義的,而心智語言沒有歧義。當(dāng)我們理解某一個(gè)概念的時(shí)候,腦中喚起所有相關(guān)的多模態(tài)信息進(jìn)行消歧處理,得到心智語言的表示。

4.2LLM的統(tǒng)一實(shí)現(xiàn)

目前為止,自然語言處理有六個(gè)大的任務(wù),包括分類、匹配、標(biāo)注和語義分析、序列生成、序列到序列、序貫決策。

分類:從文字序列到標(biāo)簽的映射,如文本分類。

匹配:文字序列與文字序列的匹配,如搜索、閱讀理解。

標(biāo)注和語義分析:文字序列到標(biāo)簽序列或結(jié)構(gòu)表示的映射,如分詞、詞性標(biāo)注、句法分析。

序列生成:文字序列的生成,也就是基于語言模型的生成。

序列到序列(seq2seq):文字序列到文字序列的轉(zhuǎn)化,如機(jī)器翻譯、生成式對話、摘要。

序貫決策:基于已有的文字序列產(chǎn)生新的文字序列,如多輪對話。

前三個(gè)是語言理解任務(wù),后三個(gè)是語言生成任務(wù)。理解任務(wù)的輸出是類別標(biāo)簽等,可以認(rèn)為是心智語言的表示。

所有的任務(wù)都可以用序列到序列seq2seq模型實(shí)現(xiàn)。語言理解是自然語言到心智語言的seq2seq。語言生成是心智語言到自然語言的seq2seq。語言轉(zhuǎn)換是一種自然語言到另一種自然語言的轉(zhuǎn)換。

GPT3、ChatGPT等用大量文章數(shù)據(jù)做預(yù)訓(xùn)練,然后用seq2seq數(shù)據(jù)做微調(diào),但seq2seq數(shù)據(jù)也轉(zhuǎn)換成序列數(shù)據(jù)的形式[seq:seq],即把兩者拼接起來。注意ChatGPT等在生成的時(shí)候并不區(qū)別是自然語言還是內(nèi)部表示。內(nèi)部表示也可以是程序代碼。

圖片

圖3LLM實(shí)現(xiàn)所有自然語言處理任務(wù)

圖3描述基于LLM的語言理解,語言生成,語言轉(zhuǎn)換(翻譯)的LLM。比如,思維鏈(chn of thought)就可以認(rèn)為是心智語言的內(nèi)容。基于LLM的語言理解就是把自然語言轉(zhuǎn)化為心智語言。注意:心智語言應(yīng)該是沒有歧義的,而用LLM生成的內(nèi)容,包括思維鏈,經(jīng)常是有歧義的。

所以,可以認(rèn)為LLM用于語言理解時(shí)生成的內(nèi)容是心智語言的近似。自然語言表示心智語言的好處是人們可以很容易定義和標(biāo)注數(shù)據(jù),如思維鏈數(shù)據(jù),但是缺點(diǎn)是不能保證不產(chǎn)生歧義。6.1節(jié)有一個(gè)數(shù)學(xué)解題的例子,也可以用程序表示心智語言,就沒有歧義的問題。

5.LLM與多模態(tài)處理

5.1人的語言理解和世界理解

人的語言理解可以從兩個(gè)角度定義,一個(gè)是概念,另一個(gè)是功能。如果是概念,理解一個(gè)詞語或者是一句話,意味著把記憶中的相關(guān)概念和事件喚起,并把它們聯(lián)系起來,這是在意識中產(chǎn)生表象或由心智語言的表示。理解的結(jié)果產(chǎn)生語義落實(shí)(grounding),是沒有歧義的。因?yàn)槿四X在理解中做了消歧。

有很多證據(jù)表明,人的語言理解過程是通過視覺、聽覺等多模態(tài)處理進(jìn)行的。概念相關(guān)的視覺、聽覺表征分別記憶在視覺、聽覺的腦區(qū)。當(dāng)相關(guān)概念被喚起的時(shí)候,在意識中產(chǎn)生多模態(tài)的表象。比如,被問到「大猩猩是不是有鼻子」時(shí),要回答這個(gè)問題,我們腦子里會(huì)展現(xiàn)出大猩猩的視覺表象。

另一方面,人對世界的理解也是通過語言的。人通過視覺、聽覺、觸覺、味覺、嗅覺從外界環(huán)境獲取信息。世界理解通常是將多模態(tài)信息與語言聯(lián)系到一起的過程。在這個(gè)過程中也會(huì)在意識中產(chǎn)生表象或心智語言的表示。比如,看到桌子上的物體,會(huì)識別是「杯子」,「圓珠筆」等。

5.2多模態(tài)大模型

大家關(guān)注的一個(gè)問題LLM是否實(shí)現(xiàn)了人的語言理解,LLM是否建立了世界模型。筆者的回答:是也不是。

LLM建立的對世界的認(rèn)識完全是基于語言的,從語言數(shù)據(jù)中學(xué)習(xí),將學(xué)到的知識存儲(chǔ)于語言模型。所以當(dāng)問到關(guān)于世界的任何問題,LLM都能回答,雖然有時(shí)是有幻覺的。知識的存儲(chǔ)的方式也與人不一樣,不是基于實(shí)體和概念,而是存儲(chǔ)在Transformer參數(shù)之中。

可以預(yù)見,當(dāng)LLM和多模態(tài)大模型結(jié)合時(shí),就能產(chǎn)生與人更接近的世界模型。這時(shí)知識也會(huì)通過實(shí)體和概念等聯(lián)系起來。特別是未來,機(jī)器人能通過與世界互動(dòng),獲得具身的多模態(tài)信息時(shí),其產(chǎn)生的多模態(tài)大模型就應(yīng)該能更接近人類的世界模型。注:世界模型并沒有大家都接受的嚴(yán)格定義。

因此,多模態(tài)處理應(yīng)該是LLM之后未來人工智能發(fā)展的重要方向。多模態(tài)研究最近也有很多進(jìn)展。比如,視覺語言模型(vision language model)方面,Open開發(fā)的CLIP模型是視覺語言對齊上最有代表性的模型。字節(jié)跳動(dòng)也開發(fā)了X-VLM模型,在細(xì)粒度的多模態(tài)理解任務(wù)上有最好的表現(xiàn)。

6.LLM與數(shù)學(xué)能力

6.1人的數(shù)學(xué)能力

數(shù)學(xué)能力包括幾種能力,有邏輯推理、算術(shù)計(jì)算、代數(shù)計(jì)算、幾何概念理解等。

數(shù)學(xué)能力:從哲學(xué)角度看

在西方哲學(xué)中,數(shù)學(xué)一直被認(rèn)為是一種人類天生具有的獨(dú)立的能力。

亞里士多德認(rèn)為哲學(xué)理論可以分為數(shù)學(xué)、自然學(xué)(physics)和形而上學(xué)(metaphysics)。在古希臘,數(shù)學(xué)被認(rèn)為獨(dú)立于「科學(xué)」的學(xué)科,因?yàn)槠涑橄笮院瓦壿嬓浴?/p>

圖片

圖4將2×2的正方形面積擴(kuò)大一倍的方法

柏拉圖在《美諾篇》中介紹了蘇格拉底與一位奴隸少年的對話。蘇格拉底通過不斷提問的方式,引導(dǎo)奴隸少年解決了如何把一個(gè)2×2的正方形的面積擴(kuò)大一倍的數(shù)學(xué)問題(見圖4)。蘇格拉底試圖證明,人的數(shù)學(xué)思維能力,更一般地,人的理性是生來具有的。

康德在《純粹理性批判》中主張人的推理能力是先天的,他稱之為先驗(yàn)綜合判斷,其中包括數(shù)學(xué)推理,比如計(jì)算5+7=12。

數(shù)學(xué)能力:從腦科學(xué)角度看

近年腦科學(xué)和認(rèn)知科學(xué)的研究發(fā)現(xiàn),人的數(shù)學(xué)基本能力是先天的,如基本的計(jì)算能力。數(shù)學(xué)思維主要涉及一些特定的腦區(qū)。

有這樣的實(shí)驗(yàn),4個(gè)月的兒童,讓他們看到把一個(gè)球滾到屏風(fēng)后面,再滾一個(gè)球過去,當(dāng)把屏風(fēng)挪開的時(shí)候,如果他們看到的留下的不是兩個(gè)球而是一個(gè)球,都會(huì)露出非常吃驚的表情。說明他們知道1+1=2。

遞歸運(yùn)算是數(shù)學(xué)的核心能力,猜測是人天生就有的。腦科學(xué)家發(fā)現(xiàn)人腦頂葉有一個(gè)腦區(qū),其主要功能是數(shù)學(xué)思維,具體的機(jī)理仍不清楚,需要今后進(jìn)一步研究。

當(dāng)然不是所有的數(shù)學(xué)能力都是先天的,也有后天習(xí)得的數(shù)學(xué)能力。研究發(fā)現(xiàn),數(shù)學(xué)家的部分視覺腦區(qū)在后天的學(xué)習(xí)過程中被再利用于數(shù)學(xué)。

數(shù)學(xué)思維:科學(xué)家的自省

數(shù)學(xué)思維會(huì)經(jīng)常上升到意識??茖W(xué)家們經(jīng)常把自己的數(shù)學(xué)思維過程描述為意識中的與數(shù)學(xué)相關(guān)的表象的操作過程,這些表象與數(shù)學(xué)概念密切聯(lián)系在一起。對應(yīng)著大腦神經(jīng)網(wǎng)絡(luò)怎樣的計(jì)算尚不清楚。

愛因斯坦曾這樣反思自己的數(shù)學(xué)思維過程,「詞匯或者語言,無論是書面形式還是口頭形式,似乎在我的思維中并沒有發(fā)揮任何作用。作為思維元素的實(shí)體是某些符號和或多或少清晰的表象,可以自發(fā)地復(fù)制和組合。而且,這些元素和相關(guān)的邏輯概念之間存在一定的聯(lián)系。」

6.2LLM用于數(shù)學(xué)解題

LLM本身具備類推推理(analogical reasoning)的能力,但不具備邏輯推理(logical reasoning)的能力(邏輯推理是指基于三段論的推理)。因此,LLM可以做一些簡單的數(shù)學(xué)計(jì)算、數(shù)學(xué)解題。對比于人,相當(dāng)于用死記硬背的方法做數(shù)學(xué)。雖然GPT4展現(xiàn)出了非常強(qiáng)的數(shù)學(xué)解題能力,求解復(fù)雜的數(shù)學(xué)問題應(yīng)該還需要其他機(jī)制。

一個(gè)想法是LLM+邏輯推理的數(shù)學(xué)解題。用LLM理解數(shù)學(xué)問題的題意,將其轉(zhuǎn)換為心智語言,在心智語的基礎(chǔ)上進(jìn)行邏輯推理和數(shù)學(xué)計(jì)算。邏輯推理和數(shù)學(xué)計(jì)算調(diào)用其他的數(shù)學(xué)計(jì)算機(jī)制。

人的數(shù)學(xué)解題有兩種機(jī)制,分別使用心理學(xué)稱作的系統(tǒng)1和系統(tǒng)2,進(jìn)行快的思維(基于死記硬背)和慢的思維(進(jìn)行深入思考)。用LLM直接解題,對應(yīng)著系統(tǒng)1。用LLM產(chǎn)生心智語言,在心智語言的基礎(chǔ)上進(jìn)行解題,對應(yīng)著系統(tǒng)2。

在字節(jié)跳動(dòng),我們?nèi)ツ晏岢隽松窠?jīng)符號處理方法,結(jié)合神經(jīng)處理和符號處理,用于自然語言理解任務(wù)。也是基于相同的思想結(jié)合系統(tǒng)1和系統(tǒng)2的機(jī)制。這套方法既可以用于數(shù)學(xué)解題,又可以用于自然語言理解。

6.3程序語言作為心智語言

上述基于LLM的數(shù)學(xué)解題和自然語言理解方法中,一個(gè)自然的想法是用程序語言表示心智語言。這是因?yàn)長LM一般使用程序訓(xùn)練,也能生成程序。

我們最近做了大規(guī)模的實(shí)驗(yàn),驗(yàn)證了Python程序比英語(自然語言)作為“心智語言”,在數(shù)學(xué)解題中更有優(yōu)勢的事實(shí)。這個(gè)方法的一個(gè)優(yōu)點(diǎn)是,LLM理解題意后,得到的程序可以直接通過解釋器執(zhí)行,驗(yàn)證解題步驟的正確性。在Python程序上進(jìn)行推理,也比在自然語言上進(jìn)行推理更為容易。

猜你喜歡