當(dāng)前位置：首頁 > 最新資訊 > 行業(yè)資訊

字節(jié)跳動(dòng)李航：對語言大模型的若干觀察和思考

沃卡惠
行業(yè)資訊
2023-10-16 09:24:06
370

本文闡述筆者對LLM的一些看法，主要觀點(diǎn)如下：

ChatGPT的突破主要在于規(guī)模帶來的質(zhì)變和模型調(diào)教方式的發(fā)明。

LLM融合了實(shí)現(xiàn)人工智能的三條路徑。

LLM的開發(fā)需要結(jié)合第三者體驗(yàn)和第一者體驗(yàn)。

LLM能近似生成心智語言。

LLM需要與多模態(tài)大模型結(jié)合，以產(chǎn)生對世界的認(rèn)識。

LLM本身不具備邏輯推理能力，需要在其基礎(chǔ)上增加推理能力。

1.LLM強(qiáng)大之所在

1.1LLM的主要突破

ChatGPT和GPT4為代表的LLM有以下主要手段。

模型：Transformer擁有強(qiáng)大的表示能力，能對具有組合性（compositinality）的語言進(jìn)行很好的表示和學(xué)習(xí)。

預(yù)訓(xùn)練（pre-trning）：使用大規(guī)模文本數(shù)據(jù)進(jìn)行語言建模（language modeling），學(xué)習(xí)進(jìn)行的是數(shù)據(jù)壓縮，也就是單詞序列的生成概率最大化或預(yù)測誤差最小化。

監(jiān)督微調(diào)SFT（supervised fine tunning）：學(xué)習(xí)的是輸入到輸出的映射，X→Y,或者是輸入到輸出的映射及產(chǎn)出過程X,C_1?,C_n→Y，學(xué)習(xí)到模型的基本行為。這里，C_1?,C_n代表思維鏈。

基于人類反饋的強(qiáng)化學(xué)習(xí)RLHF（reinforcement learning from human feedback）：根據(jù)人的反饋，調(diào)整模型的整體行為。

ChatGPT和GPT4，相比傳統(tǒng)的深度學(xué)習(xí)技術(shù)，如BERT，主要是在智能性和通用性上取得了巨大突破。具備語言、知識、簡單推理能力，能夠很好地近似人的智能行為。不需要標(biāo)注數(shù)據(jù)就可以在不同領(lǐng)域完成不同任務(wù)，也就是進(jìn)行零樣本或小樣本學(xué)習(xí)。

LLM帶來的巨大進(jìn)步，所能產(chǎn)生的效果是之前我們大多數(shù)人都沒有能預(yù)見到的。究其原因，一是使用大數(shù)據(jù)大模型大算力，規(guī)模帶來了質(zhì)的變化。ChatGPT有175B參數(shù)，300B的token做訓(xùn)練。而之前的模型參數(shù)規(guī)模超過1B的都不多。二是Open開發(fā)出了一套調(diào)教大模型的方法，包括基本步驟、技巧和工程實(shí)現(xiàn)。利用語言建模的機(jī)制將人的知識和能力輸入給大模型。大規(guī)模系統(tǒng)的工程實(shí)現(xiàn)和模型的調(diào)教方法成了Open的核心競爭力。這一點(diǎn)可以從相關(guān)技術(shù)的演進(jìn)過程中看出。

1.2歷史演進(jìn)

ChatGPT和GPT4技術(shù)的一個(gè)源頭是生成式對話。

從2012年到2017年在華為諾亞方舟實(shí)驗(yàn)室我們對對話進(jìn)行了研究，2015年開發(fā)了領(lǐng)域第一個(gè)基于序列到序列seq2seq的生成式對話系統(tǒng)Neural Responding Machine。當(dāng)時(shí)的序列到序列模型還是基于LSTM的。但是即使是這樣的模型，也能生成自然的中文。表1給出生成的對話例子。使用4百萬微博數(shù)據(jù)訓(xùn)練的7千萬參數(shù)的這個(gè)模型，對給定一個(gè)發(fā)話，可以生成一個(gè)回復(fù)，形成一輪對話。表中給出top5的幾個(gè)回復(fù)?？梢钥闯鲇行┗貜?fù)是合適的，有些是不合適的。

為解決序列到序列有時(shí)產(chǎn)生不合理結(jié)果的問題，我們于2017年開發(fā)了基于深度強(qiáng)化學(xué)習(xí)的方法，對序列到序列seq2seq的學(xué)習(xí)結(jié)果做進(jìn)一步的調(diào)優(yōu)。與RLHF有相同的算法，先學(xué)習(xí)獎(jiǎng)勵(lì)模型，然后基于策略梯度，調(diào)節(jié)整個(gè)序列到序列模型（策略模型）。模型也是基于LSTM的。當(dāng)時(shí)的研究發(fā)現(xiàn)，加上深度強(qiáng)化學(xué)習(xí)的微調(diào)，可以把序列到序列的生成結(jié)果做得更好。

Google的研究團(tuán)隊(duì)于2017年發(fā)表了Transformer模型。序列到序列的生成開始轉(zhuǎn)向使用Transformer。由于Transformer強(qiáng)大的表示和學(xué)習(xí)能力，生成式對話的效果有了大幅度的提升，也從單輪對話的生成逐漸發(fā)展到多輪對話的生成。

2018年Open團(tuán)隊(duì)發(fā)表了GPT-1模型。其基本想法是，先訓(xùn)練一個(gè)基于Transformer的大規(guī)模語言模型，在其基礎(chǔ)上通過有監(jiān)督的微調(diào)SFT方法，學(xué)習(xí)序列到序列模型，把自然語言的理解和生成任務(wù)都轉(zhuǎn)化為序列到序列生成的任務(wù)，在一個(gè)模型上實(shí)現(xiàn)所有的任務(wù)，包括生成式對話。之后又于2019年發(fā)表了GPT-2，2020年發(fā)表了GPT-3，逐步發(fā)展到ChatGPT和GPT-4。

傳統(tǒng)的相對小的生成式模型也可以生成自然的人類語言，甚至是基于LSTM的。因?yàn)閷W(xué)習(xí)的目標(biāo)是單詞序列的預(yù)測誤差最小化。但生成的自然語言所描述的內(nèi)容有很多在現(xiàn)實(shí)中是不會(huì)發(fā)生的或者不合理的，也就是有嚴(yán)重的幻覺（hallucination）。而大規(guī)模語言模型，由于學(xué)習(xí)手段和規(guī)模，其生成的自然語言所描述的內(nèi)容，在現(xiàn)實(shí)中是很容易發(fā)生的，甚至是合理的，幻覺現(xiàn)象也得到比較有效的控制。

ChatGPT之前，業(yè)界開發(fā)出了一系列的生成式大模型，做生成式對話等任務(wù)。整體觀察的現(xiàn)象是能更好地完成各種任務(wù)，但是能力都沒有能夠達(dá)到ChatGPT的水平。仔細(xì)閱讀GPT-3和InstructGPT的論文，認(rèn)真觀察ChatGPT等各種LLM的結(jié)果，讓人感到Open的核心競爭力是他們開發(fā)了一整套語言大模型的調(diào)教方法和工程實(shí)現(xiàn)方法。調(diào)教方法包含預(yù)訓(xùn)練、SFT、RLHF等基本步驟，更重要地，包含高質(zhì)量大規(guī)模數(shù)據(jù)的準(zhǔn)備，將數(shù)據(jù)一步步喂給模型的訓(xùn)練細(xì)節(jié)。

2.LLM的特點(diǎn)

2.1結(jié)合了人工智能三條路徑

實(shí)現(xiàn)人工智能可以考慮到以下三條路徑：

輸入經(jīng)驗(yàn)知識：人將知識通過規(guī)則等形式教給計(jì)算機(jī)，讓計(jì)算機(jī)進(jìn)行智能性處理。

實(shí)現(xiàn)人類大腦：解明人腦的機(jī)制，基于相同的原理實(shí)現(xiàn)人類智能。

從數(shù)據(jù)中學(xué)習(xí)：通過數(shù)據(jù)驅(qū)動(dòng)機(jī)器學(xué)習(xí)的方法模擬人類智能。

圖1.實(shí)現(xiàn)人工智能的三條路徑

人工智能傳統(tǒng)的符號處理屬于第1條路徑。機(jī)器學(xué)習(xí)屬于第3條路徑。深度學(xué)習(xí)是受人腦啟發(fā)的機(jī)器學(xué)習(xí)，屬于第3條路徑，但也借鑒了第2條路徑。

第1條路徑最容易想到，但是人工智能的歷史證明，它有很大的局限性。第2條路徑依賴于腦科學(xué)的進(jìn)步，目前研究進(jìn)展緩慢，也是非常困難的。第3條路徑看上去不是很直接，但是是目前實(shí)現(xiàn)人工智能的主要手段。

筆者認(rèn)為LLM主要屬于第3條路徑，但也借鑒了第2條路徑，兼具第1條路徑的特點(diǎn)，因?yàn)長LM是深度學(xué)習(xí)，模型中的知識和能力是人通過精選的數(shù)據(jù)和巧妙的訓(xùn)練方法授予的。三條路徑的融合使LLM成為當(dāng)前實(shí)現(xiàn)人工智能的最強(qiáng)大手段。

2.2第三者體驗(yàn)和第一者體驗(yàn)

對外部世界的認(rèn)識和理解，我們可以站在第三者的角度，觀察現(xiàn)象，總結(jié)規(guī)律，分享結(jié)果，屬于第三者體驗(yàn)（third person expeirence）?？茖W(xué)是在第三者體驗(yàn)基礎(chǔ)上建立起來的。我們每個(gè)人的內(nèi)心感受和想法是自己的精神活動(dòng)，很難與他人分享，只能大概描述，屬于第一者體驗(yàn)（first person experience）。

可以認(rèn)為符號處理是基于開發(fā)者第一者體驗(yàn)的，而機(jī)器學(xué)習(xí)是基于開發(fā)者第三者體驗(yàn)的。比如，圍棋大師總結(jié)下棋的經(jīng)驗(yàn)，定義規(guī)則，在其基礎(chǔ)上開發(fā)圍棋系統(tǒng)，就是基于第一者體驗(yàn)的。觀察圍棋大師下棋，從其下棋數(shù)據(jù)中自動(dòng)學(xué)習(xí)規(guī)律，開發(fā)圍棋系統(tǒng)，就是基于第三者體驗(yàn)的。

有趣的是，LLM的開發(fā)基于第三者體驗(yàn)，也結(jié)合第一者體驗(yàn)。因?yàn)槟Ｐ褪腔谏疃壬窠?jīng)網(wǎng)絡(luò)，使用大規(guī)模數(shù)據(jù)，通過預(yù)測誤差最小化的方式學(xué)到的，這些都可以認(rèn)為是基于第三者體驗(yàn)的。但是在學(xué)習(xí)過程中的數(shù)據(jù)收集，數(shù)據(jù)清洗，數(shù)據(jù)標(biāo)注，以及在推理過程中使用的提示（prompt），上下文學(xué)習(xí)（in context learning），都需要開發(fā)者基于自己的經(jīng)驗(yàn)，有效地將知識和能力提供給模型，這應(yīng)該看作是基于第一者體驗(yàn)。這一點(diǎn)與其他的機(jī)器學(xué)習(xí)有本質(zhì)的不同。這也就意味著開發(fā)LLM，既需要能夠觀察數(shù)據(jù)和模型的統(tǒng)計(jì)指標(biāo)，比如scaling law，又要能夠站在使用者的角度準(zhǔn)備數(shù)據(jù)，調(diào)教模型。而后者的技巧需要很多觀察和摸索才能掌握。

2.3LLM的優(yōu)點(diǎn)和局限

LLM在一定程度上解決了通用性問題，進(jìn)一步提高了智能性。大數(shù)據(jù)、大模型返回的結(jié)果大概率是現(xiàn)實(shí)中應(yīng)該發(fā)生的而且是合理的。開發(fā)者通過預(yù)訓(xùn)練、SFT、RLHF、Prompt等方式，調(diào)教模型，可以大大提高模型的能力。

LLM已經(jīng)非常強(qiáng)大。但也有大家指出的明顯需要解決的問題：1.如何優(yōu)化模型，也就是降低訓(xùn)練和使用成本，同時(shí)擴(kuò)大可處理問題的規(guī)模。2.如何保證模型生成內(nèi)容的真實(shí)性，也就是避免幻覺。3.如何構(gòu)建可信賴大模型，也就是保證模型生成結(jié)果的有用性，安全性等。

筆者在ChatGPT出現(xiàn)之前，曾經(jīng)指出深度學(xué)習(xí)需要更多地借鑒人腦的處理機(jī)制，需要更多的理論指導(dǎo)。這在LLM時(shí)代也依然是成立的。LLM規(guī)模已經(jīng)極其龐大，可能需要新的理論，對模型的能力進(jìn)行分析和解釋。當(dāng)模型達(dá)到一定規(guī)模以后，整個(gè)系統(tǒng)的Dynamics呈現(xiàn)了完全不同的規(guī)律，需要進(jìn)一步研究。

3.重要研究課題

總結(jié)起來，LLM時(shí)代有以下重要研究課題。

LLM的優(yōu)化

LLM的真實(shí)性

可信賴LLM與倫理

LLM的理論

多模態(tài)大模型

LLM+邏輯推理

智能體（agent）

面向未來，多模態(tài)大模型、LLM加邏輯推理、智能體等都是重要的研究課題。下面重點(diǎn)討論前兩個(gè)課題。

4.從人類智能角度看LLM

4.1人腦、心智、意識

人腦是一個(gè)巨大的神經(jīng)網(wǎng)絡(luò)，推測有1千億個(gè)神經(jīng)元，1千萬億個(gè)突觸。腦神經(jīng)網(wǎng)絡(luò)由諸多去中心化（decentralized）的子網(wǎng)絡(luò)組成，每個(gè)子網(wǎng)絡(luò)負(fù)責(zé)一個(gè)特定的功能，子網(wǎng)絡(luò)之間有一定的連接。神經(jīng)網(wǎng)絡(luò)進(jìn)行的是并行處理，處理速度快，在下意識中進(jìn)行。人腦神經(jīng)網(wǎng)絡(luò)的一部分被激活時(shí)產(chǎn)生某種狀態(tài)，稱作神經(jīng)表示（neural representation）。

心智（mind）是我們每個(gè)人體驗(yàn)的內(nèi)心的感知和認(rèn)知，既有意識的部分又有下意識的部分，主要是意識層面的。目前腦科學(xué)的一個(gè)有利假說是，意識是人腦整體信息同步的機(jī)制，信息同步在工作空間（workspace）中進(jìn)行。意識中的信息處理是串行處理，處理速度慢。

具身認(rèn)知論（emboddied cognition）認(rèn)為，在人的思維過程中，在意識中的處理產(chǎn)生的是表象（image），心智計(jì)算論（computational theory of mind）認(rèn)為意識中的處理產(chǎn)生的是心智語言（mental language,mentalese）[8]。目前沒有定論，本文根據(jù)需要，同時(shí)借用兩者的觀點(diǎn)。

圖2人腦和心智的組成

圖2給出了人腦和心智的組成。下意識中的腦（神經(jīng)網(wǎng)絡(luò)）分成不同的腦區(qū)負(fù)責(zé)聽覺、視覺、運(yùn)動(dòng)、語言，數(shù)學(xué)等功能。意識得到下意識神經(jīng)網(wǎng)絡(luò)處理的結(jié)果，通過心智語言表示出來，或者產(chǎn)生表象，在工作空間里進(jìn)行各種處理。

心智語言是認(rèn)知科學(xué)家福多、平克等提出的假說。一個(gè)重要特點(diǎn)是，自然語言是有歧義的，而心智語言沒有歧義。當(dāng)我們理解某一個(gè)概念的時(shí)候，腦中喚起所有相關(guān)的多模態(tài)信息進(jìn)行消歧處理，得到心智語言的表示。

4.2LLM的統(tǒng)一實(shí)現(xiàn)

目前為止，自然語言處理有六個(gè)大的任務(wù)，包括分類、匹配、標(biāo)注和語義分析、序列生成、序列到序列、序貫決策。

分類：從文字序列到標(biāo)簽的映射，如文本分類。

匹配：文字序列與文字序列的匹配，如搜索、閱讀理解。

標(biāo)注和語義分析：文字序列到標(biāo)簽序列或結(jié)構(gòu)表示的映射，如分詞、詞性標(biāo)注、句法分析。

序列生成：文字序列的生成，也就是基于語言模型的生成。

序列到序列（seq2seq）：文字序列到文字序列的轉(zhuǎn)化，如機(jī)器翻譯、生成式對話、摘要。

序貫決策：基于已有的文字序列產(chǎn)生新的文字序列，如多輪對話。

前三個(gè)是語言理解任務(wù)，后三個(gè)是語言生成任務(wù)。理解任務(wù)的輸出是類別標(biāo)簽等，可以認(rèn)為是心智語言的表示。

所有的任務(wù)都可以用序列到序列seq2seq模型實(shí)現(xiàn)。語言理解是自然語言到心智語言的seq2seq。語言生成是心智語言到自然語言的seq2seq。語言轉(zhuǎn)換是一種自然語言到另一種自然語言的轉(zhuǎn)換。

GPT3、ChatGPT等用大量文章數(shù)據(jù)做預(yù)訓(xùn)練，然后用seq2seq數(shù)據(jù)做微調(diào)，但seq2seq數(shù)據(jù)也轉(zhuǎn)換成序列數(shù)據(jù)的形式[seq:seq]，即把兩者拼接起來。注意ChatGPT等在生成的時(shí)候并不區(qū)別是自然語言還是內(nèi)部表示。內(nèi)部表示也可以是程序代碼。

圖3LLM實(shí)現(xiàn)所有自然語言處理任務(wù)

圖3描述基于LLM的語言理解，語言生成，語言轉(zhuǎn)換（翻譯）的LLM。比如，思維鏈（chn of thought）就可以認(rèn)為是心智語言的內(nèi)容。基于LLM的語言理解就是把自然語言轉(zhuǎn)化為心智語言。注意：心智語言應(yīng)該是沒有歧義的，而用LLM生成的內(nèi)容，包括思維鏈，經(jīng)常是有歧義的。

所以，可以認(rèn)為LLM用于語言理解時(shí)生成的內(nèi)容是心智語言的近似。自然語言表示心智語言的好處是人們可以很容易定義和標(biāo)注數(shù)據(jù)，如思維鏈數(shù)據(jù)，但是缺點(diǎn)是不能保證不產(chǎn)生歧義。6.1節(jié)有一個(gè)數(shù)學(xué)解題的例子，也可以用程序表示心智語言，就沒有歧義的問題。

5.LLM與多模態(tài)處理

5.1人的語言理解和世界理解

人的語言理解可以從兩個(gè)角度定義，一個(gè)是概念，另一個(gè)是功能。如果是概念，理解一個(gè)詞語或者是一句話，意味著把記憶中的相關(guān)概念和事件喚起，并把它們聯(lián)系起來，這是在意識中產(chǎn)生表象或由心智語言的表示。理解的結(jié)果產(chǎn)生語義落實(shí)（grounding），是沒有歧義的。因?yàn)槿四X在理解中做了消歧。

有很多證據(jù)表明，人的語言理解過程是通過視覺、聽覺等多模態(tài)處理進(jìn)行的。概念相關(guān)的視覺、聽覺表征分別記憶在視覺、聽覺的腦區(qū)。當(dāng)相關(guān)概念被喚起的時(shí)候，在意識中產(chǎn)生多模態(tài)的表象。比如，被問到「大猩猩是不是有鼻子」時(shí)，要回答這個(gè)問題，我們腦子里會(huì)展現(xiàn)出大猩猩的視覺表象。

另一方面，人對世界的理解也是通過語言的。人通過視覺、聽覺、觸覺、味覺、嗅覺從外界環(huán)境獲取信息。世界理解通常是將多模態(tài)信息與語言聯(lián)系到一起的過程。在這個(gè)過程中也會(huì)在意識中產(chǎn)生表象或心智語言的表示。比如，看到桌子上的物體，會(huì)識別是「杯子」，「圓珠筆」等。

5.2多模態(tài)大模型

大家關(guān)注的一個(gè)問題LLM是否實(shí)現(xiàn)了人的語言理解，LLM是否建立了世界模型。筆者的回答：是也不是。

LLM建立的對世界的認(rèn)識完全是基于語言的，從語言數(shù)據(jù)中學(xué)習(xí)，將學(xué)到的知識存儲(chǔ)于語言模型。所以當(dāng)問到關(guān)于世界的任何問題，LLM都能回答，雖然有時(shí)是有幻覺的。知識的存儲(chǔ)的方式也與人不一樣，不是基于實(shí)體和概念，而是存儲(chǔ)在Transformer參數(shù)之中。

可以預(yù)見，當(dāng)LLM和多模態(tài)大模型結(jié)合時(shí)，就能產(chǎn)生與人更接近的世界模型。這時(shí)知識也會(huì)通過實(shí)體和概念等聯(lián)系起來。特別是未來，機(jī)器人能通過與世界互動(dòng)，獲得具身的多模態(tài)信息時(shí)，其產(chǎn)生的多模態(tài)大模型就應(yīng)該能更接近人類的世界模型。注：世界模型并沒有大家都接受的嚴(yán)格定義。

因此，多模態(tài)處理應(yīng)該是LLM之后未來人工智能發(fā)展的重要方向。多模態(tài)研究最近也有很多進(jìn)展。比如，視覺語言模型（vision language model）方面，Open開發(fā)的CLIP模型是視覺語言對齊上最有代表性的模型。字節(jié)跳動(dòng)也開發(fā)了X-VLM模型，在細(xì)粒度的多模態(tài)理解任務(wù)上有最好的表現(xiàn)。

6.LLM與數(shù)學(xué)能力

6.1人的數(shù)學(xué)能力

數(shù)學(xué)能力包括幾種能力，有邏輯推理、算術(shù)計(jì)算、代數(shù)計(jì)算、幾何概念理解等。

數(shù)學(xué)能力：從哲學(xué)角度看

在西方哲學(xué)中，數(shù)學(xué)一直被認(rèn)為是一種人類天生具有的獨(dú)立的能力。

亞里士多德認(rèn)為哲學(xué)理論可以分為數(shù)學(xué)、自然學(xué)（physics）和形而上學(xué)(metaphysics)。在古希臘，數(shù)學(xué)被認(rèn)為獨(dú)立于「科學(xué)」的學(xué)科，因?yàn)槠涑橄笮院瓦壿嬓浴?/p>

圖4將2×2的正方形面積擴(kuò)大一倍的方法

柏拉圖在《美諾篇》中介紹了蘇格拉底與一位奴隸少年的對話。蘇格拉底通過不斷提問的方式，引導(dǎo)奴隸少年解決了如何把一個(gè)2×2的正方形的面積擴(kuò)大一倍的數(shù)學(xué)問題（見圖4）。蘇格拉底試圖證明，人的數(shù)學(xué)思維能力，更一般地，人的理性是生來具有的。

康德在《純粹理性批判》中主張人的推理能力是先天的，他稱之為先驗(yàn)綜合判斷，其中包括數(shù)學(xué)推理，比如計(jì)算5+7=12。

數(shù)學(xué)能力：從腦科學(xué)角度看

近年腦科學(xué)和認(rèn)知科學(xué)的研究發(fā)現(xiàn)，人的數(shù)學(xué)基本能力是先天的，如基本的計(jì)算能力。數(shù)學(xué)思維主要涉及一些特定的腦區(qū)。

有這樣的實(shí)驗(yàn)，4個(gè)月的兒童，讓他們看到把一個(gè)球滾到屏風(fēng)后面，再滾一個(gè)球過去，當(dāng)把屏風(fēng)挪開的時(shí)候，如果他們看到的留下的不是兩個(gè)球而是一個(gè)球，都會(huì)露出非常吃驚的表情。說明他們知道1+1=2。

遞歸運(yùn)算是數(shù)學(xué)的核心能力，猜測是人天生就有的。腦科學(xué)家發(fā)現(xiàn)人腦頂葉有一個(gè)腦區(qū)，其主要功能是數(shù)學(xué)思維，具體的機(jī)理仍不清楚，需要今后進(jìn)一步研究。

當(dāng)然不是所有的數(shù)學(xué)能力都是先天的，也有后天習(xí)得的數(shù)學(xué)能力。研究發(fā)現(xiàn)，數(shù)學(xué)家的部分視覺腦區(qū)在后天的學(xué)習(xí)過程中被再利用于數(shù)學(xué)。

數(shù)學(xué)思維：科學(xué)家的自省

數(shù)學(xué)思維會(huì)經(jīng)常上升到意識?？茖W(xué)家們經(jīng)常把自己的數(shù)學(xué)思維過程描述為意識中的與數(shù)學(xué)相關(guān)的表象的操作過程，這些表象與數(shù)學(xué)概念密切聯(lián)系在一起。對應(yīng)著大腦神經(jīng)網(wǎng)絡(luò)怎樣的計(jì)算尚不清楚。

愛因斯坦曾這樣反思自己的數(shù)學(xué)思維過程，「詞匯或者語言，無論是書面形式還是口頭形式，似乎在我的思維中并沒有發(fā)揮任何作用。作為思維元素的實(shí)體是某些符號和或多或少清晰的表象，可以自發(fā)地復(fù)制和組合。而且，這些元素和相關(guān)的邏輯概念之間存在一定的聯(lián)系。」

6.2LLM用于數(shù)學(xué)解題

LLM本身具備類推推理（analogical reasoning）的能力，但不具備邏輯推理（logical reasoning）的能力（邏輯推理是指基于三段論的推理）。因此，LLM可以做一些簡單的數(shù)學(xué)計(jì)算、數(shù)學(xué)解題。對比于人，相當(dāng)于用死記硬背的方法做數(shù)學(xué)。雖然GPT4展現(xiàn)出了非常強(qiáng)的數(shù)學(xué)解題能力，求解復(fù)雜的數(shù)學(xué)問題應(yīng)該還需要其他機(jī)制。

一個(gè)想法是LLM+邏輯推理的數(shù)學(xué)解題。用LLM理解數(shù)學(xué)問題的題意，將其轉(zhuǎn)換為心智語言，在心智語的基礎(chǔ)上進(jìn)行邏輯推理和數(shù)學(xué)計(jì)算。邏輯推理和數(shù)學(xué)計(jì)算調(diào)用其他的數(shù)學(xué)計(jì)算機(jī)制。

人的數(shù)學(xué)解題有兩種機(jī)制，分別使用心理學(xué)稱作的系統(tǒng)1和系統(tǒng)2，進(jìn)行快的思維（基于死記硬背）和慢的思維（進(jìn)行深入思考）。用LLM直接解題，對應(yīng)著系統(tǒng)1。用LLM產(chǎn)生心智語言，在心智語言的基礎(chǔ)上進(jìn)行解題，對應(yīng)著系統(tǒng)2。

在字節(jié)跳動(dòng)，我們?nèi)ツ晏岢隽松窠?jīng)符號處理方法，結(jié)合神經(jīng)處理和符號處理，用于自然語言理解任務(wù)。也是基于相同的思想結(jié)合系統(tǒng)1和系統(tǒng)2的機(jī)制。這套方法既可以用于數(shù)學(xué)解題，又可以用于自然語言理解。

6.3程序語言作為心智語言

上述基于LLM的數(shù)學(xué)解題和自然語言理解方法中，一個(gè)自然的想法是用程序語言表示心智語言。這是因?yàn)長LM一般使用程序訓(xùn)練，也能生成程序。

我們最近做了大規(guī)模的實(shí)驗(yàn)，驗(yàn)證了Python程序比英語（自然語言）作為“心智語言”，在數(shù)學(xué)解題中更有優(yōu)勢的事實(shí)。這個(gè)方法的一個(gè)優(yōu)點(diǎn)是，LLM理解題意后，得到的程序可以直接通過解釋器執(zhí)行，驗(yàn)證解題步驟的正確性。在Python程序上進(jìn)行推理，也比在自然語言上進(jìn)行推理更為容易。

上一篇：十種最緊缺的人工智能生成技能

下一篇：初創(chuàng)公司利用AI為配音演員開發(fā)“數(shù)字孿生”，用自己聲音生成內(nèi)容