機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的關(guān)系和區(qū)別

沃卡惠
行業(yè)資訊
2022-07-05 09:58:21
408

這里涉及到機(jī)器學(xué)習(xí)子領(lǐng)域的分類。所有的分類，首先要問(wèn)的是為什么這么分？按什么維度進(jìn)行劃分？符合邏輯的分類能幫助人們建立認(rèn)知架構(gòu)，不符合邏輯的分類能讓人一頭霧水。

1、機(jī)器學(xué)習(xí)是人工智能的子領(lǐng)域

人工智能的子領(lǐng)域，沿著歷史的發(fā)展，有比較顯著的特點(diǎn)。大致可分為：

60 年代開(kāi)始的“推理期”：研究搜索，成果包含定理自動(dòng)證明、國(guó)際象棋系統(tǒng) DeepBlue

僅會(huì)推理并無(wú)法處理實(shí)際問(wèn)題，實(shí)際問(wèn)題中需要寬泛的知識(shí)。70 年代開(kāi)始的“知識(shí)期”，研究基于知識(shí)的推理，成果包含 Prolog、各類專家系統(tǒng)、以及今天的知識(shí)圖譜

僅靠人工錄入知識(shí)，難以形成大規(guī)模應(yīng)用。90 年底開(kāi)始的“學(xué)習(xí)期”，研究從數(shù)據(jù)中歸納知識(shí)，成果包含今天的各種數(shù)據(jù)分析、挖掘系統(tǒng)

可見(jiàn)“學(xué)習(xí)”是人工智能的一個(gè)大方向，“機(jī)器學(xué)習(xí)”按照 Tom Mitchell 的定義是從經(jīng)驗(yàn)中自動(dòng)改進(jìn)系統(tǒng)性能的程序。經(jīng)驗(yàn)常以數(shù)據(jù)的方式呈現(xiàn)，因此實(shí)踐上機(jī)器學(xué)習(xí)為數(shù)據(jù)分析提供了主要工具。換句話說(shuō)，今天對(duì)數(shù)據(jù)進(jìn)行較為深入的分析，總結(jié)出模型的工作，都屬于機(jī)器學(xué)習(xí)范疇。

2、機(jī)器學(xué)習(xí)的任務(wù)分類

機(jī)器學(xué)習(xí)從數(shù)據(jù)中總結(jié)模型，而數(shù)據(jù)表示的經(jīng)驗(yàn)可以包含不同的信息形態(tài)，其中的一個(gè)關(guān)鍵的信息，是關(guān)于模型表現(xiàn)的反饋信息。有的數(shù)據(jù)中包含了模型應(yīng)該輸出的值，有的數(shù)據(jù)則完全沒(méi)有這一類信息，還有的數(shù)據(jù)中包含的是對(duì)模型表現(xiàn)的打分。不同的反饋信息導(dǎo)致我們需要用不同的技術(shù)進(jìn)行處理，因此按照反饋信息的不同，機(jī)器學(xué)習(xí)經(jīng)典劃分為三大類：

監(jiān)督學(xué)習(xí)：處理包含有模型正確輸出值的數(shù)據(jù)，即有標(biāo)記數(shù)據(jù)。例如圖像識(shí)別數(shù)據(jù)中，每一張圖像都有相應(yīng)分類標(biāo)記。

強(qiáng)化學(xué)習(xí)：處理的數(shù)據(jù)僅包含有模型打分值，而不知道模型到底應(yīng)該輸出什么，因此只能靠算法去不斷的探索，尋找打分值最高的模型輸出。例如圍棋游戲，缺乏每一步走棋的最佳指導(dǎo)，只能通過(guò)最終的輸贏作為打分，自主探索尋找最佳模型。

無(wú)監(jiān)督學(xué)習(xí)：數(shù)據(jù)中完全沒(méi)有關(guān)于模型輸出好壞的客觀評(píng)估。這時(shí)通常會(huì)人為的設(shè)置某種學(xué)習(xí)目標(biāo)，以開(kāi)展學(xué)習(xí)，例如把 256 維人臉照片壓縮到 4 維，此時(shí)并沒(méi)有任何關(guān)于這 4 維應(yīng)該如何的信息，一種做法是使得這 4 維能夠還原出 256 維的人臉，這就是一種人為設(shè)定的目標(biāo)。這種還原自身信息的做法也叫自監(jiān)督學(xué)習(xí)，雖然名稱中有“監(jiān)督”，其實(shí)是一類借用監(jiān)督技術(shù)的無(wú)監(jiān)督學(xué)習(xí)。

可見(jiàn)這一分類，是按照機(jī)器學(xué)習(xí)的任務(wù)維度進(jìn)行劃分。當(dāng)然這樣的劃分并不具有完全清晰的邊界，隨著越來(lái)越多的交叉領(lǐng)域研究工作的開(kāi)展，出現(xiàn)很多衍生的方向：

監(jiān)督學(xué)習(xí) X 無(wú)監(jiān)督學(xué)習(xí)：例如數(shù)據(jù)包含一部分有標(biāo)記 / 有一部分標(biāo)記的數(shù)據(jù)、以及無(wú)標(biāo)記的數(shù)據(jù)，研究如何利用無(wú)標(biāo)記數(shù)據(jù)提升模型性能，這一領(lǐng)域稱為半監(jiān)督學(xué)習(xí)、弱監(jiān)督學(xué)習(xí)

監(jiān)督學(xué)習(xí) X 強(qiáng)化學(xué)習(xí)：例如圍棋中存在一部分人類專家的演示數(shù)據(jù)，利用這樣的數(shù)據(jù)可以用監(jiān)督學(xué)習(xí)模仿人類走棋，在 AlphaGo 最初版本中如此使用。這一領(lǐng)域稱為模仿學(xué)習(xí)

強(qiáng)化學(xué)習(xí) X 無(wú)監(jiān)督學(xué)習(xí)：例如在強(qiáng)化學(xué)習(xí)的任務(wù)中缺少打分，算法自行對(duì)環(huán)境進(jìn)行探索、發(fā)現(xiàn)功能性技能等等。

以上所述的機(jī)器學(xué)習(xí)子領(lǐng)域，其實(shí)都屬于歸納學(xué)習(xí)，即從樣本中歸納規(guī)律。由于廣泛的適用性，歸納學(xué)習(xí)成為“默認(rèn)的機(jī)器學(xué)習(xí)”。然而機(jī)器學(xué)習(xí)中實(shí)際還有另一類，演繹學(xué)習(xí)，通過(guò)推理出新的知識(shí)進(jìn)行學(xué)習(xí)。這一方向由于數(shù)據(jù)分析大行其道以往不受重視，但近年隨著符號(hào) AI 的復(fù)興，也正在成長(zhǎng)。

3、機(jī)器學(xué)習(xí)的模型分類

早期機(jī)器學(xué)習(xí)研究，由不同的啟發(fā)思想產(chǎn)生了不同的模型，包含：

最近鄰模型

決策樹(shù)模型

貝葉斯模型

線性模型

多層神經(jīng)網(wǎng)絡(luò)模型

等等，早期的研究多集中在數(shù)據(jù)量較小、語(yǔ)意層面較高的數(shù)據(jù)，例如用戶購(gòu)買(mǎi)商品的數(shù)據(jù)，一個(gè)商品 ID 對(duì)應(yīng)了一個(gè)商品。而對(duì)語(yǔ)意層面較低的數(shù)據(jù)，例如圖像數(shù)據(jù)，用每一個(gè)像素的灰度值表征，識(shí)別圖像中的人臉需要建立灰度值到人名的聯(lián)系，跨度巨大；語(yǔ)音數(shù)據(jù)，用波形表征，識(shí)別一個(gè)詞需要建立一連串的聲波強(qiáng)度到詞語(yǔ)的聯(lián)系，跨度巨大，因此取得的性能有限，且往往需要依賴人工構(gòu)造的高層特征，例如人臉圖像的灰度直方圖投影等。

2012 年，某種結(jié)構(gòu)的多層神經(jīng)網(wǎng)絡(luò)的模型，結(jié)合大量的數(shù)據(jù)，在語(yǔ)音識(shí)別、圖像識(shí)別上取得性能突破，引起了廣泛關(guān)注，隨后越來(lái)越多層的神經(jīng)網(wǎng)絡(luò)模型，在海量圖像、語(yǔ)音數(shù)據(jù)上體現(xiàn)的優(yōu)勢(shì)愈加顯著。為區(qū)別傳統(tǒng)的模型，使用這一類深層神經(jīng)網(wǎng)絡(luò)模型被稱為深度學(xué)習(xí)。

其特點(diǎn)在于，不同于特征工程 + 傳統(tǒng)模型，深度模型從低層語(yǔ)意數(shù)據(jù)直接學(xué)習(xí)上層任務(wù)，即所謂的“端到端”學(xué)習(xí)，其中自動(dòng)包含了對(duì)數(shù)據(jù)的表征學(xué)習(xí)。反過(guò)來(lái)，包含表征學(xué)習(xí)的模型，通常也需要進(jìn)行多層次的處理，也都可稱為深度學(xué)習(xí)。除了深度神經(jīng)網(wǎng)絡(luò)外，也有深度森林等非神經(jīng)網(wǎng)絡(luò)模型。

機(jī)器學(xué)習(xí)的任務(wù)與模型是可以組合的，即有非深度 / 深度監(jiān)督學(xué)習(xí)、非深度 / 深度強(qiáng)化學(xué)習(xí)、非深度 / 深度無(wú)監(jiān)督學(xué)習(xí)，等等。

上一篇：IDC預(yù)測(cè)到2025年美國(guó)在人工智能支出將翻倍

下一篇：機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的區(qū)別到底是什么?