了解監(jiān)督學習、無監(jiān)督學習和半監(jiān)督學習的特征,以及它們在機器學習項目中的應用方式。
在人工智能技術(shù)的討論中,監(jiān)督學習往往會得到最多的宣傳,因為它通常是用于創(chuàng)建人工智能模型的最后一步,用于圖像識別、更好的預測、產(chǎn)品推薦和潛在客戶評分等。
相比之下,無監(jiān)督學習往往在人工智能開發(fā)生命周期的早期在幕后工作:它通常被用來為監(jiān)督學習的魔力展開奠定基礎(chǔ),就像讓經(jīng)理大放異彩的繁重工作一樣。正如后面所解釋的,這兩種機器學習模式都可以有效地應用于業(yè)務(wù)問題。
在技術(shù)層面上,監(jiān)督學習與無監(jiān)督學習之間的區(qū)別在于用于創(chuàng)建算法的原始數(shù)據(jù)是預先標記(監(jiān)督學習)還是未預先標記(無監(jiān)督學習)。
讓我們開始吧。
什么是監(jiān)督學習?
在監(jiān)督學習中,數(shù)據(jù)科學家為算法提供標記的訓練數(shù)據(jù),并定義他們希望算法評估相關(guān)性的變量。
算法的輸入數(shù)據(jù)和輸出變量都在訓練數(shù)據(jù)中指定。例如,如果您嘗試使用監(jiān)督學習來訓練算法以了解圖片中是否有貓,則可以為訓練數(shù)據(jù)中使用的每張圖片創(chuàng)建一個標簽,指示圖像是否包含貓。
正如我們在監(jiān)督學習的定義中所解釋的那樣:“[A]計算機算法是在為特定輸出標記的輸入數(shù)據(jù)上訓練的。該模型經(jīng)過訓練,直到它能夠檢測到輸入數(shù)據(jù)和輸出標簽之間的基本模式和關(guān)系,使其能夠在呈現(xiàn)前所未見的數(shù)據(jù)時產(chǎn)生準確的標記結(jié)果。監(jiān)督算法的常見類型包括分類、決策樹、回歸和預測建模,您可以在Arcitura Education的機器學習教程中了解這些內(nèi)容。
監(jiān)督式機器學習技術(shù)用于各種業(yè)務(wù)應用程序,包括以下內(nèi)容:
個性化營銷。
保險/信貸承銷決策。
欺詐檢測。
垃圾郵件過濾。
什么是無監(jiān)督學習?
在無監(jiān)督學習中,一種適合這種方法的算法(K-means聚類就是一個例子)是在未標記的數(shù)據(jù)上訓練的。它掃描數(shù)據(jù)集,尋找任何有意義的聯(lián)系。換句話說,無監(jiān)督學習決定了數(shù)據(jù)中的模式和相似性,而不是將其與某些外部測量相關(guān)聯(lián)。
當您不知道自己在尋找什么時,這種方法很有用,而當您知道時,這種方法就不那么有用了。如果你向無監(jiān)督算法展示了數(shù)千或數(shù)百萬張圖片,它可能會將圖片的子集歸類為人類識別為貓科動物的圖像。相比之下,在貓與犬科動物的標記數(shù)據(jù)上訓練的監(jiān)督算法能夠高度自信地識別貓的圖像。但這種方法有一個權(quán)衡:如果監(jiān)督學習項目需要數(shù)百萬張標記圖像來開發(fā)模型,那么機器生成的預測需要大量的人力。
有一個中間地帶:半監(jiān)督學習。
什么是半監(jiān)督學習?
半監(jiān)督學習是一種結(jié)合了這兩種方法的捷徑。半監(jiān)督學習描述了一種特定的工作流程,其中使用無監(jiān)督學習算法自動生成標簽,這些標簽可以輸入到監(jiān)督學習算法中。在這種方法中,人類手動標記一些圖像,無監(jiān)督學習猜測其他圖像的標簽,然后將所有這些標簽和圖像輸入到監(jiān)督學習算法以創(chuàng)建AI模型。
半監(jiān)督學習可以降低標記機器學習中使用的大型數(shù)據(jù)集的成本。“如果你能讓人類標記數(shù)百萬個樣本中的0.01%,那么計算機就可以利用這些標簽來顯著提高其預測準確性,”企業(yè)數(shù)據(jù)目錄平臺Alation的聯(lián)合創(chuàng)始人兼首席創(chuàng)新官Aaron Kalb說。
什么是強化學習?
另一種機器學習方法是強化學習。強化學習通常用于教機器完成一系列步驟,不同于監(jiān)督學習和無監(jiān)督學習。數(shù)據(jù)科學家對算法進行編程來執(zhí)行任務(wù),在確定如何完成任務(wù)時給予積極或消極的線索或強化。程序員為獎勵設(shè)定規(guī)則,但讓算法自己決定需要采取哪些步驟來最大化獎勵,從而完成任務(wù)。
什么時候應該使用監(jiān)督學習與無監(jiān)督學習?
LinkedIn機器學習經(jīng)理Shivani Rao表示,采用監(jiān)督或無監(jiān)督機器學習方法的最佳實踐通常取決于環(huán)境,你可以對數(shù)據(jù)和應用程序做出的假設(shè)。
Rao說,使用監(jiān)督學習與無監(jiān)督機器學習算法的選擇也會隨著時間的推移而改變。在模型構(gòu)建過程的早期階段,數(shù)據(jù)通常是未標記的,而標記的數(shù)據(jù)可以在建模的后期階段出現(xiàn)。
例如,對于預測LinkedIn成員是否會觀看課程視頻的問題,第一個模型基于無監(jiān)督技術(shù)。提供這些建議后,記錄某人是否單擊建議的指標將提供新數(shù)據(jù)以生成標簽。
LinkedIn還使用這種技術(shù)來標記學生可能想要獲得的技能的在線課程。人工標記者,例如作者、出版商或?qū)W生,可以提供課程教授的精確和準確的技能列表,但他們不可能提供此類技能的詳盡列表。因此,可以認為這些數(shù)據(jù)標記不完整。這些類型的問題可以使用半監(jiān)督技術(shù)來幫助構(gòu)建一組更詳盡的標記。
數(shù)據(jù)科學和高級分析專家、咨詢公司科爾尼(Kearney)的合伙人巴拉特·托塔(Bharath Thota)表示,他的團隊選擇使用監(jiān)督學習或無監(jiān)督學習時,也往往會考慮實際因素。
“當標記數(shù)據(jù)可用時,我們選擇監(jiān)督學習作為應用程序,目標是預測或分類未來的觀察結(jié)果,”Thota說。“當標記數(shù)據(jù)不可用時,我們使用無監(jiān)督學習,目標是通過從數(shù)據(jù)中識別模式或片段來制定策略。”
Kalb說,Alation數(shù)據(jù)科學家在內(nèi)部將無監(jiān)督學習用于各種應用程序。例如,他們開發(fā)了一種人機協(xié)作流程,用于將晦澀難懂的數(shù)據(jù)對象名稱翻譯成人類語言,例如,將“na_gr_rvnu_ps”翻譯成“北美專業(yè)服務(wù)總收入”。在這種情況下,機器猜測,人類確認,機器學習。
“你可以把它想象成一個迭代循環(huán)中的半監(jiān)督學習,創(chuàng)造一個提高準確性的良性循環(huán),”Kalb說。
5種無監(jiān)督學習技巧
在高層次上,監(jiān)督學習技術(shù)傾向于關(guān)注線性回歸(將模型擬合到一組數(shù)據(jù)點以進行預測)或分類問題(圖像是否有貓?
無監(jiān)督學習技術(shù)通常使用各種方式對原始數(shù)據(jù)集進行切片和切塊,以補充監(jiān)督學習的工作,包括:
數(shù)據(jù)聚類。具有相似特征的數(shù)據(jù)點組合在一起,以幫助更有效地理解和探索數(shù)據(jù)。例如,公司可能會使用數(shù)據(jù)聚類方法根據(jù)客戶的人口統(tǒng)計、興趣、購買行為和其他因素將客戶細分為幾組。
降維。數(shù)據(jù)集中的每個變量都被視為一個單獨的維度。但是,許多模型通過分析變量之間的特定關(guān)系來更好地工作。降維的一個簡單例子是將利潤用作單一維度,它表示收入減去支出——兩個獨立的維度。但是,可以使用主成分分析、自動編碼器、將文本轉(zhuǎn)換為向量的算法或 T 分布隨機鄰域嵌入等算法生成更復雜的新變量類型。
降維可以幫助減少過度擬合的問題,在這種問題中,模型適用于小數(shù)據(jù)集,但不能很好地泛化到新數(shù)據(jù)。該技術(shù)還使公司能夠以 2D 或 3D 形式可視化人類可以輕松理解的高維數(shù)據(jù)。
異?;虍惓V禉z測。無監(jiān)督學習可以幫助識別常規(guī)數(shù)據(jù)分布之外的數(shù)據(jù)點。識別和刪除異常作為數(shù)據(jù)準備步驟可能會提高機器學習模型的性能。
遷移學習。這些算法利用在相關(guān)但不同的任務(wù)上訓練的模型。例如,遷移學習技術(shù)可以很容易地微調(diào)在維基百科文章上訓練的分類器,以使用正確的主題標記任意類型的新文本。LinkedIn的Rao表示,這是解決沒有標簽的數(shù)據(jù)問題的最有效,最快捷的方法之一。
基于圖形的算法。Rao說,這些技術(shù)試圖構(gòu)建一個圖表來捕捉數(shù)據(jù)點之間的關(guān)系。例如,如果每個數(shù)據(jù)點表示具有技能的 LinkedIn 成員,則可以使用圖形來表示成員,其中邊緣表示成員之間的技能重疊。圖形算法還可以幫助將標簽從已知數(shù)據(jù)點轉(zhuǎn)移到未知但密切相關(guān)的數(shù)據(jù)點。無監(jiān)督學習還可用于在不同類型的實體(源和目標)之間構(gòu)建圖形。邊緣越強,源節(jié)點與目標節(jié)點的親和力就越高。例如,LinkedIn 使用它們將成員與基于技能的課程相匹配。