數(shù)據(jù)可謂是機(jī)器學(xué)習(xí)模型的命脈。不過當(dāng)這種寶貴資源的訪問受到限制時(shí)會發(fā)生什么?正如很多項(xiàng)目和企業(yè)開始展現(xiàn)的那樣,這時(shí)候合成數(shù)據(jù)就算不是一種出色的選擇,也是一種可行的選擇。
什么是合成數(shù)據(jù)?
合成數(shù)據(jù)是人工生成的信息,不是通過直接測量獲得。“假”數(shù)據(jù)本質(zhì)上不是新的概念或革命性的概念。它實(shí)際上是為缺少正常運(yùn)行所需的可用或必要信息的模型生成測試或訓(xùn)練數(shù)據(jù)的一種方法。
過去,缺少數(shù)據(jù)招致了使用隨機(jī)生成的一組數(shù)據(jù)點(diǎn)的便捷方法。盡管這對于教學(xué)和測試用途可能已經(jīng)足夠了,但隨機(jī)數(shù)據(jù)不是您想要拿來訓(xùn)練任何類型的預(yù)測模型的數(shù)據(jù)。這就是合成數(shù)據(jù)概念的不同之處,它很可靠。
合成數(shù)據(jù)本質(zhì)上是一種獨(dú)特的概念,即我們可以巧妙地生成隨機(jī)化數(shù)據(jù)。故此,這種方法可以應(yīng)用于更復(fù)雜的用例,而不單單是測試。
怎樣生成合成數(shù)據(jù)?
雖說生成合成數(shù)據(jù)的方式與隨機(jī)數(shù)據(jù)沒什么不同——只是通過更復(fù)雜的輸入集,但合成數(shù)據(jù)確實(shí)有不同的目的,故此有獨(dú)特的要求。
合成方法基于并僅限于預(yù)先作為輸入而饋入的某些標(biāo)準(zhǔn)。實(shí)際上,它不是隨機(jī)的。它基于一組具有特定分布和標(biāo)準(zhǔn)的樣本數(shù)據(jù),這些標(biāo)準(zhǔn)決定了數(shù)據(jù)點(diǎn)的可能范圍、分布和頻次。大致說來,目的是復(fù)制真實(shí)數(shù)據(jù)以填充更大的數(shù)據(jù)集,然后該數(shù)據(jù)集將足夠龐大,便于訓(xùn)練機(jī)器學(xué)習(xí)模型。
在探索用于提煉合成數(shù)據(jù)的深度學(xué)習(xí)方法時(shí),這種方法變得特別令人關(guān)注。算法可以相互競爭,目的是在生成和識別合成數(shù)據(jù)的能力方面相互超越。實(shí)際上,這里的目的是搞一場人工軍備競賽,以生成超現(xiàn)實(shí)的數(shù)據(jù)。
為什么需要合成數(shù)據(jù)?
假如我們不能收集推進(jìn)文明所需的寶貴資源,就會找到一種創(chuàng)造寶貴資源的方法。這個(gè)原則現(xiàn)在同樣適用于機(jī)器學(xué)習(xí)和AI的數(shù)據(jù)領(lǐng)域。
在訓(xùn)練算法時(shí),擁有非常大的數(shù)據(jù)樣本量至關(guān)重要,否則算法識別的模式有可能對于實(shí)際應(yīng)用而言太過簡單。這實(shí)際上非常合乎邏輯。正如人類智能往往采取最容易的途徑來解決問題,訓(xùn)練機(jī)器學(xué)習(xí)和AI時(shí)也經(jīng)常發(fā)生同樣的情況。
比如說,不妨將這運(yùn)用于對象識別算法,該算法可以從一組貓圖像中準(zhǔn)確識別狗。假如數(shù)據(jù)量太少,AI就有可能依賴不是它試圖識別的對象的基本特征的模式。在這種情況下,AI可能仍然有效,不過遇到不遵循最初識別的模式的數(shù)據(jù)時(shí),就會失效。
合成數(shù)據(jù)怎樣用于訓(xùn)練AI?
那么,解決辦法是什么?我們畫了許多略有不同的動物,迫使網(wǎng)絡(luò)找到圖像的底層結(jié)構(gòu),而不單單是某些像素的位置。但不是手工繪制一百萬條狗,最好構(gòu)建一個(gè)系統(tǒng),專門用于繪制狗,可用于訓(xùn)練分類算法——這實(shí)際上是我們在提供合成數(shù)據(jù)便于訓(xùn)練機(jī)器學(xué)習(xí)時(shí)所做的事情。
然則,這種方法存在明顯的缺陷。單單憑空生成數(shù)據(jù)代表不了真實(shí)世界,故此會招致算法在遇到真實(shí)數(shù)據(jù)時(shí)很可能無法運(yùn)行。解決方案是收集數(shù)據(jù)子集,分析和識別其中的趨勢和范圍,然后使用這些數(shù)據(jù)生成大量隨機(jī)數(shù)據(jù),這些數(shù)據(jù)很可能代表我們自行收集所有數(shù)據(jù)后數(shù)據(jù)的樣子。
這也是合成數(shù)據(jù)的價(jià)值所在。我們再也不必?zé)o休止地收集數(shù)據(jù),然后在使用之前需要清理和處理這些數(shù)據(jù)。
合成數(shù)據(jù)為何能解決日益受到關(guān)注的數(shù)據(jù)隱私問題?
全球眼下正在經(jīng)歷一場非常劇烈的轉(zhuǎn)變,特別是在歐盟:隱私和所生成的數(shù)據(jù)愈來愈受到保護(hù)。在機(jī)器學(xué)習(xí)和AI領(lǐng)域,加強(qiáng)數(shù)據(jù)保護(hù)是老大難問題。受限制的數(shù)據(jù)經(jīng)常正是訓(xùn)練算法為最終用戶執(zhí)行和提供價(jià)值所需要的數(shù)據(jù),特別是對于B2C解決方案而言。
個(gè)人決定使用解決方案并故此批準(zhǔn)使用他們的數(shù)據(jù)時(shí),隱私問題通常會得到解決。這里的問題是,在您擁有提供足夠價(jià)值的解決方案、因而愿意交出個(gè)人數(shù)據(jù)之前,很難讓用戶向您提供其個(gè)人數(shù)據(jù)。故此,供應(yīng)商經(jīng)常會陷入先有雞還是先有蛋的困境。
合成數(shù)據(jù)就是解決方案,企業(yè)可以通過早期采用者獲得數(shù)據(jù)子集。之后,它們可以使用這些信息作為基礎(chǔ),便于生成足夠的數(shù)據(jù)用于訓(xùn)練機(jī)器學(xué)習(xí)和AI。這種方法可以大大減少對私有數(shù)據(jù)的費(fèi)時(shí)又費(fèi)錢的需求,仍可以為實(shí)際用戶開發(fā)算法。
對于醫(yī)療保健、銀行和法律等某些行業(yè)而言,合成數(shù)據(jù)提供了一種更容易訪問以前無法獲得的大量數(shù)據(jù)的方法,消除了新的和更先進(jìn)的算法通常面臨的制約因素。
合成數(shù)據(jù)能否取代真實(shí)數(shù)據(jù)?
真實(shí)數(shù)據(jù)的問題在于它不是為了訓(xùn)練機(jī)器學(xué)習(xí)和AI算法而生成的,它只是我們周圍發(fā)生的事件的副產(chǎn)品。如前所述,這顯然限制了收集數(shù)據(jù)的可用性和易用性,還限制了數(shù)據(jù)的參數(shù)和可能破壞結(jié)果的缺陷(異常值)的可能性。這就是為什么可以定制和控制的合成數(shù)據(jù)在訓(xùn)練模型時(shí)更高效。
然則,盡管非常適用于訓(xùn)練場景,但合成數(shù)據(jù)將不可避免地始終依賴至少一小部分真實(shí)數(shù)據(jù)用于自身的創(chuàng)建。所以合成數(shù)據(jù)永遠(yuǎn)不會取代它所依賴的初始數(shù)據(jù)。更現(xiàn)實(shí)地說,它將大幅減少算法訓(xùn)練所需的真實(shí)數(shù)據(jù)量,這個(gè)過程需要比測試多出一大截的數(shù)據(jù)——通常80%的數(shù)據(jù)用于訓(xùn)練,另外20%的數(shù)據(jù)用于測試。
最后,假如處理得當(dāng),合成數(shù)據(jù)提供了一種更快捷、更有效的方式來獲取我們需要的數(shù)據(jù),成本比從現(xiàn)實(shí)世界獲取數(shù)據(jù)的成本更低,同時(shí)減少了煩人的數(shù)據(jù)隱私問題。