国产熟女一区二区五月婷-又爽又黄又无遮挡网站-亚洲国产精品视频在线播放-国内偷拍国内精品网999

當(dāng)前位置:首頁 > 最新資訊 > 行業(yè)資訊

AI項目的十條建議

在制定AI項目方案時,確定構(gòu)建模型的目標(biāo)非常關(guān)鍵,但這種理解只能提供成功的解決方案。在時真正按照完善的建議交付,AI項目團隊需要在執(zhí)行項目時遵循最佳實施路線。為了幫助能按照正確的路徑執(zhí)行,對之前提出的十條建議,現(xiàn)在一起探討一下執(zhí)行路徑

1.知道您的問題

解決問題的最基礎(chǔ)部分是確切地了解你要解決啥子問題。確保你了解你要預(yù)測的內(nèi)容、任何限制以及該項目最終目的是什么。盡早提出問題,并與同行、業(yè)務(wù)精英以及最終用戶驗證你的理解。假如你發(fā)現(xiàn)答案與你的理解一致,那么你就知道你是走在正確的道路上。

2.了解您的數(shù)據(jù)

通過了解你的數(shù)據(jù)的含義,你就能夠了解哪種模型運行良好以及使用哪些功能。數(shù)據(jù)背后的問題將影響哪個模型最成功,計算時間將影響項目成本。通過使用和創(chuàng)建有意義的功能,你可以模仿或改進人工決策。了解每個字段的含義對問題很重要,尤其是在受監(jiān)管的行業(yè)中,數(shù)據(jù)可能需要匿名化,故此不太清楚。假如你不清楚某個功能的含義,請咨詢相關(guān)業(yè)務(wù)專家。

3.拆分OR清洗您的數(shù)據(jù)

你的模型將怎樣處理看不見的數(shù)據(jù)?假如它不能泛化到新數(shù)據(jù),那么它在給定數(shù)據(jù)上的表現(xiàn)并不是最重要的。我們在訓(xùn)練時不能讓你的模型看到部分數(shù)據(jù),你可以驗證它在未知情況下的表現(xiàn)怎樣。這種方法對于選擇正確的模型架構(gòu)和調(diào)整參數(shù)以獲得最佳性能是非常關(guān)鍵的。

對于監(jiān)督學(xué)習(xí)問題,你需要將數(shù)據(jù)分成兩部分或三部分。

訓(xùn)練數(shù)據(jù)——模型從中學(xué)習(xí)的數(shù)據(jù)——通常是隨機選擇的原始數(shù)據(jù)的 75-80%。

測試數(shù)據(jù)——你評估模型的數(shù)據(jù)——是剩余的數(shù)據(jù)。

根據(jù)你正在構(gòu)建的模型類型,你可能還需要第三個稱為驗證集的保留數(shù)據(jù),用于比較已根據(jù)測試數(shù)據(jù)調(diào)整的多個監(jiān)督學(xué)習(xí)模型。在這種情況下,你需要將非訓(xùn)練數(shù)據(jù)拆分為兩個數(shù)據(jù)集,即測試和驗證。你想使用測試數(shù)據(jù)比較同一模型的迭代,并使用驗證數(shù)據(jù)比較不同模型的最終版本。

在Python中,正確拆分數(shù)據(jù)的最簡單的方法就是使用Scikit-learn的train_test_split函數(shù)。

4.不要泄露測試數(shù)據(jù)

重要的是不要將測試數(shù)據(jù)中的任何信息輸入到你的模型中。這可以對整個數(shù)據(jù)集的訓(xùn)練產(chǎn)生負面影響,也可以像在拆分之前執(zhí)行轉(zhuǎn)換(比如縮放)一樣微妙。比如,假如你在拆分之前對數(shù)據(jù)進行規(guī)范化,則模型正在獲取有關(guān)測試數(shù)據(jù)集的信息,因為全局最小值或最大值可能在保留的數(shù)據(jù)中。

5.使用正確的評估指標(biāo)

由于每個問題都是不同的,故此需要根據(jù)上下文選擇適當(dāng)?shù)脑u估方法。最幼稚—也可能是最危險的——分類指標(biāo)的準(zhǔn)確性??紤]檢測癌癥的問題。假如我們想要一個相當(dāng)準(zhǔn)確的模型,我們總是預(yù)測“不是癌癥”,因為超過 99% 的時間可以驗證我們都是正確的。然則,這不是一個非常有用的模型,我們事實上想要檢測癌癥。注意考慮在分類和回歸問題中使用哪種評估指標(biāo)。

6.保持簡單

在處理問題時,重要的是為工作選擇正確的解決方案,而不是最復(fù)雜的模型。管理層、客戶,甚至你可能都想使用“最新最好的”。你需要使用最簡單(非最先進)的模型來滿足你的需求,即奧卡姆剃刀原理。這不僅會提供更多可見性并縮短培訓(xùn)時間,而且事實上可以提高性能。簡而言之,不要用火箭筒射擊蒼蠅或試圖用蒼蠅拍殺死哥斯拉。

7.不要過擬合(或欠擬合)你的模型

過度擬合,也稱為方差,會導(dǎo)致模型在未見過的數(shù)據(jù)上表現(xiàn)不佳。該模型只是簡單地記憶訓(xùn)練數(shù)據(jù)。欠擬合,也稱為偏差,是給模型提供的信息太少,無法學(xué)習(xí)問題的正確表示。平衡這兩者——通常被稱為“偏差-方差權(quán)衡”——是AI過程的重要組成部分,不同的問題需要不同的平衡。

我們以一個簡單的圖像分類器為例。它的任務(wù)是對圖像中是否有狗進行分類。假如你過擬合此模型,它將無法將圖像識別為狗,除非它以前看過該確切圖像。假如你對模型進行欠擬合,即使它以前看過該特定圖像,它也可能無法將圖像識別為狗。

8.嘗試不同的模型架構(gòu)

大多數(shù)時候,為一個問題考慮不同的模型架構(gòu)是有益的。對一個問題最有效的方法,可能對另一個問題不是很好。嘗試混合使用簡單和復(fù)雜的算法。比如,假如執(zhí)行分類模型,請嘗試像隨機森林一樣簡單和像神經(jīng)網(wǎng)絡(luò)一樣復(fù)雜的事情。有趣的是,極端梯度提升 (XGBoost) 通常遠遠優(yōu)于神經(jīng)網(wǎng)絡(luò)分類器。一個簡單的問題通常最好用一個簡單的模型來解決。

9.調(diào)整你的超參數(shù)

超參數(shù)是模型計算中使用的值。比如,決策樹的一個超參數(shù)是樹的深度,即在決定答案之前它會問多少個問題。模型的默認超參數(shù)是那些平均提供最佳性能的超參數(shù)。但是你的模型不太可能正好落在那個最佳位置。假如選擇不同的參數(shù),你的模型就可以表現(xiàn)得更好。調(diào)整超參數(shù)最常用的方法是網(wǎng)格搜索、隨機搜索和貝葉斯優(yōu)化搜索,當(dāng)然還有許多其他更高級的技術(shù)。

10.正確比較模型

機器學(xué)習(xí)的最終目標(biāo)是開發(fā)一個泛化良好的模型。這就是為什么正確比較和選擇最佳模型如此重要的原因。綜上所述,你需要使用與訓(xùn)練超參數(shù)進行評估時使用不同的保持集。另外,你還需要使用適當(dāng)?shù)慕y(tǒng)計測試來評估結(jié)果。

既然你已經(jīng)掌握了執(zhí)行AI項目的指導(dǎo)原則,請在你接下來的AI項目中嘗試一下。

猜你喜歡