国产熟女一区二区五月婷-又爽又黄又无遮挡网站-亚洲国产精品视频在线播放-国内偷拍国内精品网999

當(dāng)前位置:首頁(yè) > 最新資訊 > 行業(yè)資訊

數(shù)據(jù)科學(xué)的10個(gè)重要概念和22張圖表含義

01 偏差-方差權(quán)衡

這是一個(gè)總是在機(jī)器學(xué)習(xí)最重要理論中名列前茅的概念。機(jī)器學(xué)習(xí)中的近乎所有算法(包括深度學(xué)習(xí))都努力在偏差和方差之間取得適當(dāng)?shù)钠胶猓@個(gè)圖清楚地解釋了二者的對(duì)立關(guān)系。

02 基尼不純度與熵

Gini(缺乏同質(zhì)性的度量)和 Entropy(隨機(jī)性的度量)都是決策樹(shù)中節(jié)點(diǎn)不純度的度量。

對(duì)于這兩個(gè)概念更重要的是要了解它們之間的關(guān)系,以便能夠在給定的場(chǎng)景中選擇正確的指標(biāo)。

基尼不純度(系數(shù))通常比熵更容易計(jì)算(因?yàn)殪厣婕皩?duì)數(shù)計(jì)算)。

03 精度與召回曲線

精度-召回曲線顯示了不同閾值的精度和召回率之間的權(quán)衡。曲線下面積大代表高召回率和高精度,其中高精度與低誤報(bào)率相關(guān),高召回率與低誤報(bào)率相關(guān)。

它可以幫助我們根據(jù)需要選擇正確的閾值。比如,假如我們的目標(biāo)是減少類(lèi)型 1 錯(cuò)誤,我們需要選擇高精度,而假如我們的目標(biāo)是最小化類(lèi)型 2 錯(cuò)誤,那么我們應(yīng)該選擇一個(gè)閾值,使得召回率很高。

  • 精度分母是一個(gè)變量:即假陽(yáng)性(歸類(lèi)為陽(yáng)性的負(fù)樣本)每次都會(huì)變化。
  • 召回分母是一個(gè)常數(shù):它代表真值的總數(shù),因此將始終保持不變。

這就是為什么下圖 Precision 在結(jié)束時(shí)有一個(gè)波動(dòng),而召回始終保持平穩(wěn)的原因。

04 ROC曲線

ROC 曲線是顯示分類(lèi)模型在所有分類(lèi)閾值下的性能的圖表。

這條曲線繪制了兩個(gè)參數(shù):

真陽(yáng)性率

誤報(bào)率

此曲線下的面積(稱(chēng)為 AUC),也可用作性能指標(biāo)。AUC 越高,模型越好。

05 彎頭曲線

用于K-means算法中最優(yōu)簇?cái)?shù)的選擇。WCSS(簇內(nèi)平方和)是給定簇中每個(gè)點(diǎn)與質(zhì)心之間的平方距離之和。當(dāng)我們用 K(簇?cái)?shù))值繪制 WCSS 時(shí),該圖看起來(lái)像一個(gè)肘部(彎頭)。

伴隨聚類(lèi)數(shù)量的增加,WCSS 值將開(kāi)始下降。K = 1時(shí)WCSS值最大

06三塊地塊

它幫助我們?cè)趯?duì)高維數(shù)據(jù)執(zhí)行主成分分析后,可視化每個(gè)主成分解釋的變異百分比。為了選擇正確數(shù)量的主成分來(lái)考慮我們的模型,我們通常會(huì)繪制此圖并選擇能夠?yàn)槲覀兲峁┳銐蚝玫目傮w方差百分比的值。

07線性和邏輯回歸曲線

對(duì)于線性可分?jǐn)?shù)據(jù),我們可以進(jìn)行線性回歸或邏輯回歸,二者都可以作為決策邊界曲線/線。不過(guò),在邏輯回歸的情況下,由于通常只有 2 個(gè)類(lèi)別,因此具有線性直線決策邊界可能不起作用,在一條直線上值從低到高非常均勻地上升,因?yàn)樗粔蚨盖驮谥低蝗簧仙髸?huì)得到許多臨界的高值或者低值,最終會(huì)錯(cuò)誤分類(lèi)。因此,"邊界"區(qū)域,即概率從高到低轉(zhuǎn)變的區(qū)域并不真正存在。所以一般情況下會(huì)應(yīng)用 sigmoid 變換將其轉(zhuǎn)換為 sigmoid 曲線,該曲線在極端情況下是平滑的,在中間近乎是線性的。

08支持向量機(jī)(幾何理解)

09標(biāo)準(zhǔn)正態(tài)分布規(guī)則(z-分布)

均值為0,標(biāo)準(zhǔn)差為1的特殊正態(tài)分布。

經(jīng)驗(yàn)法則指出,按照正態(tài)分布觀察到的數(shù)據(jù)中有 99.7% 位于平均值的 3 個(gè)標(biāo)準(zhǔn)差以?xún)?nèi)。根據(jù)該規(guī)則,68% 的數(shù)據(jù)在一個(gè)標(biāo)準(zhǔn)差內(nèi),95% 在兩個(gè)標(biāo)準(zhǔn)差內(nèi),99.7% 在三個(gè)標(biāo)準(zhǔn)差內(nèi)。10學(xué)生T分布T 分布(也稱(chēng)為學(xué)生 T 分布)是一系列分布,看起來(lái)近乎與正態(tài)分布曲線相同,只是更短和更寬/更胖。當(dāng)我們有較小的樣本時(shí),我們使用 T分布而不是正態(tài)分布。樣本量越大,t 分布越像正態(tài)分布。實(shí)際上,在 30 個(gè)樣本之后,T 分布近乎與正態(tài)分布完全一樣。

總結(jié)

我們可能會(huì)遇到很多小而關(guān)鍵的概念,這些概念構(gòu)成了我們做出決定或選擇正確模型的基礎(chǔ)。本文中提到的重要概念都可以通過(guò)相關(guān)的圖表進(jìn)行表示,這些概念是非常重要的,需要我們?cè)诳吹狡涞谝谎蹠r(shí)就知道他的含義,假如你已經(jīng)對(duì)上面的概念都掌握了,那么可以試試說(shuō)明下圖代表了什么:

猜你喜歡