无人区一区二区精品,中文字幕无码乱码人妻系列蜜桃,欧美性猛交xxxx乱大交丰满

python的實(shí)驗(yàn)報(bào)告參考文獻(xiàn) python參考文獻(xiàn)有哪些

文章插圖
決策樹(shù)通常包括：
根節(jié)點(diǎn)-表示被進(jìn)一步劃分為同質(zhì)組的樣本或總體拆分-將節(jié)點(diǎn)分為兩個(gè)子節(jié)點(diǎn)的過(guò)程決策節(jié)點(diǎn)-當(dāng)一個(gè)子節(jié)點(diǎn)根據(jù)某個(gè)條件拆分為其他子節(jié)點(diǎn)時(shí)，稱(chēng)為決策節(jié)點(diǎn)葉節(jié)點(diǎn)或終端節(jié)點(diǎn)-不進(jìn)一步拆分的子節(jié)點(diǎn)信息增益-要使用一個(gè)條件(比如說(shuō)信息最豐富的特征)來(lái)分割節(jié)點(diǎn)，我們需要定義一個(gè)可以?xún)?yōu)化的目標(biāo)函數(shù) 。在決策樹(shù)算法中，我們傾向于在每次分割時(shí)最大化信息增益。在測(cè)量信息增益時(shí)，通常使用三種度量。它們是基尼不純度、熵和分類(lèi)誤差數(shù)學(xué)理解為了理解決策樹(shù)是如何發(fā)展的，我們需要更深入地了解在每一步中如何使用度量使信息增益最大化。
讓我們舉一個(gè)例子，其中我們有包含學(xué)生信息的訓(xùn)練數(shù)據(jù)，如性別、年級(jí)、因變量或分類(lèi)變量，這些變量可以識(shí)別學(xué)生是否是美食家。我們有以下概述的信息。
學(xué)生總數(shù)-20人被歸為美食家的學(xué)生總數(shù)-10不屬于美食家的學(xué)生總數(shù)-10P(美食家)，即學(xué)生成為美食家的概率=(10/20）=0.5Q(非美食家），學(xué)生不是美食家的概率=(10/20）=0.5讓我們根據(jù)學(xué)生的性別將他們分成兩個(gè)節(jié)點(diǎn)，并重新計(jì)算上述指標(biāo) 。
男學(xué)生(節(jié)點(diǎn)A）學(xué)生總數(shù)-10人被歸為美食家的學(xué)生總數(shù)-8不屬于美食家的學(xué)生總數(shù)-2P(美食家)，學(xué)生成為美食家的概率=(8/10）=0.8Q(非美食家），學(xué)生不是美食家的概率=(2/10）=0.2女生(節(jié)點(diǎn)B）學(xué)生總數(shù)-10人被歸為美食家的學(xué)生總數(shù)-4不屬于美食家的學(xué)生總數(shù)-6P(美食家)，學(xué)生成為美食家的概率=(4/10）=0.4Q(非美食家），學(xué)生不成為美食家的概率=(6/10）=0.6節(jié)點(diǎn)A的基尼指數(shù) (GIn)=P2+Q2，其中P和Q是學(xué)生成為美食家和非美食家的概率。GIn(節(jié)點(diǎn)A）=0.82+0.22=0.68
節(jié)點(diǎn)A的基尼不純度(GIp）=1-基尼指數(shù)=1–0.68=0.32
節(jié)點(diǎn)B或女生的基尼指數(shù)(GIn）=P2+Q2，其中P和Q是學(xué)生成為美食家和非美食家的概率。GIn(節(jié)點(diǎn)B）=0.42+0.62=0.52
節(jié)點(diǎn)B的基尼不純度(GIp）=1-基尼指數(shù)=1–0.52=0.48
我們觀察到的是，當(dāng)我們將學(xué)生按性別(男性和女性)分別劃分為A和B節(jié)點(diǎn)時(shí)，我們分別得到了兩個(gè)節(jié)點(diǎn)的基尼不純度。現(xiàn)在，為了確定性別是否是將學(xué)生分為美食家和非美食家的正確變量，我們需要一個(gè)加權(quán)基尼不純度分?jǐn)?shù)，該分?jǐn)?shù)使用以下公式計(jì)算。
加權(quán)基尼不純度=(A節(jié)點(diǎn)總樣本數(shù)/數(shù)據(jù)集中總樣本數(shù))基尼不純度(A節(jié)點(diǎn))+(B節(jié)點(diǎn)總樣本數(shù)/數(shù)據(jù)集中樣本數(shù))基尼不純度(B節(jié)點(diǎn))
用此公式計(jì)算上例的加權(quán)基尼不純度分?jǐn)?shù)，按性別劃分學(xué)生時(shí)加權(quán)基尼不純度分?jǐn)?shù)=(10/20)0.32 + (10/20)0.48 = 0.4
一個(gè)分類(lèi)問(wèn)題涉及多個(gè)自變量。變量可以是名義變量，也可以是連續(xù)變量。決策樹(shù)很適合處理不同數(shù)據(jù)類(lèi)型的變量。
決策樹(shù)算法在決定每個(gè)節(jié)點(diǎn)的拆分時(shí)考慮了所有可能的變量，可以獲得最大加權(quán)不純度增益的變量被用作特定節(jié)點(diǎn)的決策變量。
在上面的例子中，使用“性別”作為決策變量的加權(quán)不純度增益是0.4，但是，假設(shè)使用“年級(jí)”作為決策變量，加權(quán)不純度增益0.56，算法將使用“年級(jí)”作為創(chuàng)建第一個(gè)分割的決策變量。所有后續(xù)步驟都遵循類(lèi)似的方法，直到每個(gè)節(jié)點(diǎn)都是同構(gòu)的。
決策樹(shù)算法簡(jiǎn)介決策樹(shù)容易過(guò)度擬合，因?yàn)樗惴ɡ^續(xù)將節(jié)點(diǎn)分割為子節(jié)點(diǎn)，直到每個(gè)節(jié)點(diǎn)變得均勻與測(cè)試集相比，訓(xùn)練數(shù)據(jù)的精度要高得多，因此需要對(duì)決策樹(shù)進(jìn)行剪枝，以防止模型過(guò)度擬合。剪枝可以通過(guò)控制樹(shù)的深度、每個(gè)節(jié)點(diǎn)的最大/最小樣本數(shù)、要拆分的節(jié)點(diǎn)的最小不純度增益和最大葉節(jié)點(diǎn)來(lái)實(shí)現(xiàn)Python允許用戶(hù)使用基尼不純度或熵作為信息增益準(zhǔn)則來(lái)開(kāi)發(fā)決策樹(shù)可以使用網(wǎng)格搜索或隨機(jī)搜索CV對(duì)決策樹(shù)進(jìn)行微調(diào) 。CV代表交叉驗(yàn)證三種不同不純度標(biāo)準(zhǔn)的比較下面概述的代碼片段提供了不同不純度標(biāo)準(zhǔn)的直觀比較，以及它們?nèi)绾坞S不同的概率值而變化。注意下面的代碼改編自Deeper Insights into Machine Learning by S.Raschka, D.Julian, and J.Hearty, 2016 。

以上關(guān)于本文的內(nèi)容，僅作參考！溫馨提示：如遇健康、疾病相關(guān)的問(wèn)題，請(qǐng)您及時(shí)就醫(yī)或請(qǐng)專(zhuān)業(yè)人士給予相關(guān)指導(dǎo)!

「愛(ài)刨根生活網(wǎng)」www.malaban59.cn小編還為您精選了以下內(nèi)容，希望對(duì)您有所幫助：

python的實(shí)驗(yàn)報(bào)告參考文獻(xiàn) python參考文獻(xiàn)有哪些