亚洲精品久久久久久第一页-人妻少妇精彩视品一区二区三区-91国产自拍免费视频-免费一级a在线播放视频正片-少妇天天日天天射天天爽-国产大屁股喷水视频在线观看-操美女骚穴抽插性爱视频-亚洲 欧美 中文字幕 丝袜-成人免费无码片在线观看

python的實(shí)驗(yàn)報(bào)告參考文獻(xiàn) python參考文獻(xiàn)有哪些


python的實(shí)驗(yàn)報(bào)告參考文獻(xiàn) python參考文獻(xiàn)有哪些

文章插圖
決策樹(shù)通常包括:
根節(jié)點(diǎn)-表示被進(jìn)一步劃分為同質(zhì)組的樣本或總體拆分-將節(jié)點(diǎn)分為兩個(gè)子節(jié)點(diǎn)的過(guò)程決策節(jié)點(diǎn)-當(dāng)一個(gè)子節(jié)點(diǎn)根據(jù)某個(gè)條件拆分為其他子節(jié)點(diǎn)時(shí),稱(chēng)為決策節(jié)點(diǎn)葉節(jié)點(diǎn)或終端節(jié)點(diǎn)-不進(jìn)一步拆分的子節(jié)點(diǎn)信息增益-要使用一個(gè)條件(比如說(shuō)信息最豐富的特征)來(lái)分割節(jié)點(diǎn),我們需要定義一個(gè)可以?xún)?yōu)化的目標(biāo)函數(shù) 。在決策樹(shù)算法中,我們傾向于在每次分割時(shí)最大化信息增益 。在測(cè)量信息增益時(shí),通常使用三種度量 。它們是基尼不純度、熵和分類(lèi)誤差數(shù)學(xué)理解為了理解決策樹(shù)是如何發(fā)展的,我們需要更深入地了解在每一步中如何使用度量使信息增益最大化 。
讓我們舉一個(gè)例子,其中我們有包含學(xué)生信息的訓(xùn)練數(shù)據(jù),如性別、年級(jí)、因變量或分類(lèi)變量,這些變量可以識(shí)別學(xué)生是否是美食家 。我們有以下概述的信息 。
學(xué)生總數(shù)-20人被歸為美食家的學(xué)生總數(shù)-10不屬于美食家的學(xué)生總數(shù)-10P(美食家),即學(xué)生成為美食家的概率=(10/20)=0.5Q(非美食家),學(xué)生不是美食家的概率=(10/20)=0.5讓我們根據(jù)學(xué)生的性別將他們分成兩個(gè)節(jié)點(diǎn),并重新計(jì)算上述指標(biāo) 。
男學(xué)生(節(jié)點(diǎn)A)學(xué)生總數(shù)-10人被歸為美食家的學(xué)生總數(shù)-8不屬于美食家的學(xué)生總數(shù)-2P(美食家),學(xué)生成為美食家的概率=(8/10)=0.8Q(非美食家),學(xué)生不是美食家的概率=(2/10)=0.2女生(節(jié)點(diǎn)B)學(xué)生總數(shù)-10人被歸為美食家的學(xué)生總數(shù)-4不屬于美食家的學(xué)生總數(shù)-6P(美食家),學(xué)生成為美食家的概率=(4/10)=0.4Q(非美食家),學(xué)生不成為美食家的概率=(6/10)=0.6節(jié)點(diǎn)A的基尼指數(shù) (GIn)=P2+Q2,其中P和Q是學(xué)生成為美食家和非美食家的概率 。GIn(節(jié)點(diǎn)A)=0.82+0.22=0.68
節(jié)點(diǎn)A的基尼不純度(GIp)=1-基尼指數(shù)=1–0.68=0.32
節(jié)點(diǎn)B或女生的基尼指數(shù)(GIn)=P2+Q2,其中P和Q是學(xué)生成為美食家和非美食家的概率 。GIn(節(jié)點(diǎn)B)=0.42+0.62=0.52
節(jié)點(diǎn)B的基尼不純度(GIp)=1-基尼指數(shù)=1–0.52=0.48
我們觀察到的是,當(dāng)我們將學(xué)生按性別(男性和女性)分別劃分為A和B節(jié)點(diǎn)時(shí),我們分別得到了兩個(gè)節(jié)點(diǎn)的基尼不純度 。現(xiàn)在,為了確定性別是否是將學(xué)生分為美食家和非美食家的正確變量,我們需要一個(gè)加權(quán)基尼不純度分?jǐn)?shù),該分?jǐn)?shù)使用以下公式計(jì)算 。
加權(quán)基尼不純度=(A節(jié)點(diǎn)總樣本數(shù)/數(shù)據(jù)集中總樣本數(shù))基尼不純度(A節(jié)點(diǎn))+(B節(jié)點(diǎn)總樣本數(shù)/數(shù)據(jù)集中樣本數(shù))基尼不純度(B節(jié)點(diǎn))
用此公式計(jì)算上例的加權(quán)基尼不純度分?jǐn)?shù),按性別劃分學(xué)生時(shí)加權(quán)基尼不純度分?jǐn)?shù)=(10/20)0.32 + (10/20)0.48 = 0.4
一個(gè)分類(lèi)問(wèn)題涉及多個(gè)自變量 。變量可以是名義變量,也可以是連續(xù)變量 。決策樹(shù)很適合處理不同數(shù)據(jù)類(lèi)型的變量 。
決策樹(shù)算法在決定每個(gè)節(jié)點(diǎn)的拆分時(shí)考慮了所有可能的變量,可以獲得最大加權(quán)不純度增益的變量被用作特定節(jié)點(diǎn)的決策變量 。
在上面的例子中,使用“性別”作為決策變量的加權(quán)不純度增益是0.4,但是,假設(shè)使用“年級(jí)”作為決策變量,加權(quán)不純度增益0.56,算法將使用“年級(jí)”作為創(chuàng)建第一個(gè)分割的決策變量 。所有后續(xù)步驟都遵循類(lèi)似的方法,直到每個(gè)節(jié)點(diǎn)都是同構(gòu)的 。
決策樹(shù)算法簡(jiǎn)介決策樹(shù)容易過(guò)度擬合,因?yàn)樗惴ɡ^續(xù)將節(jié)點(diǎn)分割為子節(jié)點(diǎn),直到每個(gè)節(jié)點(diǎn)變得均勻與測(cè)試集相比,訓(xùn)練數(shù)據(jù)的精度要高得多,因此需要對(duì)決策樹(shù)進(jìn)行剪枝,以防止模型過(guò)度擬合 。剪枝可以通過(guò)控制樹(shù)的深度、每個(gè)節(jié)點(diǎn)的最大/最小樣本數(shù)、要拆分的節(jié)點(diǎn)的最小不純度增益和最大葉節(jié)點(diǎn)來(lái)實(shí)現(xiàn)Python允許用戶(hù)使用基尼不純度或熵作為信息增益準(zhǔn)則來(lái)開(kāi)發(fā)決策樹(shù)可以使用網(wǎng)格搜索或隨機(jī)搜索CV對(duì)決策樹(shù)進(jìn)行微調(diào) 。CV代表交叉驗(yàn)證三種不同不純度標(biāo)準(zhǔn)的比較下面概述的代碼片段提供了不同不純度標(biāo)準(zhǔn)的直觀比較,以及它們?nèi)绾坞S不同的概率值而變化 。注意下面的代碼改編自Deeper Insights into Machine Learning by S.Raschka, D.Julian, and J.Hearty, 2016 。


以上關(guān)于本文的內(nèi)容,僅作參考!溫馨提示:如遇健康、疾病相關(guān)的問(wèn)題,請(qǐng)您及時(shí)就醫(yī)或請(qǐng)專(zhuān)業(yè)人士給予相關(guān)指導(dǎo)!

「愛(ài)刨根生活網(wǎng)」www.malaban59.cn小編還為您精選了以下內(nèi)容,希望對(duì)您有所幫助: