亚洲精品久久久久久第一页-人妻少妇精彩视品一区二区三区-91国产自拍免费视频-免费一级a在线播放视频正片-少妇天天日天天射天天爽-国产大屁股喷水视频在线观看-操美女骚穴抽插性爱视频-亚洲 欧美 中文字幕 丝袜-成人免费无码片在线观看

python語法基礎知識 python實戰(zhàn)項目


python語法基礎知識 python實戰(zhàn)項目

文章插圖
前言「多元線性回歸模型」非常常見,是大多數(shù)人入門機器學習的第一個案例,盡管如此,里面還是有許多值得學習和注意的地方 。其中多元共線性這個問題將貫穿所有的機器學習模型,所以本文會「將原理知識穿插于代碼段中」,爭取以不一樣的視角來敘述和講解「如何更好的構建和優(yōu)化多元線性回歸模型」 。主要將分為兩個部分:
詳細原理Python 實戰(zhàn)Python 實戰(zhàn)Python 多元線性回歸的模型的實戰(zhàn)案例有非常多,這里雖然選用的經(jīng)典的房價預測,但貴在的流程簡潔完整,其中用到的精度優(yōu)化方法效果拔群,能提供比較好的參考價值 。
數(shù)據(jù)探索本文的數(shù)據(jù)集是經(jīng)過清洗的美國某地區(qū)的房價數(shù)據(jù)集
importpandasaspdimportnumpyasnpimportseabornassnsimportmatplotlib.pyplotaspltdf=pd.read_csv('house_prices.csv')df.info();df.head()參數(shù)說明:
neighborhood/area:所屬街區(qū)和面積bedrooms/bathrooms:臥室和浴室style:房屋樣式多元線性回歸建模現(xiàn)在我們直接構建多元線性回歸模型
fromstatsmodels.formula.apiimportols#小寫的ols函數(shù)才會自帶截距項,OLS則不會#固定格式:因變量~自變量(+號連接)lm=ols('price~area+bedrooms+bathrooms',data=https://www.520longzhigu.com/diannao/df).fit()lm.summary()紅框為我們關注的結果值,其中截距項Intercept的 P 值沒有意義,可以不用管它
模型優(yōu)化從上圖可以看到,模型的精度較低,因為還有類別變量neighborhood和style沒有完全利用 。這里我們先查看一下類別變量的類別分布情況:
#類別變量,又稱為名義變量,nominalvariablesnominal_vars=['neighborhood','style']foreachinnominal_vars:print(each,':')print(df[each].agg(['value_counts']).T)#Pandas騷操作#直接.value_counts().T無法實現(xiàn)下面的效果##必須得agg,而且里面的中括號[]也不能少print('='*35)虛擬變量的設置因為類別變量無法直接放入模型,這里需要轉(zhuǎn)換一下,而多元線性回歸模型中類別變量的轉(zhuǎn)換最常用的方法之一便是將其轉(zhuǎn)化成虛擬變量 。原理其實非常簡單,將無法直接用于建模的名義變量轉(zhuǎn)換成可放入模型的虛擬變量的核心就短短八個字:「四散拆開,非此即彼」 。下面用一個只有 4 行的微型數(shù)據(jù)集輔以說明 。
從上表中,不難發(fā)現(xiàn):
該名義變量有 n 類,就能拆分出 n 個虛擬變量巧妙的使用 0 和 1 來達到「用虛擬變量列代替原名義變量所在類別」接下來要做的就是將生成的虛擬變量們放入多元線性回歸模型,但要注意的是:「轉(zhuǎn)化后的虛擬變量們需要舍棄一個」,才能得到滿秩矩陣 。具體原因和有關線性代數(shù)的解釋可以查看筆者打包好的論文,我們可以理解為,當該名義變量可劃分為 n 類時,只需要 n-1 個虛擬變量就已足夠獲知所有信息了 。該丟棄哪個,可根據(jù)實際情況來決定 。
因此為原數(shù)據(jù)集的某名義變量添加虛擬變量的步驟為:
抽出希望轉(zhuǎn)換的名義變量(一個或多個)pandas的get_dummies函數(shù)與原數(shù)據(jù)集橫向拼接注意虛擬變量設置成功后,需要與原來的數(shù)據(jù)集拼接,這樣才能將其一起放進模型 。
再次建模后,發(fā)現(xiàn)模型精度大大提升,但潛在的多元共線性問題也隨之顯現(xiàn)出來
在解釋模型中虛擬變量的系數(shù)之前,我們先消除模型中多元共線性的影響,因為在排除共線性后,模型中的各個自變量的系數(shù)又會改變,最終的多元線性回歸模型的等式又會不一樣 。多重線性回歸模型的主要假設之一是我們的預測變量(自變量)彼此不相關 。我們希望預測變量(自變量)與反應變量(因變量)相關,而不是彼此之間具有相關性 。方差膨脹因子(Variance Inflation Factor,以下簡稱VIF),是「指解釋變量之間存在多重共線性時的方差與不存在多重共線性時的方差之比」


以上關于本文的內(nèi)容,僅作參考!溫馨提示:如遇健康、疾病相關的問題,請您及時就醫(yī)或請專業(yè)人士給予相關指導!

「愛刨根生活網(wǎng)」www.malaban59.cn小編還為您精選了以下內(nèi)容,希望對您有所幫助: