亚洲精品久久久久久第一页-人妻少妇精彩视品一区二区三区-91国产自拍免费视频-免费一级a在线播放视频正片-少妇天天日天天射天天爽-国产大屁股喷水视频在线观看-操美女骚穴抽插性爱视频-亚洲 欧美 中文字幕 丝袜-成人免费无码片在线观看

今日頭條讓人上癮的數(shù)據(jù)挖掘( 三 )

  1. 異常檢測(異常/變化/偏差檢測):識(shí)別不尋常的數(shù)據(jù)記錄,錯(cuò)誤數(shù)據(jù)需要進(jìn)一步調(diào)查;
  2. 關(guān)聯(lián)規(guī)則學(xué)習(xí)(依賴建模):搜索變量之間的關(guān)系 。例如:一個(gè)超市可能會(huì)收集顧客購買習(xí)慣的數(shù)據(jù),運(yùn)用關(guān)聯(lián)規(guī)則學(xué)習(xí),超市可以確定哪些產(chǎn)品經(jīng)常一起買,并利用這些信息幫助營銷——這有時(shí)被稱為市場購物籃分析;
  3. 聚類:是在未知數(shù)據(jù)的結(jié)構(gòu)下,發(fā)現(xiàn)數(shù)據(jù)的類別與結(jié)構(gòu);
  4. 分類 :是對(duì)新的數(shù)據(jù)推廣已知的結(jié)構(gòu)的任務(wù) 。例如:一個(gè)電子郵件程序可能試圖將一個(gè)電子郵件分類為“合法的”或“垃圾郵件”;
  5. 回歸:試圖找到能夠以最小誤差對(duì)該數(shù)據(jù)建模的函數(shù);
  6. 匯總(Automatic summarization):供了一個(gè)更緊湊的數(shù)據(jù)集表示,包括生成可視化和報(bào)表 。
3)結(jié)果驗(yàn)證數(shù)據(jù)挖掘的價(jià)值一般帶著一定的目的,而這目的是否得到實(shí)現(xiàn)一般可以通過結(jié)果驗(yàn)證來實(shí)現(xiàn) 。驗(yàn)證是指“通過供客觀證據(jù)對(duì)規(guī)定要求已得到滿足的認(rèn)定”,而這個(gè)“認(rèn)定”活動(dòng)的策劃、實(shí)施和完成,與“規(guī)定要求”的內(nèi)容緊密相關(guān) 。數(shù)據(jù)挖掘過程中的數(shù)據(jù)驗(yàn)證的“規(guī)定要求”的設(shè)定,往往與數(shù)據(jù)挖掘要達(dá)到的基本目標(biāo)、過程目標(biāo)和最終目標(biāo)有關(guān) 。驗(yàn)證的結(jié)果可能是“規(guī)定要求”得到完全滿足或者完全沒有得到滿足,以及其他介于兩者之間的滿足程度的狀況 。驗(yàn)證可以由數(shù)據(jù)挖掘的人自己完成,也可以通過其他人參與或完全通過他人的項(xiàng)目,以與數(shù)據(jù)挖掘者毫無關(guān)聯(lián)的方式進(jìn)行驗(yàn)證 。一般驗(yàn)證過程中,數(shù)據(jù)挖掘者是不可能不參與的,但對(duì)于認(rèn)定過程中的客觀證據(jù)的收集、認(rèn)定的評(píng)估等過程如果通過與驗(yàn)證出者無關(guān)的人來實(shí)現(xiàn),往往更具有客觀性 。通過結(jié)果驗(yàn)證,數(shù)據(jù)挖掘者可以得到對(duì)自己所挖掘的數(shù)據(jù)價(jià)值高低的評(píng)估 。數(shù)據(jù)挖掘的方法包括監(jiān)督式學(xué)習(xí)、非監(jiān)督式學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、增強(qiáng)學(xué)習(xí) 。監(jiān)督式學(xué)習(xí)包括:分類、估計(jì)、預(yù)測 。非監(jiān)督式學(xué)習(xí)包括:聚類,關(guān)聯(lián)規(guī)則分析 。6. 例子數(shù)據(jù)挖掘在零售行業(yè)中的應(yīng)用:零售公司跟蹤客戶的購買情況,發(fā)現(xiàn)某個(gè)客戶購買了大量的真絲襯衣,這時(shí)資料探勘系統(tǒng)就在此客戶和真絲襯衣之間建立關(guān)聯(lián) 。銷售部門就會(huì)看到此信息,直接發(fā)送真絲襯衣的當(dāng)前行情,以及所有關(guān)于真絲襯衫的資料發(fā)給該客戶 。這樣零售商店通過資料探勘系統(tǒng)就發(fā)現(xiàn)了以前未知的關(guān)于客戶的新信息,并且擴(kuò)大經(jīng)營范圍 。7. 數(shù)據(jù)捕撈通常作為與資料倉庫和分析相關(guān)的技術(shù),資料探勘處于它們的中間 。然而有時(shí)還會(huì)出現(xiàn)十分可笑的應(yīng)用,例如發(fā)掘出不存在但看起來振奮人心的模式(特別的因果關(guān)系),這些根本不相關(guān)的、甚至引人誤入歧途的、或是毫無價(jià)值的關(guān)聯(lián),在統(tǒng)計(jì)學(xué)文獻(xiàn)里通常被戲稱為“資料挖泥”(Data dredging, data fishing, or data snooping) 。資料探勘意味著掃瞄可能存在任何關(guān)系的資料,然后篩選出符合的模式,(也叫“過度匹配模式”) 。大量的數(shù)據(jù)集中總會(huì)有碰巧或特定的資料,有著“令人振奮的關(guān)系” 。因此,一些結(jié)論看上去十分令人懷疑 。盡管如此,一些探索性資料分析 還是需要應(yīng)用統(tǒng)計(jì)分析尋找資料,所以好的統(tǒng)計(jì)方法和數(shù)據(jù)資料的界限并不是很清晰 。危險(xiǎn)是出現(xiàn)根本不存在的關(guān)聯(lián)性,投資分析家似乎最容易犯這種錯(cuò)誤 。在一本叫做《顧客的游艇在哪里?》的書中寫道:


以上關(guān)于本文的內(nèi)容,僅作參考!溫馨提示:如遇健康、疾病相關(guān)的問題,請(qǐng)您及時(shí)就醫(yī)或請(qǐng)專業(yè)人士給予相關(guān)指導(dǎo)!

「愛刨根生活網(wǎng)」www.malaban59.cn小編還為您精選了以下內(nèi)容,希望對(duì)您有所幫助: