亚洲精品久久久久久第一页-人妻少妇精彩视品一区二区三区-91国产自拍免费视频-免费一级a在线播放视频正片-少妇天天日天天射天天爽-国产大屁股喷水视频在线观看-操美女骚穴抽插性爱视频-亚洲 欧美 中文字幕 丝袜-成人免费无码片在线观看

今日頭條讓人上癮的數(shù)據(jù)挖掘( 二 )

“從資料中取出隱含的過去未知的有價值的潛在信息”;
“一門從大量資料或者資料庫中取有用信息的科學” 。
盡管通常資料探勘應(yīng)用于資料分析,但是像人工智能一樣,它也是一個具有豐富含義的詞匯,可用于不同的領(lǐng)域 。它與KDD(Knowledge discovery in databases)的關(guān)系是:KDD是從數(shù)據(jù)中辨別有效的、新穎的、潛在有用的、最終可理解的模式的過程;而數(shù)據(jù)挖掘是KDD通過特定的算法在可接受的計算效率限制內(nèi)生成特定模式的一個步驟 。事實上,在現(xiàn)今的文獻中,這兩個術(shù)語經(jīng)常不加區(qū)分的使用 。4. 本質(zhì)數(shù)據(jù)挖掘本質(zhì)上屬于機器學習的內(nèi)容 。例如:《數(shù)據(jù)挖掘:實用機器學習技術(shù)及Java實現(xiàn)》一書大部分是機器學習的內(nèi)容,這本書最初只叫做“實用機器學習”,“數(shù)據(jù)挖掘”一詞是后來為了營銷才加入的 。通常情況下,使用更為正式的術(shù)語,(大規(guī)模)數(shù)據(jù)分析和分析學,或者指出實際的研究方法(例如人工智能和機器學習)會更準確一些 。5. 過程數(shù)據(jù)挖掘的實際工作是對大規(guī)模數(shù)據(jù)進行自動或半自動的分析,以取過去未知的有價值的潛在信息 。例如:數(shù)據(jù)的分組(通過聚類分析)、數(shù)據(jù)的異常記錄(通過異常檢測)和數(shù)據(jù)之間的關(guān)系(通過關(guān)聯(lián)式規(guī)則挖掘) 。這通常涉及到數(shù)據(jù)庫技術(shù),例如空間索引(英語:spatial index) 。這些潛在信息可通過對輸入數(shù)據(jù)處理之后的總結(jié)來呈現(xiàn),之后可以用于進一步分析,比如機器學習和預(yù)測分析 。舉個例子:進行數(shù)據(jù)挖掘操作時可能要把數(shù)據(jù)分成多組,然后可以使用決策支持系統(tǒng)以獲得更加精確的預(yù)測結(jié)果 。不過數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、結(jié)果解釋和撰寫報告都不算數(shù)據(jù)挖掘的步驟,但它們確實屬于“資料庫知識發(fā)現(xiàn)”(KDD)過程,只不過是一些額外的環(huán)節(jié) 。數(shù)據(jù)庫知識發(fā)現(xiàn)(KDD)過程通常定義為以下階段:
  1. 選擇
  2. 預(yù)處理
  3. 變換
  4. 數(shù)據(jù)挖掘
  5. 解釋/評估
1)預(yù)處理在運用數(shù)據(jù)挖掘算法之前,必須收集目標數(shù)據(jù)集 。由于數(shù)據(jù)挖掘只能發(fā)現(xiàn)實際存在于數(shù)據(jù)中的模式,目標數(shù)據(jù)集必須大到足以包含這些模式,而其余的足夠簡潔以在一個可接受的時間范圍內(nèi)挖掘,常見的數(shù)據(jù)源如資料超市或資料倉儲 。在數(shù)據(jù)挖掘之前,有必要預(yù)處理來分析多變量數(shù)據(jù),然后要清理目標集,數(shù)據(jù)清理移除包含噪聲和含有缺失數(shù)據(jù)的觀測量 。2)數(shù)據(jù)挖掘數(shù)據(jù)挖掘涉及六類常見的任務(wù):


以上關(guān)于本文的內(nèi)容,僅作參考!溫馨提示:如遇健康、疾病相關(guān)的問題,請您及時就醫(yī)或請專業(yè)人士給予相關(guān)指導(dǎo)!

「愛刨根生活網(wǎng)」www.malaban59.cn小編還為您精選了以下內(nèi)容,希望對您有所幫助: