
文章插圖
AI大數(shù)據(jù)產(chǎn)品經(jīng)理至少要會以下三個方面的技能 。
第一、懂?dāng)?shù)據(jù)
懂?dāng)?shù)據(jù)首先是懂
1)數(shù)據(jù)工程的內(nèi)容
例如:采集、存儲、清洗、分析、可視化 。
其次是懂
2)數(shù)據(jù)庫的基本概念
數(shù)據(jù)庫和數(shù)據(jù)表,CURD操作:Create、Update、Read、Delete,關(guān)系型數(shù)據(jù)庫,非關(guān)系型數(shù)據(jù)庫等 。
3)數(shù)據(jù)的結(jié)構(gòu)
例如:地鐵數(shù)據(jù),靜態(tài)數(shù)據(jù):線路、站點(不一定有時間戳,更新慢),動態(tài)數(shù)據(jù):刷卡記錄(必有時間戳,不斷產(chǎn)生),數(shù)據(jù)存放有一定的規(guī)則 。
4)數(shù)據(jù)的類型格式
TXT:純文本
CSV:逗號分隔值
JSON:鍵值對
SQL:數(shù)據(jù)庫文件等
第二、懂AI機器學(xué)習(xí)領(lǐng)域
AI的得以突破發(fā)展一方面是因為數(shù)據(jù)量的爆發(fā)式增長,另外一方面得益于機器學(xué)習(xí),尤其是深度學(xué)習(xí)算法的發(fā)展 。
1)什么是機器學(xué)習(xí)
研究如何通過計算的手段,利用經(jīng)驗來改善系統(tǒng)自身的性能,通俗來講,讓代碼學(xué)著干活即為機器學(xué)習(xí),而深度學(xué)習(xí)是機器學(xué)習(xí)的特例 。
2)機器學(xué)習(xí)的種類
有監(jiān)督學(xué)習(xí):提供標(biāo)簽,分類、回歸
無監(jiān)督學(xué)習(xí):無標(biāo)簽,聚類
增強學(xué)習(xí):也稱強化學(xué)習(xí),馬爾科夫決策過程(Markov Decision Processes,MDP)
主動學(xué)習(xí):邊學(xué)習(xí)邊標(biāo)注
遷移學(xué)習(xí):從一個域(Domain)遷移(Transfer)到另一個域
集成學(xué)習(xí):Ensemble,三個臭皮匠賽個諸葛亮,Boosting和Bagging
3)機器學(xué)習(xí)兩大痛點
維度災(zāi)難:數(shù)據(jù)量和特征數(shù)
過擬合:模型泛化能力
4)機器學(xué)習(xí)的流程
預(yù)處理:數(shù)據(jù)重塑、缺失值處理(補全、統(tǒng)計為缺失特征)
特征工程:特征沒做好,參數(shù)調(diào)到老 。在已有的特征上生成新的特征,數(shù)值、類別
特征選擇、降維:基于MIC、Pearson相關(guān)系數(shù)、正則化方法、模型,PCA、tSNE
訓(xùn)練模型、調(diào)參:單模型,多模型融合,集成
評估模型:正確率(Acurracy)、準(zhǔn)確值(Pecision)、召回值(Recall)、F值、AUC
懂以上機器學(xué)習(xí)的相關(guān)內(nèi)容視為入門了AI大數(shù)據(jù)產(chǎn)品經(jīng)理 。
第三、懂?dāng)?shù)據(jù)且能進行AI產(chǎn)品化應(yīng)用以構(gòu)建機器學(xué)習(xí)用戶畫像產(chǎn)品為例
什么叫懂?dāng)?shù)據(jù)處理且能夠進行AI產(chǎn)品化應(yīng)用呢,下面筆者LineLian一構(gòu)建用戶畫像實現(xiàn)大數(shù)據(jù)機器學(xué)習(xí)推薦為例來講綜合運用數(shù)據(jù)、算法和算力的步驟 。
(第一步):建模
1)獲取原始數(shù)據(jù) 。例如用到的數(shù)據(jù)有用戶訪問系統(tǒng)的行為日志和用戶的基本屬性,通過采集日志數(shù)據(jù),得到用戶的行為信息;
2)對數(shù)據(jù)進行預(yù)處理,挖掘出事實標(biāo)簽 。對用戶數(shù)據(jù)進行過濾、清洗、簡化表示,從用戶的基本屬性信息可以得到用戶的編號、等級、名稱、第一次登錄時間等,這些信息屬于事實標(biāo)簽;
3)分析用戶行為信息,構(gòu)建用戶畫像的模型標(biāo)簽 。通過對用戶的行為進行分析,得到用戶訪問頁面和操作的規(guī)律,構(gòu)建出用戶的行為模型;
4)通過模型標(biāo)簽進行預(yù)測,完善用戶畫像 。根據(jù)用戶的行為模型可以預(yù)測出用戶的操作行為 。
(第二步):多維度刻畫用戶畫像
1):自然屬性,比如:用戶注冊時填寫的姓名、性別、年齡、郵箱、電話、職業(yè)等 。不同屬性用戶感興趣的點不同,標(biāo)簽一般比較穩(wěn)定 。
2):興趣屬性,行為偏好信息,不同時間偏好不同,隨時而變!偏好標(biāo)簽挖掘算法有TF-IDF和BM25算法等
3):地理信息,移動軌跡信息,不同區(qū)域用戶訪問不同服務(wù)器
以上關(guān)于本文的內(nèi)容,僅作參考!溫馨提示:如遇健康、疾病相關(guān)的問題,請您及時就醫(yī)或請專業(yè)人士給予相關(guān)指導(dǎo)!
「愛刨根生活網(wǎng)」www.malaban59.cn小編還為您精選了以下內(nèi)容,希望對您有所幫助:- 適合30歲改行的5個職業(yè) 設(shè)計師轉(zhuǎn)行做什么工作比較好
- 數(shù)據(jù)分析中最好用的估算法 費米估算法的原理是什么
- 正裝搭配鞋子的技巧 面試正裝女生怎么穿
- 分享成功面試的十大技巧 面試的問題有哪些問題及答案
- 解讀商業(yè)模式核心要素 商業(yè)模式的核心是什么
- 兩個獅子跳鋼管舞是什么車 兩個獅子跳鋼管舞的是什么車
- 防風(fēng)打火機溫度有多高 打火機溫度有多高
- 互聯(lián)網(wǎng)常識:詳細(xì)了解Redis中的事務(wù)
- 怎么查自己卡的開戶行 怎么查自己卡的開戶行
- 求推薦一款3000元以內(nèi)的數(shù)碼相機主要是風(fēng)景和夜景為主! 求推薦一款3000元以內(nèi)的數(shù)碼相機主要是風(fēng)景和夜景為主!
