經(jīng)常有剛從事數(shù)據(jù)分析的職場(chǎng)萌新,問(wèn)我做數(shù)據(jù)分析工作要學(xué)些什么,應(yīng)該怎樣規(guī)劃學(xué)習(xí)路徑 。我會(huì)告訴他:如果你Excel還用的不溜的話,就先學(xué)學(xué)Excel,當(dāng)你用Excel處理和分析一些小數(shù)據(jù)集沒(méi)有問(wèn)題的時(shí)候(具體表現(xiàn)就是:常用函數(shù)公式信手拈來(lái),數(shù)據(jù)透視表,篩選,排序,圖表繪制操作熟練),你就去學(xué)習(xí)SQL語(yǔ)言,然后用BI去分析去熟悉業(yè)務(wù) 。然后到了一定階段,你可以上手R或者Python 。后面如果你能更進(jìn)一步,可以去了解一些Spark等大數(shù)據(jù)框架 。
為什么要學(xué)習(xí)Excel?
首先Excel是我們最常用的數(shù)據(jù)分析和處理工具,Excel的功能非常豐富,基本可以涵蓋我們?cè)谥笤谄渌浖?SQL、BI、Python、R)中要學(xué)到的那些功能 。
有的人可能會(huì)問(wèn),既然Excel這么強(qiáng)大,為什么還要學(xué)其它的工具?這是因?yàn)镋xcel是通過(guò)菜單的形式來(lái)進(jìn)行操作的,很難實(shí)現(xiàn)自動(dòng)化和功能復(fù)用,當(dāng)然你也可以通過(guò)VBA來(lái)實(shí)現(xiàn),用VBA也就是編程了,不過(guò)因?yàn)閂BA這種語(yǔ)言學(xué)會(huì)了基本只能在office軟件中使用,學(xué)習(xí)的投入成本和產(chǎn)出收益不成比例,不推薦學(xué)習(xí),這是客觀原因之一;另外就是Excel在處理比較大的數(shù)據(jù)集的時(shí)候,性能很差,并且經(jīng)常崩潰 。(雖然Excel2013及以上版本宣稱可以容納100+萬(wàn)條記錄,但幾萬(wàn)條數(shù)據(jù)就開始卡頓了) 。
為什么Excel學(xué)完要學(xué)SQL?
客觀原因是絕大部分?jǐn)?shù)據(jù)分析崗都有SQL技能的要求 。企業(yè)里面為了保證數(shù)據(jù)的安全性和管理的方便,數(shù)據(jù)都是統(tǒng)一存放在數(shù)據(jù)庫(kù)中,從數(shù)據(jù)庫(kù)中提取和查詢數(shù)據(jù)需要使用SQL語(yǔ)言,甚至有的公司就是用SQL語(yǔ)言來(lái)做數(shù)據(jù)分析 。
另外一個(gè)原因就是即使你先學(xué)了其它的工具,比如R,Python,甚至Spark等大數(shù)據(jù)框架,你會(huì)發(fā)現(xiàn)最后你還是得學(xué)習(xí)SQL 。如果你先學(xué)習(xí)SQL,那么很多概念你都能在學(xué)習(xí)R,Python,Spark等更加復(fù)雜的工具之前弄清楚 。對(duì)于后面的學(xué)習(xí)會(huì)有幫助 。這就好比建房子,都是先打地基,然后一層一層的蓋 。
SQL語(yǔ)言的學(xué)習(xí)排在Excel之后,其它工具之前,還有一個(gè)很重要的原因就是,SQL可以在一定程度上幫Excel解決大數(shù)據(jù)集的問(wèn)題,同時(shí)架起一個(gè)通往其它工具的橋梁 。
關(guān)于數(shù)據(jù)庫(kù)和SQL的學(xué)習(xí),也是分為兩篇,第一篇講數(shù)據(jù)庫(kù)以及表的概念 。第二篇是SQL語(yǔ)句的掌握和數(shù)據(jù)庫(kù)的操作 。
一、數(shù)據(jù)庫(kù)基礎(chǔ)知識(shí) 先談一下我對(duì)數(shù)據(jù)庫(kù)的理解 。數(shù)據(jù)庫(kù)顧名思義就是數(shù)據(jù)的集合,是由一張張數(shù)據(jù)表組成的 。
放在物理實(shí)體上,是一堆寫在磁盤上的文件,文件中有數(shù)據(jù) 。這些最基礎(chǔ)的數(shù)據(jù)組成了表(table),我們把它想象成一張Excel的sheet,如下圖:

文章插圖
每一張表都有一個(gè)唯一標(biāo)識(shí),即主鍵,也就是ID 。ID是數(shù)據(jù)庫(kù)中重要的概念,叫做唯一標(biāo)識(shí)符/主鍵,用來(lái)表示數(shù)據(jù)的唯一性 。就相當(dāng)于我們的身份證,是唯一的,有了身份證,就知道數(shù)據(jù)在哪了 。
ID通常沒(méi)有業(yè)務(wù)含義,就是一種唯一標(biāo)識(shí),每張表只能有一個(gè)主鍵,且主鍵通常是整數(shù),主鍵一旦設(shè)立,值通常不允許修改 。
數(shù)據(jù)庫(kù)是表的集合 。一個(gè)數(shù)據(jù)庫(kù)中可以放多張表,我們給每張表命名,表與表之間能互相聯(lián)系 。聯(lián)系就是數(shù)據(jù)能夠?qū)?yīng)匹配,正式名稱叫聯(lián)接,對(duì)應(yīng)的操作叫做Join,我們想象成Excel中的vlookup 。

文章插圖
比如上面兩張圖,左圖是學(xué)生信息表,右圖是老師信息表 。左圖的主鍵是學(xué)生ID,右圖的主鍵是老師ID 。細(xì)心的讀者可能發(fā)現(xiàn)右圖還有一個(gè)學(xué)生ID,這里的學(xué)生ID是專門用來(lái)聯(lián)接用戶表的,它并不是主鍵 。只不過(guò)兩張表通過(guò)學(xué)生ID這個(gè)唯一信息來(lái)關(guān)聯(lián) 。
以上關(guān)于本文的內(nèi)容,僅作參考!溫馨提示:如遇健康、疾病相關(guān)的問(wèn)題,請(qǐng)您及時(shí)就醫(yī)或請(qǐng)專業(yè)人士給予相關(guān)指導(dǎo)!
「愛(ài)刨根生活網(wǎng)」www.malaban59.cn小編還為您精選了以下內(nèi)容,希望對(duì)您有所幫助:- 鲅魚丸子湯的家常做法竅門 鲅魚丸子湯的家常做法優(yōu)質(zhì)
- 新手怎么使用萬(wàn)用表
- 新鮮蘑菇怎么保存
- 新鮮核桃怎么吃最好
- 新手如何注冊(cè)域名—建立網(wǎng)站,從域名注冊(cè)開始 如何注冊(cè)網(wǎng)站域名
- 新手小白如何通過(guò)互聯(lián)網(wǎng)創(chuàng)業(yè),弄懂步驟和流程真不難! 如何利用網(wǎng)絡(luò)創(chuàng)業(yè)
- 新冠變異株奧密克戎蔓延多少個(gè)國(guó)家? 傳播性快速
- 單店銷量高于周邊友商 王騰:小米一直在尋求用一種新模式做線下
- 今年282位基金經(jīng)理離職創(chuàng)新高 A股波動(dòng)加?。盒履茉础雽?dǎo)體等受追捧
- 全球新冠肺炎確診病例超3000萬(wàn)例 死亡病例超94萬(wàn)例
