亚洲精品久久久久久第一页-人妻少妇精彩视品一区二区三区-91国产自拍免费视频-免费一级a在线播放视频正片-少妇天天日天天射天天爽-国产大屁股喷水视频在线观看-操美女骚穴抽插性爱视频-亚洲 欧美 中文字幕 丝袜-成人免费无码片在线观看

阿里網(wǎng)盤優(yōu)質(zhì)資源分享 阿里云管理控制臺


阿里網(wǎng)盤優(yōu)質(zhì)資源分享 阿里云管理控制臺

文章插圖
背景數(shù)據(jù)湖當(dāng)前在國內(nèi)外是比較熱的方案,MarketsandMarkets市場調(diào)研顯示預(yù)計數(shù)據(jù)湖市場規(guī)模在2024年會從2019年的79億美金增長到201億美金 。一些企業(yè)已經(jīng)構(gòu)建了自己的云原生數(shù)據(jù)湖方案,有效解決了業(yè)務(wù)痛點;還有很多企業(yè)在構(gòu)建或者計劃構(gòu)建自己的數(shù)據(jù)湖,Gartner 2020年發(fā)布的報告顯示目前已經(jīng)有39%的用戶在使用數(shù)據(jù)湖,34%的用戶考慮在1年內(nèi)使用數(shù)據(jù)湖 。隨著對象存儲等云原生存儲技術(shù)的成熟,一開始大家會先把結(jié)構(gòu)化、半結(jié)構(gòu)化、圖片、視頻等數(shù)據(jù)存儲在對象存儲中 。當(dāng)需要對這些數(shù)據(jù)進(jìn)行分析時,發(fā)現(xiàn)缺少面向分析的數(shù)據(jù)管理視圖,在這樣的背景下業(yè)界在面向云原生數(shù)據(jù)湖的元數(shù)據(jù)管理技術(shù)進(jìn)行了廣泛的探索和落地 。
一、元數(shù)據(jù)管理面臨的挑戰(zhàn)1、什么是數(shù)據(jù)湖
Wikipedia上說數(shù)據(jù)湖是一類存儲數(shù)據(jù)自然/原始格式的系統(tǒng)或存儲,通常是對象塊或者文件,包括原始系統(tǒng)所產(chǎn)生的原始數(shù)據(jù)拷貝以及為了各類任務(wù)而產(chǎn)生的轉(zhuǎn)換數(shù)據(jù),包括來自于關(guān)系型數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)(行和列)、半結(jié)構(gòu)化數(shù)據(jù)(如CSV、日志、XML、JSON)、非結(jié)構(gòu)化數(shù)據(jù)(如email、文檔、PDF、圖像、音頻、視頻) 。
從上面可以總結(jié)出數(shù)據(jù)湖具有以下特性:
數(shù)據(jù)來源:原始數(shù)據(jù)、轉(zhuǎn)換數(shù)據(jù)數(shù)據(jù)類型:結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、二進(jìn)制數(shù)據(jù)湖存儲:可擴(kuò)展的海量數(shù)據(jù)存儲服務(wù)2、數(shù)據(jù)湖分析方案架構(gòu)
當(dāng)數(shù)據(jù)湖只是作為存儲的時候架構(gòu)架構(gòu)比較清晰,在基于數(shù)據(jù)湖存儲構(gòu)建分析平臺過程中,業(yè)界進(jìn)行了大量的實踐,基本的架構(gòu)如下:
主要包括五個模塊:
數(shù)據(jù)源:原始數(shù)據(jù)存儲模塊,包括結(jié)構(gòu)化數(shù)據(jù)(Database等)、半結(jié)構(gòu)化(File、日志等)、非結(jié)構(gòu)化(音視頻等)數(shù)據(jù)集成:為了將數(shù)據(jù)統(tǒng)一到數(shù)據(jù)湖存儲及管理,目前數(shù)據(jù)集成主要分為三種形態(tài) 。第一種為直接通過外表的方式關(guān)聯(lián)元數(shù)據(jù);第二種為基于ETL、集成工具、流式寫入模式,這種方式直接處理數(shù)據(jù)能夠感知Schema,在寫入數(shù)據(jù)的過程中同時創(chuàng)建元數(shù)據(jù);第三種為文件直接上傳數(shù)據(jù)湖存儲,需要事后異步構(gòu)建元數(shù)據(jù)數(shù)據(jù)湖存儲:目前業(yè)界主要使用對象存儲以及自建HDFS集群元數(shù)據(jù)管理:元數(shù)據(jù)管理,作為連接數(shù)據(jù)集成、存儲和分析引擎的總線數(shù)據(jù)分析引擎:目前有豐富的分析引擎,比如Spark、Hadoop、Presto等,他們通常通過對接元數(shù)據(jù)來獲得數(shù)據(jù)的Schema及路徑;同時比如Spark也支持直接分析存儲路徑,在分析過程中進(jìn)行元數(shù)據(jù)的推斷我們可以看到元數(shù)據(jù)管理是數(shù)據(jù)湖分析平臺架構(gòu)的總線,面向數(shù)據(jù)生態(tài)要支持豐富的數(shù)據(jù)集成工具對接,面向數(shù)據(jù)湖存儲要進(jìn)行完善的數(shù)據(jù)管理,面向分析引擎要能夠提供可靠的元數(shù)據(jù)服務(wù) 。
3、元數(shù)據(jù)管理面臨的挑戰(zhàn)
元數(shù)據(jù)管理如此重要,但是當(dāng)前開源的方案不夠成熟,經(jīng)常會聽到大家關(guān)于元數(shù)據(jù)管理相關(guān)的討論,比如:
有10來個數(shù)據(jù)存儲系統(tǒng),每種都去對接適配,每次都要配置賬密、路徑,真麻煩,有沒有統(tǒng)一的視圖?一個有200個字段的CSV文件,手動寫出200個字段的DDL真的好累?JSON添加了字段每次都需要手動處理下嗎?我的業(yè)務(wù)數(shù)據(jù),是否有被其他同學(xué)刪庫跑路的風(fēng)險?分區(qū)太多了,每次分析在讀取分區(qū)上居然占用了那么多時間?…..4、業(yè)界數(shù)據(jù)湖元數(shù)據(jù)管理現(xiàn)狀
上面這些是大家在對數(shù)據(jù)湖進(jìn)行管理分析時遇到的典型問題 。這些問題其實都可以通過完善的元數(shù)據(jù)管理系統(tǒng)來解決,從元數(shù)據(jù)管理的視角可以總結(jié)為:
如何構(gòu)建數(shù)據(jù)的統(tǒng)一管理視圖:面向多種數(shù)據(jù)源需要有一套統(tǒng)一的數(shù)據(jù)管理模型,比如通過JDBC連接數(shù)據(jù)庫、通過云賬號授權(quán)管理對象存儲文件、一套Serde管理處理不同的數(shù)據(jù)格式處理方式等 。如何構(gòu)建多租戶的權(quán)限管理:如果全域數(shù)據(jù)都使用數(shù)據(jù)湖方案管理,企業(yè)多部門研發(fā)人員共同使用數(shù)據(jù)湖挖掘價值,但是缺少有效的數(shù)據(jù)租戶及權(quán)限隔離,會產(chǎn)生數(shù)據(jù)風(fēng)險;如何自動化的構(gòu)建元數(shù)據(jù):通過ETL模式的數(shù)據(jù)集成工具寫入數(shù)據(jù)湖存儲時,對應(yīng)工具知道數(shù)據(jù)Schema可以主動建元數(shù)據(jù),這樣就需要元數(shù)據(jù)服務(wù)有完善的開放接口 。但是在某些場景數(shù)據(jù)文件直接上傳到OSS存儲,且文件量巨大、數(shù)據(jù)動態(tài)增長變化;這種情況需要有一套被動推斷提取元數(shù)據(jù)的服務(wù),做到Schema感知以及增量識別 。如何提供面向分析的優(yōu)化能力:比如海量分區(qū)的高效加載等 。針對這些問題業(yè)界在做了大量的探索和實踐:


以上關(guān)于本文的內(nèi)容,僅作參考!溫馨提示:如遇健康、疾病相關(guān)的問題,請您及時就醫(yī)或請專業(yè)人士給予相關(guān)指導(dǎo)!

「愛刨根生活網(wǎng)」www.malaban59.cn小編還為您精選了以下內(nèi)容,希望對您有所幫助: