Hive Metastore:在Hadoop生態(tài)為了構(gòu)建統(tǒng)一的管理視圖,用戶會在自己的Hadoop集群搭建HMS服務(wù) 。AWS Glue Meta:提供多租戶的統(tǒng)一數(shù)據(jù)湖元數(shù)據(jù)管理服務(wù),配套Serverless的元數(shù)據(jù)爬取技術(shù)生成元數(shù)據(jù) 。相關(guān)功能收費 。Aliyun DLA Meta: Meta兼容Hive Metastore,支持云上15+種數(shù)據(jù)數(shù)據(jù)源(OSS、HDFS、DB、DW)的統(tǒng)一視圖,提供開放的元數(shù)據(jù)訪問服務(wù),引入多租戶、元數(shù)據(jù)發(fā)現(xiàn)、對接HUDI等能力 。DLA Meta追求邊際成本為0,免費提供使用 。下面也將重點介紹DLA Meta的相關(guān)技術(shù)實現(xiàn) 。二、云原生數(shù)據(jù)湖的元數(shù)據(jù)管理架構(gòu)為了解決上面這些挑戰(zhàn),阿里云云原生數(shù)據(jù)湖分析服務(wù)DLA的元數(shù)據(jù)管理,支持統(tǒng)一的多租戶元數(shù)據(jù)管理視圖;數(shù)據(jù)模型兼容Hive Metastore;提供阿里云OpenAPI、Client、JDBC三種開放模式;同時提供元數(shù)據(jù)自動發(fā)現(xiàn)服務(wù)一鍵異步構(gòu)建元數(shù)據(jù) 。下面是各個模塊的介紹:
統(tǒng)一元數(shù)據(jù)視圖:支持15+中數(shù)據(jù)源,OSS、HDFS、DB、DW等;并兼容Hive Metastore的數(shù)據(jù)模型,比如Schema、View、UDF、Table、Partition、Serde等,友好對接Spark、Hadoop、Hudi等生態(tài);豐富的開放模式:支持阿里云OpenAPi、Client、JDBC三種接口開放模式,方便生態(tài)工具及業(yè)務(wù)集成DLA Meta,比如可以開發(fā)Sqoop元數(shù)據(jù)插件對接OpenAPI,同步數(shù)據(jù)時構(gòu)建元數(shù)據(jù);目前開源Apache Hudi支持通過JDBC方式對接DLA Meta;DLA內(nèi)置的Serverless Spark、Presto、Hudi支持通過Client模式對接DLA Meta;支持多租戶及權(quán)限控制:基于UID的多租戶機制進行權(quán)限的隔離,通過GRANT&REVOKE進行賬號間的權(quán)限管理 。支持水平擴展:為了滿足海量元數(shù)據(jù)的管理,服務(wù)本身是可以水平擴展,同時底層使用RDS&PolarDB的庫表拆分技術(shù),支持存儲的擴展 。元數(shù)據(jù)發(fā)現(xiàn)服務(wù):當數(shù)據(jù)入湖時沒有關(guān)聯(lián)元數(shù)據(jù),可以通過元數(shù)據(jù)發(fā)現(xiàn)服務(wù)一鍵自動關(guān)聯(lián)元數(shù)據(jù) ??梢钥闯鲈趯佣喾N數(shù)據(jù)源以及數(shù)據(jù)集成方式方面提供了友好的開放性,目前Apache Hudi原生對接了DLA Meta;在分析生態(tài)方面支持業(yè)界通用的數(shù)據(jù)模型標準(Hive Metastore);同時服務(wù)本身具備多租戶、可擴展的能力滿足企業(yè)級的需求 。
三、元數(shù)據(jù)管理核心技術(shù)解析下面主要介紹DLA Meta關(guān)于元數(shù)據(jù)多租戶、元數(shù)據(jù)發(fā)現(xiàn)、海量分區(qū)管理三方面的技術(shù)實踐,這幾塊也是目前業(yè)界核心關(guān)注和探索的問題 。
1、元數(shù)據(jù)多租戶管理
在大數(shù)據(jù)體系中,使用Hive MetaStore (下面簡稱HMS)作為元數(shù)據(jù)服務(wù)是非常普遍的使用方法 。DLA 作為多租戶的產(chǎn)品,其中一個比較重要的功能就是需要對不同用戶的元數(shù)據(jù)進行隔離,而且需要擁有完整的權(quán)限體系;HMS 本身是不支持多租戶和權(quán)限體系 。阿里云DLA 重寫了一套Meta 服務(wù),其核心目標是兼容 HMS、支持多租戶、支持完整的權(quán)限體系、同時支持存儲各種數(shù)據(jù)源的元數(shù)據(jù) 。
多租戶實現(xiàn)
為了實現(xiàn)多租戶功能,我們把每張庫的元數(shù)據(jù)和阿里云的UID 進行關(guān)聯(lián),而表的元數(shù)據(jù)又是和庫的元信息關(guān)聯(lián)的 。所以基于這種設(shè)計每張庫、每張表都是可以對應(yīng)到具體的用戶 。當用戶請求元數(shù)據(jù)的時候,除了需要傳進庫名和表名,還需要將請求的阿里云UID 帶進來,再結(jié)合上述關(guān)聯(lián)關(guān)系就可以拿到相應(yīng)用戶的元數(shù)據(jù) 。每個元數(shù)據(jù)的API 都有一個UID 參數(shù),比如如果我們需要通過getTable 獲取某個用戶的表信息,整個流程如下:
上面的ACCOUNT 是DLA 中存儲用戶賬戶信息的表;DBS 和TBLS 是用于存儲元數(shù)據(jù)的表 。虛線代表他們之間的關(guān)聯(lián)關(guān)系 。
權(quán)限體系
我們知道,一般大型的企業(yè)會存在多個不同部門,或者一個比較大的部門需要區(qū)分出不同的用戶,這些用戶之間又需要共享一些資源 。為了解決這個問題,DLA 將阿里云UID 作為主賬號,DLA userName 作為子賬號來區(qū)別每個用戶,同一個阿里云UID 下面的不同子用戶訪問的資源是有限制的,比如主賬號用戶可以看到所有的元數(shù)據(jù);而一般用戶只能看到一部分 。為了解決這個問題,DLA Meta 實現(xiàn)了一套完整的權(quán)限體系,用戶可以通過GRANT/REVOKE 對用戶進行相關(guān)的權(quán)限操作 。
以上關(guān)于本文的內(nèi)容,僅作參考!溫馨提示:如遇健康、疾病相關(guān)的問題,請您及時就醫(yī)或請專業(yè)人士給予相關(guān)指導!
「愛刨根生活網(wǎng)」www.malaban59.cn小編還為您精選了以下內(nèi)容,希望對您有所幫助:- 申請郵箱后綴條件 阿里信箱怎么使用
- “櫻花動漫”也沒了!今后要看動漫哪里看?“網(wǎng)盤”也不一定有
- 優(yōu)質(zhì)直播間打造攻略詳細介紹
- 張勇是上海人 阿里張勇哪里人
- 阿里云服務(wù)器下載鏡像 阿里云鏡像站怎么下載
- 域名注冊流程分享 阿里云注冊域名的步驟
- 域名注冊萬網(wǎng)和阿里云的區(qū)別 萬網(wǎng)和阿里云什么關(guān)系
- 精選30個 快手氣質(zhì)網(wǎng)名 快手優(yōu)質(zhì)昵稱
- 精選36個 優(yōu)質(zhì)女生昵稱四個字 4字優(yōu)質(zhì)昵稱
- 精選30個 優(yōu)質(zhì)小紅書昵稱 男生用的優(yōu)質(zhì)昵稱
