av免费在线播放亚洲,操美女大嫩逼九九九九九九九九,国产精品欧美亚洲制服

DLA Meta 中所有對外的元數(shù)據(jù)API 都是有權(quán)限校驗的，比如Create Database 是需要有全局的Create 或All 權(quán)限的。只有權(quán)限校驗通過才可以進(jìn)行下一步的操作。目前DLA Meta 權(quán)限控制粒度是做到表級別的，可以對用戶授予表級別的權(quán)限；當(dāng)然，列粒度、分區(qū)粒度的權(quán)限我們也是可以做到的，目前還在規(guī)劃中。下面是我們權(quán)限校驗的處理流程：
由于DLA Presto可以兼容MySQL 權(quán)限操作相關(guān)，為了降低用戶的使用成本，當(dāng)前DLA Meta 的權(quán)限是與MySQL 權(quán)限是兼容的，所以如果你對MySQL 的權(quán)限體系比較了解，那么這些知識是可以直接運用到DLA 的。
2、元數(shù)據(jù)發(fā)現(xiàn)Schema推斷技術(shù)
元數(shù)據(jù)發(fā)現(xiàn)的定位：為OSS等存儲上面的數(shù)據(jù)文件自動發(fā)現(xiàn)和構(gòu)建表、字段、分區(qū)，并感知新增表&字段&分區(qū)等元數(shù)據(jù)信息，方便計算與分析。
從上圖可以看出，元數(shù)據(jù)發(fā)現(xiàn)的輸入是一個父目錄，下面可以包含百萬級別OSS的文件，同時這些文件還在增量的添加。輸出為根據(jù)Schema信息進(jìn)行聚合生成數(shù)目為萬級別的表，以及單表萬級別分區(qū) 。元數(shù)據(jù)自動發(fā)現(xiàn)引擎主要包括文件Schema識別器、文件表分類器、Meta同步三塊，下面重點介紹Schema識別器、以及文件表分類器。
文件Schema識別器：這個模塊主要用來推斷OSS上面文件的格式及字段。對于一個文件完全沒有Schema信息情況下，首先需要推斷出是什么格式，然后還需要推斷出具體的字段。整個模塊包括文件采樣、Schema識別器兩塊。測試表明單個文件的Schema探測需要150ms左右，如果對所有的文件進(jìn)行全量的識別，整個效率會比較低，DLA 元數(shù)據(jù)發(fā)現(xiàn)有一套采樣的技術(shù)，減少文件識別的數(shù)量。具體的Schema識別器由一組Schema推斷的策略組成，面對一個沒有任何先驗信息的文件，通過逐個匹配CSV、JSON、Parquet等推斷器的方式來進(jìn)行識別，每種推斷器在效率和準(zhǔn)確性上面做了大量優(yōu)化，比如CSV內(nèi)部包含了30+種根據(jù)表頭、分隔符、轉(zhuǎn)義、引用組合的策略，同時字段的識別使用數(shù)據(jù)行采樣的方式保證準(zhǔn)確率的情況下，減少遠(yuǎn)程IO讀取。
文件分類器：由于文件在OSS上面是按照目錄存儲的，當(dāng)通過Schema識別器識別出了葉子節(jié)點目錄下面的Schema情況后，如果每個葉子節(jié)點目錄創(chuàng)建一張表，表會很多，管理復(fù)雜且難以分析。因此需要有一套文件分類器來聚合生成最終的表。且支持增量文件的Schema變更，比如添加字段、添加分區(qū)等。下面是整個分類算法過程，根據(jù)目錄樹形的結(jié)構(gòu)，第一步先深度遍歷并結(jié)合“文件Schema識別器”在每個節(jié)點聚合子節(jié)點的Schema是否兼容，如果兼容則把子目錄向上合并為分區(qū)，如果不兼容則每個子目錄創(chuàng)建一張表。經(jīng)過第一步后每個節(jié)點是否可以創(chuàng)建表、分區(qū)信息，以及合并后的Schema都會存儲在節(jié)點上面；第二步再次遍歷可以生成對應(yīng)的Meta創(chuàng)建事件。
這種通用的算法可以識別任意目錄擺放，但是由于面向海量分區(qū)的場景，事先不知道分區(qū)目錄是否可以聚合，這樣每個目錄都需要采樣識別，且在聚合時如果某個分區(qū)和其他分區(qū)兼容度達(dá)不到要求，會拆分生成大量的表，在這種場景下性能一般。如果用戶的OSS目錄結(jié)構(gòu)按照典型的數(shù)倉結(jié)構(gòu)，庫、表、分區(qū)模式規(guī)劃，那么在分區(qū)識別及表識別上面會有固定的規(guī)則，這樣可以對上面的算法遍歷過程剪枝，分區(qū)間的采樣率進(jìn)一步減少，且容錯率更高。數(shù)倉模式的目錄規(guī)劃需要如下：
3、海量分區(qū)處理技術(shù)
分區(qū)投影
在大數(shù)據(jù)場景中，分區(qū)是用于提升性能非常常見的方法，合理劃分分區(qū)有利于計算引擎過濾掉大量無用的數(shù)據(jù)從而提升計算性能。但是如果分區(qū)非常多，比如單表數(shù)百萬的分區(qū)，那么計算引擎從元數(shù)據(jù)服務(wù)查詢分區(qū)所需要的時間就會上升，從而使得查詢的整體時間變長。比如我們客戶有張表有130多萬分區(qū)，一個簡單的分區(qū)過濾查詢元數(shù)據(jù)訪問這塊就花了4秒以上的時間，而剩下的計算時間卻不到1秒！

以上關(guān)于本文的內(nèi)容，僅作參考！溫馨提示：如遇健康、疾病相關(guān)的問題，請您及時就醫(yī)或請專業(yè)人士給予相關(guān)指導(dǎo)!

「愛刨根生活網(wǎng)」www.malaban59.cn小編還為您精選了以下內(nèi)容，希望對您有所幫助：

阿里網(wǎng)盤優(yōu)質(zhì)資源分享 阿里云管理控制臺( 三 )

阿里網(wǎng)盤優(yōu)質(zhì)資源分享阿里云管理控制臺( 三 )