python消费datahub_DataHub使用指南-阿里云开发者社区
快速入門教程
1.開通DataHub
? 使用DataHub的第一步,首先點擊開通DataHub
2.創(chuàng)建Project和 Topic
創(chuàng)建Topic方式解讀,Tuple還是Blob?
Tuple支持的是強Schema的結(jié)構(gòu)化數(shù)據(jù),Blob指的是沒有類型的非結(jié)構(gòu)化數(shù)據(jù),在實際中Blob就是只有一列為string類型的schema
值得注意的是:使用Blob類型topic的話,數(shù)據(jù)會采用Base64加密,無論是抽樣還是下游消費,都需要進行解密
Schema設(shè)計
DataHub目前只支持字段的新增,不支持刪除和修改,針對上游數(shù)據(jù)源字段經(jīng)常發(fā)生變動的場景,建議設(shè)置允許字段為空,如果上游字段變更的話,針對多出來的字段可以通過SDK新增字段,而對于減少的字段則由于允許為空,值將會置為NULL,不會對業(yè)務(wù)造成影響
shard 和生命周期設(shè)置
shard在DataHub中代表的是并發(fā)通道,每個shard每秒吞吐限制為5M/s,每個shardQPS(每秒請求數(shù))為2000次,您可根據(jù)這兩項指標合理設(shè)置shard個數(shù)
針對生命周期而言,可以根據(jù)業(yè)務(wù)需要設(shè)置,如果需要更改的話,可以使用Java SDK修改生命周期
3.上游的選擇
DataHub目前支持的數(shù)據(jù)采集插件
OGG
OGG for MySQL
OGG for Oracle
LogStash
Flume
Canal插件
Fluentd
注意:
4.指標查看 or數(shù)據(jù)抽樣
? 在將數(shù)據(jù)寫入到DataHub之后,DataHub提供了可視化指標來查看內(nèi)部情況,具體詳情請查看
? 用戶如何查看數(shù)據(jù)質(zhì)量,寫入是否正確?可以通過Web抽樣功能來查看數(shù)據(jù)
5.訂閱
? 什么是訂閱?
訂閱最主要的功能就是存儲消費點位,以及通過點位重置重新消費
用戶可創(chuàng)建不同的訂閱針對同一個Topic數(shù)據(jù)的不同消費模式
創(chuàng)建同步自動會創(chuàng)建對應(yīng)的訂閱
6.同步數(shù)據(jù)到下游
? 消費DataHub數(shù)據(jù)有兩種方式,通過DataHub支持的同步數(shù)據(jù)庫同步到下游,或者通過自定義SDK消費數(shù)據(jù)進行處理
DataHub支持的同步類型:
Hologres
Maxcompute
ADS
ElasticSearch
函數(shù)計算
OSS
TableStore
RDS/MySQL/ADS 3.0
自定義SDK消費
? 您可以使用SDK對DataHub數(shù)據(jù)進行消費
? 同時DataHub協(xié)同消費解決多個消費者同時消費一個topic時,自動分配shard的問題,您也可以選擇使用協(xié)同消費對DataHub數(shù)據(jù)進行處理
? 同步往往是出現(xiàn)問題最多的,請參考 ?DataHub同步問題
7.監(jiān)控報警
? 在同步數(shù)據(jù)過程中,DataHub支持了監(jiān)控報警,目前只有訂閱延遲報警這一項,您可以通過創(chuàng)建報警規(guī)則方式對DataHub同步到下游數(shù)據(jù)進行監(jiān)控,當超過延遲時間閾值時,會通過釘釘、短信等多種方式提醒您。
? 具體報警說明請查看文檔:監(jiān)控報警
8 總結(jié)
本文通過對DataHub的創(chuàng)建使用,上游數(shù)據(jù)源的選擇,同步到DataHub的指標查看,以及下游類型的說明,闡述了DataHub做為數(shù)據(jù)通道的概念模型以及實際的落地場景,如有更多使用疑問,請加DataHub公共云群組進行反饋
?
總結(jié)
以上是生活随笔為你收集整理的python消费datahub_DataHub使用指南-阿里云开发者社区的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python最低薪资_最低15K,最高5
- 下一篇: 花两千元学python_花两万学的pyt