生活随笔
收集整理的這篇文章主要介紹了
kudu大量数据更新_i2Stream提升异构数据库数据的互联互通
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
最早提出“大數(shù)據(jù)”時代到來的是全球知名咨詢公司麥肯錫。麥肯錫稱:“數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對于海量數(shù)據(jù)的挖掘和運用,預(yù)示著新一波生產(chǎn)率增長和消費者盈余浪潮的到來。”? “大數(shù)據(jù)”在物理學(xué)、生物學(xué)、環(huán)境生態(tài)學(xué)等領(lǐng)域以及軍事、金融、通訊等行業(yè)存在已有時日,卻因為近年來互聯(lián)網(wǎng)和信息行業(yè)的發(fā)展而引起人們關(guān)注。2009年甲型H1N1流感爆發(fā),有評論家警告,可能會出現(xiàn)類似1918年西班牙流感般大規(guī)模流行,影響5億人口并奪走數(shù)千萬人性命。在甲型H1N1流感爆發(fā)前幾周,互聯(lián)網(wǎng)巨頭谷歌公司在《自然》雜志上發(fā)表的一篇論文,引起了業(yè)內(nèi)的廣泛關(guān)注。文中解釋了谷歌為什么能夠準(zhǔn)確預(yù)測流感的傳播:通過觀察人們在網(wǎng)上的搜索記錄來完成這個預(yù)測,而這種方法以前一直被忽略。谷歌保存了多年來所有的搜索記錄,而且每天都會接受來自全球超過30億條的搜索指令。如此龐大的數(shù)據(jù)資源足以支撐和幫助谷歌完成預(yù)測。大數(shù)據(jù)開啟了一次重大的時代轉(zhuǎn)型,人們不再認(rèn)為數(shù)據(jù)是靜止和陳舊的。在以前,一旦完成了收集數(shù)據(jù)的目的之后,數(shù)據(jù)就會被認(rèn)為已經(jīng)沒有用處了。但在大數(shù)據(jù)時代,數(shù)據(jù)本身發(fā)生了變化:
數(shù)據(jù)更多,不是隨機樣本,而是全體數(shù)據(jù)。
數(shù)據(jù)更雜,不是精確性,而是混雜性。
數(shù)據(jù)更好,不求因果關(guān)系,但求相關(guān)聯(lián)系。
每個人都可以獲取大量數(shù)據(jù)信息,而在數(shù)據(jù)洪流席卷全球的大數(shù)據(jù)時代,人類存儲信息量的增長速度比世界經(jīng)濟(jì)的增長速度快4倍。到了2020年,全世界所產(chǎn)生的數(shù)據(jù)規(guī)模將達(dá)到8年前的44倍,國際數(shù)據(jù)公司IDC給出了詳細(xì)的數(shù)字:全球數(shù)據(jù)總量2020年將達(dá)到40ZB,2025年將達(dá)到175ZB。面對海量數(shù)據(jù),迅猛發(fā)展的數(shù)據(jù)處理能力依然捉襟見肘,在入倉速度與分析速率相悖而生的大數(shù)據(jù)體系架構(gòu)下,面臨兩大考驗:傳統(tǒng)數(shù)據(jù)管理要如何完成架構(gòu)轉(zhuǎn)型,怎樣尋求入倉速度與分析速率平衡點。圖1:大數(shù)據(jù)應(yīng)用大數(shù)據(jù)分析的基礎(chǔ)是大量可信數(shù)據(jù),數(shù)據(jù)同步工具可以為大數(shù)據(jù)分析平臺提供源自實際業(yè)務(wù)的持續(xù)傳送的可信數(shù)據(jù)。大數(shù)據(jù)平臺匯聚了源自不同數(shù)據(jù)源的數(shù)據(jù),因此可以從多維度、多視角實現(xiàn)數(shù)據(jù)采集、整合、清理、治理、分析,從而實現(xiàn)數(shù)據(jù)決策、趨勢分析和數(shù)據(jù)可視化展示等。隨著大數(shù)據(jù)技術(shù)的發(fā)展和應(yīng)用,數(shù)據(jù)同步的需求和頻率也在提高,在了解基于日志抽取分析的數(shù)據(jù)流實時同步技術(shù)之前,先看一看數(shù)據(jù)同步的分類及基礎(chǔ)知識點:
離線同步和在線同步:離線同步是指生產(chǎn)庫不對外提供服務(wù),數(shù)據(jù)不會發(fā)生變化。在線同步要復(fù)雜得多,數(shù)據(jù)庫會一直對應(yīng)用層系統(tǒng)提供服務(wù),同步工具需要在數(shù)據(jù)不斷變化的情況下,將變化的數(shù)據(jù)同步到目的庫。如增刪、更新、插入及DDL操作等。
準(zhǔn)實時同步、實時同步、非實時同步:準(zhǔn)實時接近于兩邊數(shù)據(jù)庫同時操作,但會有延時;實時同步是兩邊都是寫操作;非實時一般強調(diào)數(shù)據(jù)庫不對外提供服務(wù)時,再進(jìn)行數(shù)據(jù)同步。
通過日志、時間戳、全表拷貝的技術(shù)同步:日志分析是通過分析源數(shù)據(jù)庫日志,捕獲源數(shù)據(jù)庫中變化的數(shù)據(jù),一般用于大型數(shù)據(jù)源,如Oracle;時間戳是在同步的源表里有時間戳字段,當(dāng)數(shù)據(jù)變化時,時間戳記錄變化的時間;全表拷貝是定時清空目的數(shù)據(jù)源,然后將源庫數(shù)據(jù)全盤拷貝到目的數(shù)據(jù)源,實時性不高。
數(shù)據(jù)倉庫技術(shù)ETL(Extract-Transform-Load的縮寫):描述將數(shù)據(jù)從來源端經(jīng)過抽取(extract)、轉(zhuǎn)換(transform)、加載(load)至目標(biāo)端的過程。ETL常用在數(shù)據(jù)倉庫,但其對象并不限于數(shù)據(jù)倉庫。ETL是將業(yè)務(wù)系統(tǒng)的數(shù)據(jù)經(jīng)過抽取、清洗轉(zhuǎn)換之后加載到數(shù)據(jù)倉庫的過程,目的是將企業(yè)中的分散、零亂、標(biāo)準(zhǔn)不統(tǒng)一的數(shù)據(jù)整合到一起,為企業(yè)的決策提供分析依據(jù),ETL是商業(yè)智能(BI)項目重要的一個環(huán)節(jié)。
JSON(JavaScript Object Notation) 文件:一種輕量級的數(shù)據(jù)交換格式文件,易于人閱讀和編寫,也易于機器解析和生成。JSON采用完全獨立于語言的文本格式,但是也使用了類似于C語言家族的習(xí)慣(包括C、C++、C#、Java、JavaScript、Perl、Python等)。這些特性使JSON成為理想的數(shù)據(jù)交換語言。JSON是Kafka平臺可識別的格式文件。
Kafka流處理平臺:Kafka是一種分布式消息隊列,用于發(fā)布和訂閱消息,可作為中間件將數(shù)據(jù)匯聚到數(shù)據(jù)湖、大數(shù)據(jù)應(yīng)用和實時流分析系統(tǒng)中。Kafka具大容量存儲和快速讀寫兩大特點。Kafka的數(shù)據(jù)處理速度快可以通過批處理和壓縮記錄有效地使用IO。對于數(shù)據(jù)庫數(shù)據(jù),Kafka具備兩大功能:一是異構(gòu)數(shù)據(jù)庫的解耦,實現(xiàn)大數(shù)據(jù)量的數(shù)據(jù)緩沖;二是異構(gòu)數(shù)據(jù)庫的格式轉(zhuǎn)化,實現(xiàn)異構(gòu)數(shù)據(jù)庫的數(shù)據(jù)傳輸。數(shù)據(jù)同步工具抽取數(shù)據(jù)并做轉(zhuǎn)換、加載是數(shù)據(jù)進(jìn)一步聚合、分析的基礎(chǔ)。數(shù)據(jù)同步技術(shù)的發(fā)展一方面會提高同步過程的可靠性、可視化,增強應(yīng)對異常的能力;一方面也會和人工智能的發(fā)展相結(jié)合,以提供深層次數(shù)據(jù)處理和實現(xiàn)數(shù)據(jù)事件的智能化響應(yīng)。基于前沿的數(shù)據(jù)庫數(shù)據(jù)同步分析技術(shù),英方軟件推出了一種專注于面向預(yù)寫日志抽取分析的數(shù)據(jù)庫同步技術(shù),可以從主流的結(jié)構(gòu)化數(shù)據(jù)庫獲取數(shù)據(jù)的源頭保證數(shù)據(jù)的完整性、可靠性,進(jìn)而實現(xiàn)數(shù)據(jù)的提取和復(fù)制,并實時將數(shù)據(jù)傳輸?shù)終afka等消息隊列。該技術(shù)充當(dāng)了Kafka Producer的角色,從關(guān)系型數(shù)據(jù)庫解析生產(chǎn)數(shù)據(jù),以JSON格式實時向Kafka平臺寫入,提供適用于大數(shù)據(jù)環(huán)境的高性能、容錯、易用和靈活的實時數(shù)據(jù)流平臺,幫助客戶擴(kuò)展實時數(shù)據(jù)集成架構(gòu)到大數(shù)據(jù)系統(tǒng)而不會影響生產(chǎn)系統(tǒng)的性能。圖2:i2Stream應(yīng)用架構(gòu)和場景圖3是關(guān)系型數(shù)據(jù)庫Oracle到Kudu的數(shù)據(jù)抽取→轉(zhuǎn)換→轉(zhuǎn)載的過程,先通過數(shù)據(jù)庫復(fù)制產(chǎn)品i2Active將源端數(shù)據(jù)庫的結(jié)構(gòu)化數(shù)據(jù)解析、提取后, 通過i2Stream進(jìn)行對接、轉(zhuǎn)換,并發(fā)送給消息隊列,最終寫入HDFS。在此基礎(chǔ)上將數(shù)據(jù)同步到Kudu/HBase等數(shù)據(jù)倉庫。圖3:數(shù)據(jù)從Oracle到Kudu的過程
基于該技術(shù)研發(fā)的管理軟件i2Stream,主要功能包括:支持結(jié)構(gòu)化、異構(gòu)數(shù)據(jù)源全量和實時增量快速加載到各類Hadoop(hdfs、Hive、HBase、Kudu)、Kafka、關(guān)系型數(shù)據(jù)庫等目標(biāo)庫;
支持無侵入實時增量數(shù)據(jù)獲取功能。功能支持的源端數(shù)據(jù)庫包括Oracle(RAC)、SQLServer、MySQL、MariaDB、PostgreSQL、GaussDB、DB2等;
目標(biāo)庫支持關(guān)系型數(shù)據(jù)和Hadoop(hdfs、Hive、HBase、Kudu)、Kafka等多種大數(shù)據(jù)存儲數(shù)據(jù)庫;
支持表級、實例級的數(shù)據(jù)過濾和轉(zhuǎn)換;
支持源數(shù)據(jù)庫一對多分發(fā)到不同的目標(biāo)庫中,支持源庫多對一匯聚到同一個目標(biāo)庫;?
采用多線程流處理技術(shù),數(shù)據(jù)轉(zhuǎn)發(fā)性能高,秒級延時;
支持近實時大數(shù)據(jù)入倉(Hive),Hive的批量裝載速度達(dá)到近萬條;
采用B/S圖形界面配置,簡單易用。
相比其他數(shù)據(jù)流復(fù)制技術(shù)產(chǎn)品,i2Stream的優(yōu)勢在于可以提供較高的數(shù)據(jù)同步性能、圖形化管理界面、可為客戶提供系統(tǒng)監(jiān)控API,客戶可以自行整合監(jiān)控數(shù)據(jù)到統(tǒng)一的管理平臺??梢詾榭蛻籼峁?shù)據(jù)驗證手段,如同步后數(shù)據(jù)的比對、修復(fù)。可以為客戶提供定制開發(fā)滿足用戶的特定需求等。云和大數(shù)據(jù)時代,除了數(shù)據(jù)超多之外,還面臨著系統(tǒng)超復(fù)雜(Gartner:2020年全球企業(yè)超過6成將實施雙模IT,75%企業(yè)將應(yīng)用基于容器的云原生架構(gòu))和環(huán)境超異構(gòu)(RightScale:84%為多云環(huán)境,其中58%為混合云環(huán)境)的挑戰(zhàn),傳統(tǒng)的大數(shù)據(jù)復(fù)制技術(shù)正在經(jīng)歷架構(gòu)變化帶來的轉(zhuǎn)型陣痛,英方新的大數(shù)據(jù)復(fù)制技術(shù)在以往的經(jīng)驗上,適應(yīng)了兩大應(yīng)用場景:
異構(gòu)數(shù)據(jù)庫數(shù)據(jù)的實時流通、交互,幫助用戶完成核心數(shù)據(jù)的遷移、同步。
幫助證券、銀行、支付平臺實現(xiàn)大數(shù)據(jù)從數(shù)據(jù)庫傳輸?shù)酱髷?shù)據(jù)平臺,再根據(jù)業(yè)務(wù)需要,轉(zhuǎn)換成各類報表數(shù)據(jù),為各類商業(yè)智能(BI)項目服務(wù)。
圖4:大數(shù)據(jù)應(yīng)用于金融系統(tǒng)大數(shù)據(jù)技術(shù)正在發(fā)生深刻的變化,任何IT基礎(chǔ)架構(gòu)的變化和創(chuàng)新,都會引發(fā)新一輪的技術(shù)競賽,在日益變化的客戶場景中,沒有最好的技術(shù),只有合適的選擇,用戶因此需要根據(jù)自身的技術(shù)喜好和業(yè)務(wù)需求,做出正確的決策。
?— ?推薦閱讀 ?—海量政務(wù)系統(tǒng)上云,成就云上天府之城2020-05-29大數(shù)據(jù)大作為|i2Stream入選中國軟件協(xié)會2019創(chuàng)新產(chǎn)品2019-08-28為什么金融行業(yè)都愛大數(shù)據(jù)2019-04-12關(guān)于英方英方軟件是一家專注于數(shù)據(jù)復(fù)制的基礎(chǔ)軟件企業(yè),致力于動態(tài)文件復(fù)制、數(shù)據(jù)庫復(fù)制等技術(shù)的研發(fā)與推廣,產(chǎn)品廣泛應(yīng)用于災(zāi)備、數(shù)據(jù)保護(hù)、云數(shù)據(jù)管理等領(lǐng)域,以確保企業(yè)的數(shù)據(jù)安全和業(yè)務(wù)連續(xù)性。多年來,秉承“讓世界早有準(zhǔn)備”的使命,英方旨在賦能企業(yè)改變傳統(tǒng)的數(shù)據(jù)及業(yè)務(wù)保護(hù)方式,在災(zāi)備、大數(shù)據(jù)管理、文件共享和云服務(wù)等領(lǐng)域為客戶提供高效、便捷、富有競爭力的產(chǎn)品及服務(wù),以開放的姿態(tài),與生態(tài)伙伴通力合作,為用戶的數(shù)字化轉(zhuǎn)型之路保駕護(hù)航。英方人堅持激情、專注、誠信、勤奮的價值觀,釋放組織活力,激發(fā)個人潛能,自主研發(fā),圍繞客戶需求,持續(xù)為客戶創(chuàng)造價值,推動數(shù)字世界不斷向前發(fā)展。
·?咨詢:400-0078-655
·?官網(wǎng):www.info2soft.com
總結(jié)
以上是生活随笔為你收集整理的kudu大量数据更新_i2Stream提升异构数据库数据的互联互通的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。