云原生数据湖解决方案打破数据孤岛,大数据驱动互娱行业发展
簡介:?數據湖是以集中、統一方式存儲各種類型數據,數據湖可以與多種計算引擎直接對接,我們使用OSS作為數據湖底座,數據統一存儲在OSS中,有效消除了數據孤島現象,多種計算與處理分析引擎能夠直接對存儲在數據湖中的數據進行處理與分析,避免數據在不同引擎中反復復制,減少了不必要的資源損耗。
行業綜述
全民娛樂時代,網絡互娛市場持續保持高速增長
隨著互聯網的普及以及技術的發展,互聯網娛樂行業的發展也日漸成熟。從早期單一門戶網站,到個人博客的流行,再到視頻網站的壯大。以及這兩年層出不窮的短視頻、直播、資訊平臺等,網絡娛樂行業的發展也正在從內容為王,開始往大數據驅動內容創新與推廣的方向進行發展。
隨著生活條件的變好,人們進入了娛樂即生活,生活即娛樂的時代。如同互聯網時代到來引爆信息爆炸一樣,互聯網娛樂的興起和發展同樣有爆發力。據統計,截至2019年6月,我國網絡直播用戶規模達4.33億,較2018年底增長3646萬。而網絡視頻的用戶更是達到7.59億,較2018年底增長3391萬。
尤其是在15年前后,隨著4G的普及以及智能機的大眾化,互聯網娛樂行業迎來了一次流量紅利時期,在這個時期,各種資訊、視頻、直播、社交等軟件如雨后春筍般冒出,大量的用戶開始涌入。在當時只要是有稍微優質的內容輸出,就能為作者或是整個平臺帶來巨大的流量。
行業發展方向
流量紅利消失,用戶增長陷入瓶頸
但是到了2020年,流量紅利的時代已經過去許久,雖然內容還是主要的內核,但是內容同質化嚴重,用戶逐漸進入疲勞期。同時由于整體市場格局的明朗化,各家企業之間的競爭與壓力也逐漸變大。
流量紅利的消失,企業增長放緩,企業整體拉新成本變高,留存客戶難度變大。同時由于國家對于內容審核的條件逐漸收緊與明細化,單靠人工已經無法應對大規模的內容審核,只能通過機器,依賴技術來達到監管合規的要求,但如此操作勢必會增加企業的運營成本,造成更大資源的投入。
面臨的痛點
大數據驅動行業發展,但如何利用好數據成難題
相信大家都會有過這種體驗,在我們瀏覽某些短視頻網站時,若是隨手點贊或評論了某幾個相同類型的視頻后,之后你刷到該類型視頻的次數會大大增加。其實這就是企業通過大數據來推測并匹配我們的興趣愛好,針對每個不同個體的用戶,為其定制個性化的內容推薦。
在大數據的驅動下,企業可以精確地對相關用戶進行篩選,為其定制個性化的內容推薦,但是在大數據系統構建的時候,很多企業又遇到各種各樣的技術挑戰。
由于數據源采集的方式和存儲方式的不同,往往會形成數據孤島的現象,同一用戶的數據可能會有好幾種表現和存儲的方式,如果企業要將這部分的數據進行分析,就需要將數據進行轉換并在多個數據孤島之間反復拷貝。
同時由于互聯網具備高時效性與高度開放性,可能會出現大量用戶在某個時間段內同時涌入某個軟件,尤其是一些社會性的熱點出現時,對于企業的服務器將會是一個巨大的考驗。按照傳統的處理方法,企業往往需要預留大量的空間來應對不同時期的流量,但是該種模式還是太過于缺乏靈活性,大多數服務器空間在非熱點時期只能白白閑置,極易引起IT資源的浪費增加企業運營成本。
數據湖解決方案
阿里云數據湖解決方案打破數據孤島,全面提升資源利用率
數據湖是以集中、統一方式存儲各種類型數據,數據湖可以與多種計算引擎直接對接,我們使用OSS作為數據湖底座,數據統一存儲在OSS中,有效消除了數據孤島現象,多種計算與處理分析引擎能夠直接對存儲在數據湖中的數據進行處理與分析,避免數據在不同引擎中反復復制,減少了不必要的資源損耗。
數據湖的存儲基座OSS提供了高可用性和可靠性保障,端到端的解決了海量數據的存儲、管理問題。直接對接多種數據輸入源,數據可以按照最原始形態直接寫入到OSS,無須在終端做任何處理,減輕終端設備負載。OSS提供的互聯網直接訪問特性,極大簡化數據傳輸的通路,無須經過各種代理,就可以實現數據的直接存取。
數據湖采用存儲與計算解耦合架構,讓計算、存儲資源具備更好的擴展性,極大降低運維管理難度、提升資源利用率。
無論是點播、直播錄制、日志分析、資訊分發等典型的互娛場景,采用數據湖方案,相關數據都可以按照統一方式存儲在OSS,并通過阿里云的計算引擎,比如EMR 、Max Compute等產品與對象存儲OSS結合,直接對存儲的數據進行處理,處理后的結果數據有可以持久化存儲到數據湖中,再比如DLA提供的Serverless 化的SQL(Presto)和Serverless 化的Spark引擎,提供job級別的彈性計算能力,用戶成本零浪費,幫助用戶集中精力專注于業務實現邏輯,快速實現數據變現。
阿里云數據湖解決方案,幫助企業釋放最大的數據價值,讓大數據的沉淀、存儲、處理、分析更加簡便快捷,幫助企業快速完成現有業務的迭代升級與重構,讓企業在行業占有一席之地。
最佳案例實踐
客戶介紹:
該客戶需要可發內容資訊APP,為用戶提供感興趣、有價值的個性化內容,致力于讓用戶的閱讀更有價值,因此個性化推薦就成為其產品重要的核心能力。
遇到的問題:
1、隨著業務多年的發展,存儲數據量規模已經達到百PB左右,數據在產生階段會有比較密集的訪問,隨著時間的增長,數據的訪問會逐漸趨冷,多年累積的冷數據已經對集群容量產生了極大壓力
2、客戶原計劃通過擴大集群規模,去支撐冷數據的持續增長,但隨著數據規模持續增加,讓集群擴容難度大幅度提升。另一方面,擴容的服務器的計算資源利用率較低,無法形成資源的充分利用。
數據湖解決方案
1、數據湖解決方案,可為用戶提供數據冷熱分層的功能,積累的冷數據被統一遷移到阿里云對象存儲OSS,新產生的熱數據保存在HDFS集群,熱數據經過一段時間逐漸趨冷后,就會定期遷移到對象存儲OSS進行冷處理
2、阿里云對象存儲OSS對于Hadoop生態的支持特性,原有計算任務只需簡單調整訪問地址就可以按照原有方式運行,讓計算任務能夠平滑遷移到數據湖運行。對于存儲到OSS冷數據,客戶通過OSS Lifecycle機制,定期將一部分冷數據進一步深度轉化為OSS歸檔類型,持續優化冷數據存儲成本,達到降本增效的效果
達到的效果
1、OSS提供業內最豐富的API接口,幫助客戶將海量數據從其他從各個不同數據源輕松遷移到OSS
2、客戶在OSS的基礎上,還采用阿里云的日志服務,一站式解決日志采集、處理、查詢、投遞的各種難題,甚至還可以通過混合云存儲陣列打通云上線下數據的一體化
3、數據湖消除了客戶之前存在的數據孤島現象,支持各種計算引擎的直接對接,存儲與計算解耦合的架構,能夠更容易使用彈性計算和serverless化的云服務,讓數據分析和訪問無處不在
?
原文鏈接
本文為阿里云原創內容,未經允許不得轉載。
總結
以上是生活随笔為你收集整理的云原生数据湖解决方案打破数据孤岛,大数据驱动互娱行业发展的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 揭秘!业界创新的代码仓库加密技术
- 下一篇: 云原生时代,谁是容器的最终归宿?