Kubernetes,多云和低代码数据科学:2020年最热门的数据管理趋势
新興技術為我們的數據之旅鋪平了道路。我們已經看到Kubernetes在應用程序自動化方面處于領先地位,越來越多的公司將賭注押在了云上,以及當今的企業對數據科學的依賴程度正不斷提,再加上對大數據的人工智能高級分析,可以看到數據管理領域正出現更多機會。
以下是我期待在2020年看到的一些最大數據趨勢。
趨勢1:Kubernetes將在2020年推動AI更加可操作
在高級分析和人工智能方面,“ Kubernetizing”將在2020年帶來全新的分析堆棧。通過將數據從遠程數據孤島移動到K8s集群中以實現更嚴格的數據局部性,分析堆棧的 “ Kubernetizing”解決了數據共享和彈性挑戰。盡管容器對于管理Web服務器和獨立數據庫等無狀態應用程序非常有效,但在高級分析和AI方面,Kubernetes仍有增長的空間。在2020年,Kubernetes將成為推動運營AI工作負載的關鍵部分。
分析堆棧正從SQL轉移到緊耦合的關系數據庫,再到Hadoop和云,逐漸變得更加分散。原始數據庫的核心元素可以是它們自己的獨立系統或層。諸如Kubernetes之類的技術允許將這些不同的部分組合在一起,從而簡化在任何環境中運行的應用程序,并改變與環境無關的軟件和應用程序的部署和擴展方式。
現在,當我們仔細思考當今的數據趨勢已將我們帶到何處時(尤其是高級分析和AI)時,我們看到了對分發模型訓練和處理的更大需求。這需要在您的Kubernetes部署中編排數據。這是一個很難解決的問題,因為要顧忌分析堆棧是如何分開的。數據湖(S3,HDFS,GCS等),計算框架(Apache Spark,Presto,Hive,Tensorflow等)以及其他依賴項(例如目錄服務)(Hive Metastore,AWS Glue,KMS等)都處于活動狀態并自行管理。隨著Kubernetes驅動更多可操作的AI,數據編排技術將成為這一趨勢的關鍵部分。
Kubernetes簡化了將多個分布式系統一起部署的復雜性,但隨著分解變得越來越普遍,我們將看到在K8s集群上運行的更先進的可操作AI。下一組要解決的挑戰將是數據訪問,數據局部性和數據彈性。
為了在Kubernetes中為可操作的AI做準備,請查看使Kubernetes中的數據能夠訪問遠程數據的技術。對于未來的AI工作負載需求而言,將數據本地化重新帶入環境至關重要。
趨勢2:無碼/低碼技術將簡化數據科學
到2020年,借助無代碼/低代碼技術,簡化的數據科學將得到發展。我們看到企業中比以往任何時候都更側重于使用高級的分析和人工智能;公司將業務押在從AI和ML衍生的數據驅動的結果上。如今,要對大量數據進行如此深入的分析和洞察,您需要一名數據科學家或工程師——具有廣泛的編程技能和非常深的數學知識的人員。可以想象,這些類型的人的需求量很大,供不應求。
2020年會帶來什么?
數分鐘被部署而不是數周的AI。這是公司想要實現的目標,盡管可以實現這一目標的專業人員數量有限。我們將看到更多使最終用戶(在大多數情況下為業務或數據分析師)從自己的數據中收集深刻見解的技術。這些無代碼或低代碼技術將把機器學習帶到最前沿,并使服務變得更智能,因此企業不會依賴具有特定專業知識的個人。例如,除了構建和部署模型之外,我們還將看到“創建您自己的模型,我們將為您提供訓練”的自主技術。
我們最近看到的項目包括Google的Cloud AutoML(“無需編碼的AI培訓師”)和Teachable Machine 2.0(面向新的ML實踐者的入門產品)之類的技術。此類技術將使非技術的最終用戶能夠實施和運行模型,同時避免出現錯誤(在構建AI模型時經常發生錯誤)。
今年,我們看到C3.ai,Mendix和Appian公司在低代碼AI領域涌現了幾項新技術,所有這些新技術都吹捧了低代碼平臺,這些平臺幾乎不需要編碼經驗,甚至可以提高開發人員的工作效率。
如果此方法適合您,請確保您的無代碼/低代碼技術具有內置的應用程序邏輯,位于其上方的托管或聲明層以及位于其下方的可與數據集和模塊配合使用的框架。
趨勢3:云計算巨頭將專注于多云
在過去三年中,我們一直在聽到人們談論混合云,而在過去的一年中,多云的趨勢越來越多。在大多數情況下,這只是討論,但在2020年將發生變化。在部署和利用多云環境方面,我們將看到顯著增長。
我們正處于主要云提供商(AWS,GCP,Azure)的起步階段,他們向市場推出了能夠支持多云部署的技術。
Microsoft Azure Stack Hub允許用戶在自己的數據中心中利用Azure云服務,而Microsoft最近剛剛發布了Azure Arc,這是一個多云管理層,將Azure擴展到其他公共云平臺(例如AWS和GCP)。
AWS Outposts允許用戶在本地運行適用于多云/混合架構的AWS基礎設施。用戶可以利用任何數據中心,托管空間或本地設施中的任何AWS服務,基礎架構或運營模型。
Google Anthos可使應用程序能夠在Google Cloud,私有數據中心(確實如此)和/或其他公共云(Azure和AWS)中運行。它使用戶真正成為不需可感知云和喜歡使用多云的人。
云提供商意識到不同的用例需要不同的環境,并且正在構建產品,允許其用戶從一個數據中心(云)靈活地遷移到另一個數據中心。
這些技術的好處是巨大的。用戶可以自由地在他們想要的任何地方輕松地部署,運行和管理其應用程序,同時滿足業務和技術要求。必須學習不同的環境和不同的API的日子已經一去不復返了。這些技術使企業可以避免供應商鎖定,通過使用更接近客戶的數據中心來獲得更好的性能(更少的延遲),幫助遵守數據治理要求(例如GDPR),并在發生故障時提供彈性。
在2020年,我們將看到企業在多云環境下的數量翻倍。隨著這些類型的服務逐漸成為主流,入門也變得容易。
關于作者
史蒂文·米(Steven Mih)是Alluxio的首席執行官。他在企業技術解決方案的銷售,業務開發和市場營銷方面擁有20多年的經驗。他的營銷經驗來自于一些領先的組織,包括Aviatrix,Couchbase,Transitive,Cadence Design Systems和AMD。
總結
以上是生活随笔為你收集整理的Kubernetes,多云和低代码数据科学:2020年最热门的数据管理趋势的全部內容,希望文章能夠幫你解決所遇到的問題。
                            
                        - 上一篇: 成本计算引擎动态规则解析技术详解
 - 下一篇: 性能优化 = 改改代码?