最新,2023年6月CDGP设计及论述题解析
2023年6月CDGP設計及論述題解析
(加gzh“大數據食鐵獸”,回復“2023cdgp”獲取完整版)
- 酒店會員建模
- 結合國內外數據安全法律法規,談談境外傳輸數據安全管理體系建設
國內:《數據安全法》、《網絡安全法》、2022年9月施行《數據出境安全評估辦法》國外:歐盟數據保護條令,美國國土安全法案和美國愛國者法、聯邦信息安全管理法、加拿大198法案等涉及到個人信息:《個人信息保護法》● 從以下幾個方面進行數據安全管理建設:(1)信息安全,包括:脆弱性、威脅、風險、加密、混淆/脫敏(2)網絡安全,包括:后門、機器人/尸、防火墻、DMZ、鍵盤記錄器、滲透測試、虛擬專用網(VPN)(3)數據安全,包括: 設施安全、設備安全、憑據安全、電子通信安全● 通過數據生命周期進行管理及建設:數據全生命周期包括規劃-設計/啟用-創建/獲取-存儲/維護-使用-增強及處置。規劃:將數據與安全和隱私需求關聯設計&啟用:”在系統中建立數據保護和安全措施創建/獲取:對新數據進行分類,以便合理保護數據存儲/維護:確保數據存儲符合政策法規的要求使用:管理訪問權限,以保證對數據的合理使用,防止濫用增強:在監管要求和識別新的安全威脅上保持領先處置:遵循有關政策和法規要求處理數據
- (1)主數據管理挑戰?(2)主數據管理目標?(3)如何識別主數據?(4)主數據管理實施步驟?
(1)挑戰:實體解析(身份管理),它是識別和管理來自不同系統和流程數據之間的關聯的過程。必須對這個過程進行持續的管理,讓這些主數據實體、實例和標識保持一致。(2)目標:確保組織在各個流程中擁有完整一致最新且權威的主數據、促使企業在各業務單元和各應用系統之前共享主數據。(3)主數據是關于業務實體的數據,主要包括參考數據、企業結構數據、交易結構數據。主數據實體的識別/解析步驟如下:1)匹配、2)標解析、3)配工作流和對帳類型、4)數據ID管理5) 從屬管理(4)步驟:識別驅動因素和需求、評價評估數據源、定義架構方法、建模主數據、定義管理職責和維護六、建立治理制度推動主數據使用。
- (1)如何構建數倉?(2)現代數據架構的特點?(3)數據倉庫及數據湖的異同點?(4)如何解決SCD問題?
(1)數據倉庫建設主要流程:1)理解需求2)定義和維護數據倉庫/商務智能架構3)開發數據倉庫和數據集市4)加載數據倉庫5)實施商務智能產品組合6)維護數據產品(2)現代數據架構的特點:大數據的特點:3V(數量大、類型多、變化快)+價值密度低、價值高數據架構的特點:湖倉一體化,流批一體化。典型的代表是Lambda架構和Kappa架構。這里可以根據分值展開講一講。(3)數據倉庫和數據湖的異同點:● 相同點:都可以用于大數據存儲和分析,面向企業級應用。都有著非常大的存儲容量和高效的數據存取速度。都支持批量和實時數據的處理,可以應對不同的數據處理需求。都面向企業決策和數據分析。● 異同點:數據結構:數據倉庫采用規范化的數據結構,而數據湖則支持任意的數據格式以及非規范化的數據存儲模式。數據來源:數據倉庫主要是通過ETL的方式從不同的數據源抽取數據之后,再進行清洗、整合加工。而數據湖則是將未被處理、未經過清洗的原始數據存儲在一個統一的存儲空間中,支持所有的數據格式直接讀取以及查詢。數據使用:數據倉庫主要用于企業決策和報表分析,是一種比較傳統的數據分析方式。而數據湖具有更加廣泛的應用范圍,可以支持包括大數據、機器學習、人工智能等多種領域。數據時效性:數據倉庫數據主要是歷史性數據記錄, 它被歸檔和批量處理,所以實際數據在數小時或數天以后才能獲得。而數據湖支持更加實時的數據處理和查詢,可以實時地獲取數據并進行處理。(4)SCD問題:一些維度表的數據不是靜態的,而是會隨著時間而緩慢地變化,這種隨著時間發生變化的維度稱之為緩慢變化維,把處理維度表數據歷史變化的問題,稱為緩慢變化維問題,簡稱SCD問題。解決方法:保留原始值、改寫屬性值、增加維度新行、增加維度新列、增加歷史表、使用拉鏈表保存歷史快照(推薦)。
- (1)如何確定數據質量管理的優先級順序?(2)結合本公司實際情況按照(1)順序構建數據質量管理體系
(1)數據質量管理應該從組織中最重要的數據入手。即質量更高,為組織及客戶提供更多價值。可以根據監管要求、財務價值和對客戶的直接影響等因素對數據進行優先級排序。(2)結合實際情況本公司數據內容及優先級排序(略)。構建數據質量管理體系的方法:根據數據的生命周期進行數據質量管理。規劃: 定義高質量數據的特征設計&啟用:定義系統和流程控制來規避數據問題產生,保持數據質量創建/獲取:測量或檢查數據,確保數據滿足質量要求存儲/維護:借助系統和流程檢測數據,確保數據能夠持續的滿足期望使用:使用反饋循環機制來持續提升數據的質量增強:就數據質量提升機會采取行動處置:基于數據質量要求正確地識別和提升數據
- 結合本公司實踐如何構建元數據管理體系,確保元數據質量
元數據是數據。與其他數據一樣,它也有一個生命周期我們必須對它的生命周期進行管理。規劃:定義元數據的需求設計&啟用:將創建和管理元數據作為正在進行的數據管理活動的一部分創建/獲取: 確保創建元數據并滿足質量要求存儲/維護:確保元數據保持當前狀態并繼續滿足需求使用:使用元數據,從數據中獲取價值。啟用反饋循環可以提高元數據質量增強:使用新知識增強現有的元數據,實現新的元數據需求處置:清除或歸檔過時的元數據● 步驟:按照質量管理步驟對元數據質量進行管理(1)定義高質量元數據、(2)定義元數據質量戰略、(3)定義初始評估范圍、(4)執行初始元數據質量評估.(5)識別改進并排列優先級、(6)定義元數據質量改進目標、(7)開發和部署元數據質量操作等方面。● 元數據活動:定義元數據戰略、理解元數據需求、定義元數據架構、黃建和維護元數據、查詢報告和分析元數據
- 超綱內容有哪些?
1、Data Mesh及Data Fabric
二者都是為了解決跨技術棧和平臺的數據接入和分析問題,讓數據還保留在原來的地方,而不是集中到一個平臺或者領域。Data fabric是以技術為中心,data mesh聚焦于方法論、組織協同上的變化。
更詳細內容參考:
10分鐘搞懂 Data Fabric 和 Data Mesh 的區別!- 知乎 (zhihu.com)
2、開源大數據組件(本次多選題中出現了Atlas)
常見的技術組件如下:
● 系統平臺 (Hadoop、CDH、HDP)
● 云平臺 (AWS、GCP、Microsoft Azure)
● 監控管理 (CM、Hue、Ambari、Dr.Elephant、Ganglia、Zabbix、Eagle、Prometheus)
● 文件系統 (HDFS、GPFS、Ceph、GlusterFS、Swift 、BeeGFS、Alluxio、JindoFS)
● 資源調度 (K8S、YARN、Mesos、Standlone)
● 協調框架 (ZooKeeper 、Etcd、Consul)
● 數據存儲 (HBase、Cassandra、ScyllaDB 、MongoDB、Accumulo、Redis 、Ignite、Geode、CouchDB、Kudu)
● 行列存儲 (Parquet、ORC、Arrow、CarbonData、Avro)
● 數據湖 (IceBerg、Hudi、DeltaLake)
● 數據處理 (MaxCompute、Hive、MapReduce、Spark、Flink、Storm、Tez、Samza、Apex、Beam、Heron)
● OLAP (Hologres、StarRocks、GreenPlum、Trino/Presto、Kylin、Impala、Druid、ElasticSearch、HAWQ、Lucene、Solr、 Phoenix)
● 數據采集 (Flume、Filebeat、Logstash、Chukwa)
● 數據交換 (Sqoop 、Kettle、DataX 、NiFi)
● 消息系統 (Pulsar、Kafka、RocketMQ、ActiveMQ、RabbitMQ)
● 任務調度 (Azkaban、Oozie、Airflow、Contab、DolphinScheduler)
● 數據安全 (Ranger、Sentry、Atlas)
● 數據血緣 (OpenLineage、Egeria、Marquez、DataHub)
● 機器學習 (Pai、Mahout、MADlib、Spark ML、TensorFlow、Keras、MxNet)
- 其他出現在選擇題目中容易忽略的知識點
1、數據管理的第一階段及第二階段包括哪些:第一階段:數據集成和互操作、數據存儲和操作、數據安全、數據建模和設計第二階段:數據架構、數據治理、元數據第三階段:數據治理、數據倉庫和商務智能、參考數據和主數據、文件和內容管理第四階段:大數據分析、數據挖掘2、數據架構的步驟:定義范圍、理解需求、設計、實施3、哪些是非結構化數據:文字處理文件、電子郵件、社交媒體、聊天室、平面文件、電子表格、xml文件、事務性信息、報告、圖形、數字圖像、微縮膠片、視頻和音頻。紙質文件中也存在大量非結構化數據。
總結
以上是生活随笔為你收集整理的最新,2023年6月CDGP设计及论述题解析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 技术干货 | 网易云信音视频通话产品中的
- 下一篇: ls-gl安装ssh