大数据系统基础导论
大數(shù)據(jù)系統(tǒng)基礎(chǔ)導(dǎo)論
1、從數(shù)據(jù)到大數(shù)據(jù)
當(dāng)輸入數(shù)據(jù)x大到超出了一定的計(jì)算能力c或可容忍的時(shí)間t,即成為大數(shù)據(jù)問(wèn)題
amplab最火的實(shí)驗(yàn)室 在大數(shù)據(jù)的背景下,緊密結(jié)合算法(Algorithms)、分布式系統(tǒng)(Machines)和大量用戶(People)的研究 主要成員: Michael Franklin 教授 (數(shù)據(jù)庫(kù)方向)、 Michael Jordan 教授(機(jī)器學(xué)習(xí))、Ion Stoica 教授 (操作系統(tǒng)方向) 2、大數(shù)據(jù)典型應(yīng)用
3、大數(shù)據(jù)的特點(diǎn) volume/variety/velocity/veracity/value 大數(shù)據(jù)分析的生命周期:獲取記錄-抽取清洗-集成聚合-分析建模-解釋展示 大數(shù)據(jù)挑戰(zhàn):異構(gòu)、規(guī)模、時(shí)效、隱私、協(xié)同 大數(shù)據(jù)的質(zhì)量:精確性、一致性、完整性、時(shí)效性 4、大數(shù)據(jù)技術(shù)體系 大數(shù)據(jù)技術(shù)體系現(xiàn)狀
傳統(tǒng)數(shù)據(jù)質(zhì)量僅通過(guò)ETL方式執(zhí)行(抽取、轉(zhuǎn)換、加載,包括解析、模式分析等) 補(bǔ)充:1、Hash(哈希),一般翻譯做“散列”,就是把任意長(zhǎng)度的輸入(又叫做預(yù)映射, pre-image),通過(guò)散列算法,變換成固定長(zhǎng)度的輸出,該輸出就是散列值。這種轉(zhuǎn)換是一種壓縮映射。 2、不同的輸入可能會(huì)散列成相同的輸出,所以不可能從散列值來(lái)唯一的確定輸入值。 3、簡(jiǎn)單的說(shuō)就是一種將任意長(zhǎng)度的消息壓縮到某一固定長(zhǎng)度的消息摘要的函數(shù)。 5、大數(shù)據(jù)生態(tài)體系 1): GFS - Google文件系統(tǒng) 2): BigTable – Google大表 3): Google MapReduce Google提出的一個(gè)用于大規(guī)模數(shù)據(jù)集的、適于低成本硬件機(jī)群的、可靠容錯(cuò)的、 并行運(yùn)算軟件框架 SEDA(Stage Event-Driven Architecture)模型:分階段的事件驅(qū)動(dòng)架構(gòu) 4): Chubby – Google 胖子
5)Berkeley不需要頻繁讀寫,比Hadoop高效。
6、大數(shù)據(jù)技術(shù)挑戰(zhàn)
amplab最火的實(shí)驗(yàn)室 在大數(shù)據(jù)的背景下,緊密結(jié)合算法(Algorithms)、分布式系統(tǒng)(Machines)和大量用戶(People)的研究 主要成員: Michael Franklin 教授 (數(shù)據(jù)庫(kù)方向)、 Michael Jordan 教授(機(jī)器學(xué)習(xí))、Ion Stoica 教授 (操作系統(tǒng)方向) 2、大數(shù)據(jù)典型應(yīng)用
3、大數(shù)據(jù)的特點(diǎn) volume/variety/velocity/veracity/value 大數(shù)據(jù)分析的生命周期:獲取記錄-抽取清洗-集成聚合-分析建模-解釋展示 大數(shù)據(jù)挑戰(zhàn):異構(gòu)、規(guī)模、時(shí)效、隱私、協(xié)同 大數(shù)據(jù)的質(zhì)量:精確性、一致性、完整性、時(shí)效性 4、大數(shù)據(jù)技術(shù)體系 大數(shù)據(jù)技術(shù)體系現(xiàn)狀
傳統(tǒng)數(shù)據(jù)質(zhì)量僅通過(guò)ETL方式執(zhí)行(抽取、轉(zhuǎn)換、加載,包括解析、模式分析等) 補(bǔ)充:1、Hash(哈希),一般翻譯做“散列”,就是把任意長(zhǎng)度的輸入(又叫做預(yù)映射, pre-image),通過(guò)散列算法,變換成固定長(zhǎng)度的輸出,該輸出就是散列值。這種轉(zhuǎn)換是一種壓縮映射。 2、不同的輸入可能會(huì)散列成相同的輸出,所以不可能從散列值來(lái)唯一的確定輸入值。 3、簡(jiǎn)單的說(shuō)就是一種將任意長(zhǎng)度的消息壓縮到某一固定長(zhǎng)度的消息摘要的函數(shù)。 5、大數(shù)據(jù)生態(tài)體系 1): GFS - Google文件系統(tǒng) 2): BigTable – Google大表 3): Google MapReduce Google提出的一個(gè)用于大規(guī)模數(shù)據(jù)集的、適于低成本硬件機(jī)群的、可靠容錯(cuò)的、 并行運(yùn)算軟件框架 SEDA(Stage Event-Driven Architecture)模型:分階段的事件驅(qū)動(dòng)架構(gòu) 4): Chubby – Google 胖子
5)Berkeley不需要頻繁讀寫,比Hadoop高效。
6、大數(shù)據(jù)技術(shù)挑戰(zhàn)
總結(jié)
- 上一篇: Windows 7镜像安装Windows
- 下一篇: XIRR内部收益率