大数据知识点
大數據的定義:一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力范圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低四大特征。
從狹義上講,大數據主要是指大數據技術及其在各個領域中的應用。數據規模非常大,大到無法在一定時間內用一般性的常規軟件工具對其內容進行抓取、管理和處理的數據集合;大數據對海量數據的獲取、存儲、管理、計算分析、挖掘與應用的全新技術體系。
以IDC為代表的業界則認為大數據具備4V特點。
大家公認的是大數據具有四個基本特征:
數據規模大,數據種類多,處理速度快以及數據價值密度低,即4V。
數據獲取
網絡爬蟲
網絡爬蟲(又稱為網絡蜘蛛、網絡機器人,在FOAF社區中更經常稱為網頁追逐著)是按照一定的規則自動抓取萬維網信息的程序或腳本。
網絡爬蟲是一個功能很強的自動提取網頁的程序,它為搜索引擎從萬維網上下載網頁。
整個搜索引擎系統主要包四個模塊,分別為信息搜索模塊、信息索引模塊、信息檢索模塊和用戶接口部分,而網絡爬蟲便是信息搜索模塊的核心。
系統架構
在網絡爬蟲的系統框架中,主過程由控制器、解析器、資源庫三部分組成。
控制器的主要工作是負責給多線程的各個爬蟲線程分配工作任務;
解析器的主要工作是下載網頁,進行網頁的處理,JavaScript腳本標簽、CSS代碼內容、空格字符、HTML標簽等內容處理掉;
資源庫用來存放下載到到網頁資源,如Oracle數據庫。
抓取對象
靜態網頁
動態網頁
特殊內容
文件對象
抓取策略
深度優先策略
深度優先策略是在開發爬蟲早期使用較多的方法,它的目的是要達到被搜索結構的葉節點(即那些不包括任何超鏈接HTML文件)。
深度優先搜索沿著HTML文件上的超鏈接走到不能再深入為止,然后返回到某一個HTML文件,再繼續選擇該HTML文件中的其他超鏈接。
當不再其他超鏈接可選擇時,說明搜索已經結束。
這種策略的優點是能遍歷一個Web站點或深層嵌套的文檔集合。缺點是因為Web結構相當深,有可能造成一旦進去再也出不來的情況發生,
廣度優先策略
因為這個方法可以讓爬蟲網絡爬蟲并行處理,提高其抓取速度,廣度優先搜索策略通常是實現爬蟲的最佳策略。
RSS簡易信息聚合
RSS能實現以下功能:
訂閱BLOG
訂閱新聞
訂閱雜志文章
訂閱最新搜索結果
快速、高效地瀏覽
第三方
第三方指兩個相互聯系的主體之處的某個客體。
數據挖掘
概述
技術:數據挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中提取隱含在其中的、人們事先不知道的,但又是潛在有用的信息和知識的過程。這一定義包括幾層含義:數據源必須是真實的、海量的、含噪聲的;發現的用戶感興趣的知識;發現的知識要可接受、可理解、可運用;并不要求發現放之四海皆準的知識,僅支持特定的發現問題。
數據挖掘其實是一類深層次的數據分析方法。
數據挖掘可以描述為:按企業既定業務目標,對大量的企業數據進行探索和分析,揭示隱藏的、未知的或驗證已知的規律性,并進一步將其模型化的有效方法。
數據挖掘是交叉學科,涉及數據庫系統、數據倉庫、統計學、機器學習、可視化、信息檢索和高性能計算等諸多領域。
數據挖掘還與神經網絡、模式識別、空間數據分析、圖像處理、信號處理、概率論、圖論和歸納邏輯的領域關系密切。
數據挖掘與傳統數據分析方法主要有以下兩點區別:首先,數據挖掘的數據源與以前相比有了顯著的改變,包括數據是海量的,數據有噪聲,數據可以是非結構化的。其次,傳統的數據分析方法一般都是先給出一個假設,然后通過數據驗證,在一定意義上是假設驅動的;與之相反,數據挖掘在一定意義上是發現驅動的,模式都是通過大量的搜索工作從數據中自動提取出來的。即數據挖掘是要現那些不能靠直接發現的信息或知識,甚至是違背直覺的信息或知識,挖掘出的信息越是出乎意料,就可能越有價值。
現狀與未來
數據挖掘本質上是一種深層次的數據分析方法。數據挖掘的研究重點逐漸從發現方法轉向系統運用,注重多種發現策略和技術的集成以及多學科之間的相互滲透。
數據分析
概述
使用數據,讓數據顯示出它本身的威力,總結下來有以下幾個方面:看歷史數據,發現規律;從歷史數據和現有數據中發現端倪,找出問題所在;數據預測;學會拆解數據。要會對數據進行拆分,知道每個數據都是來自哪些方面,增高或降低的趨勢是什么。
數據分析流程
明確分析目標與框架? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 明確分析目的與進行數據分析的先決條件,為數據分析提供了方向。? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 一個分析項目,數據對象是什么?商業目的是什么?要解決什么業務問題?對這些問題都要了然于心。? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 要基于對商業的理解,整理分析框架分析思路,例如減少新客戶的流失、優化活動效果、提高客戶響應率等。不同的項目對數據的要求以及使用分析手段都是不一樣的。
數據收集
數據收集是通過數據庫和其他媒介按照確定的數據分析和框架內容,有目的地收集、整合相關數據的過程,它是數據分析的基礎。
數據處理
? ? ? ?數據處理是指對收集到的數據進行加工、處理,以便開展數據分析,它是數據分析前必不可少的階段。這個過程是數據分析整個過程中最占據時間的,也在一定程度上取決于數據倉庫的搭建和數據質量的保障。
? ? ? ?數據處理包括主要包括數據清洗、數據轉化、提取、計算等處理方法。
數據分析? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?數據分析是指通過分析手段、方法和技巧對準備好的數據進行探索、分析,從中發現因果關系,內部聯系和業務規律,為商業的目的提供決策參考。
數據展現
? ? ? ?一般情況下,數據分析的結果都是通過圖表、表格、文字的方式來呈現。
借助數據展現手段,能更直接地表述想要呈現的信息、觀點和建議。常用的圖表包括餅圖、折線圖、柱形圖/條形圖、散點圖、雷達圖、金字塔圖、矩陣圖、漏斗圖、帕累托圖等
撰寫報告? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 最后一個階段就是撰寫數據分析報告,這是對整個數據分析成果的一個呈現。通過分析報告,把數據分析的目的、過程、結果及方案完整的呈現出來。
數據分析方法? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 常用數據分析方法有以下幾種:聚類分析、因子分析、相關分析、對應分析、回歸分析、分差分析。
數據分常用的圖表表示方法有以下幾種:柏拉圖,直方圖,散點圖,魚骨圖,FMEA。
數據分析工具:常用的數據分析工具有MATLAB、SPSS、SAS、Excel、R等。
Hadoop? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?簡介
Had oop是由Apache基金會開發的分布式系統基礎架構。Hadoop實現了一個分布式文件系統(HDFS)。HDFS有高容錯性 ,并且設計用來部署在低廉的硬件上;而且它提供高吞吐量來訪問應用程序的數據,適合那些有超大數據集的應用程序而去。HDFS放寬了POSIX的要求,可以以流的形式訪問文件系統中的數據。Hadoop框架最核心的設計是HDFS和MaReduce 。HDFS為海量的數據提供了存儲功能,而MapReduce為海量的數據提供了計算功能。Hadoop目前主要應用于互聯網企業,用于數據分析、機器學習、數據挖掘等。
Hadoop使用主/從架構。在主節點的服務器中會執行兩套程序:一個是負責安排MapReduce運算層任務的JobTracker,另一個是負責管理HDFS數據層的NameNode程序。
分布式離線計算框架MapReduce
概念
Map和Reduce是編程語言中的概念,都是處理數據集合函數。兩者的不同主要有兩點:第一,Map在處理數據序列的過程中處理當前的數據信息,不需要與之前處理的狀態信息交互,而Redure處理過程中卻依賴之前處理的結果,同時生成的結果也被后續的處理使用。第二,Map只是遍歷數據,數據處理無關先后;Reduce是在遍歷的過程中生成聚合信息。
總結
- 上一篇: 京瓷2211打印机清零_打印机墨粉盒清零
- 下一篇: java语言 编译原理_【Java学习】