一、数据与统计资料
1.1商務在經濟中的應用
會計、財務、市場、生產、經濟、信息系統
1.2數據
1)個體、變量、觀測值
測量尺度:
搜集數據需要按下列幾種測量尺度之一來度量∶名義尺度、順序尺度、間隔尺度和比率尺度。測量尺度決定了數據中蘊涵的信息量,并表明最適合的數據匯總和統計分析方法。
當一個變量的數據包含了用來識別個體屬性的標記或名稱時,測量尺度被稱為名義尺度(nominal scale)。<!--類似于標簽-->
如果數據具有名義數據的性質,并且數據的順序或等級的意義明確,那么這種變量的測量尺度是順序尺度(ordinal scale)。<!--類似評級、等級-->
如果數據具有順序數據的所有性質,并且可以按某一固定度量單位表示數值間的間隔,則這種變量的測量尺度是間隔尺度(interval scale)。間隔數據永遠是數值型的。<!--有間隔,而且有排序-->
如果數據具有間隔數據的所有性質,并且兩個數值之比是有意義的,則這種變量的測量尺度是比率尺度(ratio scale)。<!--像距離、高度、重量和時間等-->。比率尺度需要有一個零值,變量取零值時表示什么也不存在。
2)分類型數據和數量型數據
屬于某一類別的數據稱為分類型數據(categorical data),分類型數據既可以用名義尺度度量,也可以用順序尺度度量。
用于表示大小或多少的數值稱為數量型數據(quantitutive data)。數值型數據既可以用間隔尺度度量。也可以用比率尺度度量。
分類變量(categorical variable)是用分類型數據表示的變量,數量變量(quantitative variable)是用數量型數據表示的變量。統計分析方法是否適合一個特定變量,取決于變量是分類變量還是數量變量。
3)截面數據和時間序列數據
截面數據:是在相同或近似相同的時間點上收集的數據。
時間序列數據是在幾個時間期間收集的數據。
一個觀測是為了數據集中每一個體獲得的度量集。因此,觀測個數總是與個體的個數相同。對每一個體取得的度量個數等于變量個數。因此,數據集中的數據值總個數是個體的個數乘以變量個數。
4)數據來源
鄧白氏、彭博社和道瓊斯公司是三家能夠為客戶提供大量商業數據服務的公司。
ACNielsen 和 Information Resources公司也成功地為廣告商和制造商提供商務數據搜集和加工服務。
數據也可從各類行業協會和專門營利的機構中獲得。
政府機構是現有數據的另一個重要來源。
互聯網是數據和統計信息的一個重要來源。
觀測性調查:
在一個特定情況下,觀測性研究是我們僅觀測發生了什么,記錄一個或多個感興趣變量的數據,并對結果數據進行統計分析。
調查和民意調查是另外兩種通常用于觀測性研究的例子。
實驗
要注意:時間與成本問題及數據采集誤差
1.3統計推斷與邏輯分析方法
5)描述統計及統計推斷
總體 總體是在一個特定研究中所有感興趣的個體組成的集合。
樣本 樣本是總體的一個子集。
搜集總體全部數據的調查過程稱為普查(census)三,搜集樣本數據的調查過程稱為抽樣調查(sample survey)。統計學的一個主要貢獻就是利用樣本數據對總體特征進行估計和假設檢驗,這一過程被稱為統計推斷(statistical inference)。
6)邏輯分析方法
邏輯分析方法(analytics)三是將數據轉化為做出好決策見解的科學過程。邏輯分析方法利用數據驅動或事實基礎做出決策,在做決策時它通常被認為比其他方法更為客觀。邏輯分析方法的工具能通過從數據中得出的見解輔助制定決策,提高我們更準確地預測計劃的能力,幫助我們量化風險,以及通過分析產生更好的選擇。邏輯分析方法可以涉及從簡單的報告到最先進的優化技術(尋找最佳行動過程的算法)等多種技術。現在邏輯分析方法一般被認為包含三大類別的技術,它們是描述性分析、預測性分析和規范性分析。
-
描述性分析(descriptive analytic)s)包含描述過去發生狀況的分析技術集合。
這類技術的例子是數據查詢、報告、描述統計、數據可視化、數據儀表板和基本的"如果……,則……"型電子表格模型。
-
預測性分析(predictive analytic)包含利用過去數據建立的模型來預測未來或評估一個變量對另一個變量的影響的分析技術。
線性回歸、時間序列分析和預測模型屬于預測性分析。模擬是為更好地了解風險的概率論和統計計算機模型的使用,也歸屬于預測性分析。
-
規范性分析(prescriptive analytic))是產生一個最佳行動過程的分析技術集合。
規范性分析有別于描述性分析和預測性分析。規范性分析的區別在于規范模型會產生一個最好的行動過程,即規范模型的結果是最佳決策。
在一組約束條件下產生最大或最小目標的解決方案的優化模型屬于規范性模型。航空業營業管理的應用是規范模型的例子,航空業用過去的購買數據作為投入輸入模型,得到最大限度地提高公司收入的所有航班的定價策略。
統計研究如何與邏輯分析方法有關?
大多數描述性和預測性分析技術來自概率論和統計學,其中包括描述統計、數據可視化、概率和概率分布、抽樣以及預測建模(包括回歸分析和時間序列預測)。
7)大數據和數據挖掘
大數據(big data)許多人認為如果它作為一個數據集,則該數據集無法進行管理、處理或在合理的時間內用常用的軟件分析。
許多數據分析家將大數據定義為3V數據∶容量(volume)、速度(velocity)和種類(variety)。
-
容量指可利用的數據量(現在用于測量的典型單位是1TB,它等于10P個字節);
-
速度指獲得和處理數據的速度;
-
種類指數據類型的多樣性。
術語數據倉庫是指獲取、儲存和維護數據的過程。
數據挖掘(data mining)問題是研究從非常大的數據庫中開發有用的決策信息的方法。利用統計學、數學和計算機科學的綜合方法,分析人員在倉庫中"挖掘數據",并將其轉化為有用的信息,取名為數據挖掘。
數據挖掘領域的先驅 Kurt Thearling 博士定義數據挖掘為"從(龐大的)數據庫中自動提取預測性的信息"。Thearling 博士的定義中的兩個關鍵詞是"自動"和"預測性的"。
擁有大型客服中心的公司(如零售商、金融機構和通信公司)成為數據挖掘的主要應用者。
計算機與統計分析
大數據需要特殊的數據操作和分析工具,像對大量數據集分布式處理的開放源代碼軟件 Hadoop、開放源代碼編程語言R 以及商用軟件包SAS和 SPSS 都用于大數據的實踐。
1.4統計實踐的道德準則
在統計研究中,不道德行為的形式很多,其中包括不正確的抽樣、不恰當的數據分析、誤導性的圖表繪制、不恰當的統計摘要使用和統計結果的片面解釋,等等。
在美國統計協會報告的共享價值部分有一條準則提出,統計從業人員應當避免任何對預測結果有傾向性的統計工作。
關鍵用語:
統計學(St a t i s t i c s )收收集、分析、表述和解釋數據的藝術和科學。
數據( D a t a )收被收集、分析和解釋的事實與數字。
數據集(Data set)收一特定研究中所有收集的數據。
個體( E l e m e n t s )收從中收集數據的實體。
變量( Va r i a b l e )收個體的某種令人感興趣的屬性。
觀測值( O b s e r v a t i o n )收為單個個體獲取的度量集。
品質數據(Qualitative data)收為一個體的性質提供標記或名稱的數據。品質數據可能是非數值
或數值型的。
品質變量(Qualitative variable)收有關品質數據的變量。
數量數據(Quantitative data)收表明某事多少的數據。數量數據總是數值型的。
數量變量(Quantitative variable)收有關數量數據的變量。
截面數據(Cross-sectional data)收在同時或近似相同時點收集的數據。
時間序列數據( Time series data)收在幾個連續期間收集的數據。
描述統計學(Descriptive statistics)收用于匯總數據的表、圖和數值方法。
總體(Po p u l a t i o n )收一特定研究中所有感興趣個體的集合。
樣本( S a m p l e )收總體的一個子集。
統計推斷(Statistical inference)收利用從一個樣本獲得的數據對總體性質進行估計或假設檢驗的過程。
總結
- 上一篇: 多线程编程-条件变量
- 下一篇: 【iOS 开发】基础控件:UISwitc