什么是数据?数据科学家需要掌握哪些技能?终于有人讲明白了
導讀:人們認為“數據”一詞自16世紀伊始便已被定義和使用了。隨著計算機技術的進步,數據一詞變得越發流行。然而,數據不僅限于計算機科學和電子學領域,各個領域的應用在某種程度上使用并產生了數據。
各種數據源每天都產生大量的數據。這些數據源包括每日的交易數據,由傳感器產生的數據,由上網產生的并存儲在服務器上的數據,由用戶產生的數據以及提供給用戶的數據等。換言之,數據隨處可見。在這些數據源中,網絡數據源是最大的。
如果通過適當的技術使這些數據變得有用,那么這將為問題求解和決策制定提供很大的幫助。
作者:拉金德拉·阿卡拉卡(Rajendra Akerkar)
如需轉載請聯系大數據(ID:hzdashuju)
01?什么是數據?
數據是來自某個領域的原始觀測值。原始數據是一組事實的集合,比如數字、單詞、測量值,或者事物的文本說明。單詞“數據”(data)來自于拉丁文“datum”,其含義為給定的事物。
數據是無處不在的,亦是事物測量儀器化的重要單位。所有的實體直接或間接地與事務相關,如商業中的客戶、商業業務的組成部分,以及處理業務的外部實體,這些實體產生了大量的數據。
數據通常被看作是為了參考或分析而收集在一起的事實、統計資料和觀測值。數據為推理和計算提供了基礎。
數據既可以是定性的,也可以是定量的。定性數據的例子如人們描述一輛車多豪華,或者香水的味道(多么好聞的味道!)。
定量數據的例子如描述一輛車有4個輪子。后者關于車的例子描述了可數的物品,因此其本質是離散的。另一方面,“我的體重是150磅”是一個連續的定量數據的例子。樹的高度、比賽花費的時間以及人的身高等也是連續的定量數據的例子。
02?數據科學
數據科學對不同的數據源進行系統地研究和分析,理解數據的含義,并運用數據作為工具實現有效的決策制定和問題求解。從這些數據中獲取知識有助于組織機構在成本、交付和生產力方面更高效,確定新的機遇,并建立強大的品牌形象。
數據科學的目的是促進與數據相關的各種流程的應用,例如數據獲取、清洗噪聲的數據預處理、數據表示、數據評估、數據分析,以及數據創建相關知識的運用。數據科學在新方法分享、優化地管理和分析數據方面做出了貢獻。
數據科學的目標是發現知識,這些知識有助于在個人、組織機構以及全球層面上進行決策。除了識別、收集、表示、評估以及利用數據來發現知識,數據科學亦促進了數據的有效運用,有助于在計算開銷、質量和準確性方面進行優化。
可以想到,數據科學領域最終出現的機會便是大數據—通過分析由網絡日志、傳感器系統、事務數據生成的大數據,能夠產生有效的洞察力并派生新數據產品。
03 現代商業中數據科學的重要性
盡管數據被稱作新商業時代的貨幣,但是僅擁有數據是不夠的。為了達到更好且有效地利用數據的目的,我們必須以適當的方式處理和分析數據來獲取對某一特定領域的深入洞察力。特別地,當數據來自多個數據源時,這些數據不具有特定的格式,并且還伴有很多的噪聲,那么就必須對這些數據進行清洗、整理、分析和建模。
數據科學在商業的各個方面都具有其適用性。各個業務活動都會產生大量的數據。擁有如此大量的數據應該是一種理想的狀態;相反,這些數據會因其量大、無構造性和冗余性的特點而產生大量的問題。
很多研究者將一些參數如容量、速度以及多樣性視為處理數據的主要障礙。根據Eric Horvitz、Tom Mitchell(2010)以及James Manyika 等人(2011)的研究,適當地分析和使用上述大數據可以提供解決問題的機會,加速經濟增長并提高生活質量。
由于我們對適當地使用和理解這些數據的局限,該數據沒能促進生活質量反而使我們的生活變得悲催,這真是一種諷刺。很多研究者和創新貢獻者給出了處理大數據的有用的模型和技術,然而我們仍需要一種全面且聚焦的方法。
在Thomas H. Davenport、Don Cohen和Al Jacobson(2005)給出的調查中,一些數據科學的踐行公司確認了一些關鍵的特性和參數。這項調查包含了32家在不同領域成功踐行數據科學的公司,這些公司基于數據科學和分析獲得了競爭優勢。
根據上述研究,這些公司給出了以下的主要觀測情況:
有不止一種類型的數據科學家和專家以增長業務為目的對數據進行分析,并從事與數據科學相關的工作。
不僅是統計數據,還有深度數據分析、建模和可視化技術也用于與業務相關的決策。
數據科學活動不僅限于小部分商業業務,也可應用于多種業務活動中。
公司策略傾向于使用數據分析和數據科學活動。
很多公司被數據科學的應用所吸引,并將其用于改進業務活動;然而他們并不了解這些數據科學活動怎樣規劃以及如何修正經營策略。
第一個需求便是技術嫻熟的數據科學家和專家,這些專業人士能夠設想到可能的組織效益和技術收益。為了實現與數據科學相關的活動,預想到對資源和基礎設施的需求是十分必要的。鑒別可能的數據源和訪問權限以及獲取數據所需要的方法也是十分必要的。
專家也能夠提供關于其他領域的專家、工具和模型的可用性指導,有助于進行數據處理。預先估計數據科學活動中的活動規劃,領域專家能夠識別將會遇到的困難。一旦選定了數據科學家或者專家,活動規劃的下一步便是確認邁向目標將要面臨的困難。
第二步即是學習并確立數據科學技術。統計學方法、建模、程序設計、可視化、機器學習以及數據挖掘等技術對于進行數據科學活動都是必不可少的。
第三步是活動導向步驟。在局部層面上移除已確定的不利因素,并給出糾正措施。應用數據科學的主要困難是數據的可用性、數據的收集以及為獲取充分意義而對已獲取數據進行的組織。另外,需要確定適用于數據收集的模型。因此,需要針對特定應用來設計模型或技術。
第四步便是利用已收集的數據和挑選出的方案實現數據科學活動。收集的數據必須是干凈的、分析過的,還要用適合的模型處理并以良好的方式呈現給用戶。
在這一階段中,為了高效地實現模型可以對挑選出的方案進行較小的變動。上述活動如圖1-1所示。
▲圖1-1 數據科學活動的大致階段
由于上述數據科學活動是一個早期版本,因此這些活動通常在局部層面上執行,或者局限于給定的場景中。如果得到的結果看起來是有希望的,并且與商業目標一致,那么便以擴展的形式在組織層面上設計類似的數據科學活動,并對其進行實驗。隨后,為取得競爭優勢,數據科學活動是以一種綜合的方式來進行的。
04 數據科學家
數據科學家是數據獲取、數據清洗、數據表示和數據分析中的關鍵人物。他(數據科學家)精心地策劃各種各樣的商業活動,協調各業務部門并管理業務的生命周期。
為了進行上述工作,數據科學家必須具有多領域的知識和多方面的能力。除此之外,數據科學家還必須具備同時進行多個項目的能力。最理想的是,他應具有分析、機器學習、數據挖掘和統計數據處理等多方面能力,具備一點計算機程序設計能力也是可取的。
依賴于公司(organization)的性質、規模以及業務范圍,數據科學家的工作將發生變化。他工作于以數據處理為主要業務的公司。在這種情況下,對數據科學家而言機器學習和統計數據處理是十分重要的技能。
一些公司在某些階段需要通過高效的基礎設施處理大量數據。在此情況下,數據科學家有助于構建數據基礎設施和其他資源(包括人力資源)。數據科學家期望在軟件工程方面具有入門背景知識。
一些公司不是數據驅動的,也不必處理和分析數據,但是這些公司擁有適量的數據。從這些數據中發現知識十分有助于公司的業務活動。多數情況是,大公司都屬于這一類。在這種情況下,除了基本的技能,數據科學家應展現出數據可視化的能力。表1-1給出了數據科學家必備的基本技能。
換言之,數據科學家在業務分析、統計學和計算機科學領域是個多面手,精通架構健壯性、實驗設計、算法復雜度、儀表數據和數據可視化等領域。數據科學家在數據科學中首屈一指,具備對內部和外部數據進行結合的權限,以給出能夠提高商業決策能力的洞察力。
▲表1-1 數據科學家的重要技能
①http://www.r-project.org/
②https://www.python.org/
③http://dygraphs.com/
本文摘編自《大數據分析與算法》,經出版方授權發布。
延伸閱讀《大數據分析與算法》
點擊上圖了解及購買
轉載請聯系微信:DoctorData
推薦語:本書系統介紹如何用主流智能技術實現大數據分析。詳細介紹了數據科學領域的相關智能技術,包括數據分析、基本學習算法、模糊邏輯、人工神經網絡、基因算法和進化計算、使用R語言進行大數據分析等。
據統計,99%的大咖都完成了這個神操作
▼
更多精彩
在公眾號后臺對話框輸入以下關鍵詞
查看更多優質內容!
PPT?|?報告?|?讀書?|?書單?|?干貨?
大數據?|?揭秘?|?Python?|?可視化
AI?|?人工智能?|?5G?|?區塊鏈
機器學習?|?深度學習?|?神經網絡
1024?|?段子?|?數學?|?高考
猜你想看
你為什么選擇Python?4000名用戶提到了這些原因
回顧計算機產業發展的4個階段:美國企業統治全球市場了嗎?
結婚生娃和去核電站參觀,哪個更安全?
5G時代必讀的6本技術書
Q:?數據科學家的必備技能,你掌握了嗎?
歡迎留言與大家分享
覺得不錯,請把這篇文章分享給你的朋友
轉載 / 投稿請聯系:baiyu@hzbook.com
更多精彩,請在后臺點擊“歷史文章”查看
點擊閱讀原文,了解更多
總結
以上是生活随笔為你收集整理的什么是数据?数据科学家需要掌握哪些技能?终于有人讲明白了的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 婚姻大数据:姐弟恋最靠谱,男同学们,小姐
- 下一篇: 中台到底是什么?传统企业怎样建设中台?