二维数组离散程度matlab,(十八)数据分析中的一些概念
(十八)數據分析中的一些概念
HIKAI
29 SEP 2017
0 Comments
矢量、向量、標量
矢量和向量是一個東西,只是在不同領域里面用到的不同稱呼。矢量常常用在物理學中,向量在數學、幾何中比較常見,同時具有大小和方向的量。與向量相對的是只有大小沒有方向的標量。
數組(array)與矩陣(matrix)
兩者最直觀的區別,數組中的元素可以是字符等,矩陣中的元素只能是數。因為矩陣是一個數學概念(線性代數里的),數組是個計算機上的概念。
從外觀形狀和數據結構上看,二維數組和數學中的矩陣沒有區別。但是矩陣作為一種變換或者映射算子的體現,矩陣運算有著明確而嚴格的數學規則。而數組運算是Matlab軟件所定義的規則,其目的是為了數據管理方便、操作簡單、指令形式自然和執行計算的有效。雖然數組運算尚缺乏嚴謹的數學推理,雖然數組運算仍在完善和成熟中,但是它的作用和影響正隨著matlab的發展而擴大。
序列/序列型的對象
序列是一類基本數據類型(字符串/列表/元組)的統稱,這些數據類型都含有一些共同的特性。例如:可以包含有若干個元素,這些元素有序排列,并且可以通過下標索引來訪問到其中的一個或幾個元素。
序列類型包含了:String字符串、Tuple元組、List列表。
秩
向量化/矢量化編程實現Vectorized implementation
向量化編程是提高算法速度的一種有效方法,它使你不用編寫循環即可對數據執行批量運算。為了提升特定數值運算操作(如矩陣相乘、矩陣相加、矩陣-向量乘法等)的速度,數值計算和并行計算的研究人員已經努力了幾十年。矢量化編程的思想就是盡量使用這些被高度優化的數值運算操作來實現我們的學習算法。代碼中盡可能避免顯式的for循環。
很多時候,我們在實現算法的時候,總會碰到累和的偽代碼,比如下面這個:
為了簡單,這里只重復5次,但是原理是一樣的。很顯然我們要得到這個結果,非常簡單,比如下面的這段Python代碼:
X = [1,2,3,4,5]
Y = [1,2,3,4,5]
res = 0
for i in range(1,5):
res+=X[i-1]*Y[i-1]
那么,我們有沒有更好的辦法呢?有的,看到X,Y都是向量,我們很容易想到向量化編程。
比如,改成下面這段代碼:
import numpy as np
X = [1,2,3,4,5]
Y = [1,2,3,4,5]
X_array = np.array(X)
Y_array = np.array(Y) #轉變為列向量
print X_array
print Y_array.reshape(5,1) #給它轉換為5*1矩陣
#下面是X_array是一個1*5的矩陣,而Y_array是一個5*1的矩陣了
res_temp = np.dot(X_array,Y_array)
print res_temp
上面這段代碼,其實最關鍵的就是一行代碼,就是np.dot(X_array, Y_array)這句話。
就已經能夠代替下面這段代碼了:
for i in range(1,5):
res+=X[i-1]*Y[i-1]
或者用下面這行代碼也行!
res_temp_2 = np.sum(X_array*Y_array)
這兩種形式比較常見!貼一下最后的結果截圖:
離散和連續
隨機變量是根據偶然性取值的變量。我們在談到隨機變量時,通常是以“概率分布”的形式來描述他們。也即:隨機變量落在每一個可能的值上的概率。典型的例子就是擲骰子,它有著同等的概率生成數字1到6.
在統計學中,變量按變量值是否連續可以分為連續變量與離散變量兩種。離散變量是指其數值只能用自然數或整數單位計算的,則為離散變量。例如,企業個數,職工個數,設備臺數等,只能按計量單位數計數,這種變量的數值一般用計數方法取得。
反之,在一定區間內可以任意取值的變量叫做連續變量,其數值是連續不斷的,相鄰兩個數值可作無限分隔,即可取無限個數值。例如,生產零件的規格尺寸,人體測量的身高,體重,胸圍等為連續變量,其數值只能用測量或計量的方法取得。
符號x如果能夠表示對象集合S中的任意元素,就是變量。如果變量的域(即對象的集合S)是離散的,該變量就是離散變量。如果它的域是連續的,它就是連續變量。
一般,我們會把隨機變量劃分為兩類:離散型隨機變量和連續性隨機變量。處理這兩類隨機變量的方式有所不同,但他們依據的原理是相同的。我們很容易便能看到基于隨機變量的模型在金融領域是如何派上用場的:金融資產價格的波動(這里指股價),常常按照“確定模型”和“隨機模型”兩者之一來解讀。而隨機模型是通過隨機變量來表示。在隨機模型中,我們在每個時間單位對隨機變量進行采樣,根據這些采樣結果得到隨機模型的參數,從而將其作為一種金融工具來預測股價的變動。使用這種分析模式,是因為金融資產中的大部分價格波動無法通過確定性模型給出合理的解釋。
隨機變量服從“概率分布”的,它是用來描述隨機變量的函數。這個概率分布函數囊括了隨機變量所有可能的取值情況下,所對應的概率。對于給定的隨機變量X,我們用符號P(X=x)表示隨機變量X=x的概率。對于離散型隨機變量,我們進一步簡寫為p(x)代替P(X=x)。這也被稱為概率質量函數(probability mass function,以下簡稱PMF)。而對于連續性隨機變量我們不能使用PMF,我們只能使用概率密度函數(probability density function, PDF)。
離散型隨機變量,是定義在一個可以窮盡的結果集中的變量。對于隨機變量可能出現的值,都有一個單獨的與之對應的概率。考慮一下拋硬幣或是擲骰子,它們都是遵循最基本的等概率均勻分布的離散型隨機變量。前者有兩種可能出現的結果,正面或反面,對應發生的概率都是1/2。然而,離散型隨機變量并非總是等概率分布的,而是由變量的概率質量函數p(x)決定的。函數為概率分布域中的每個點給出其可能出現的概率(質量)。
概率函數有兩個基本屬性:
1.0 ≤ p(x) ≤ 1
2.對于結果集中的所有情況,它們對應的概率之和為1
第一點,對于隨機變量出現的所有可能情況(比如骰子中的點數),每種情況對應的概率一定介于0(一定不出現)和1(100%會出現)之間。
第二點,對于離散型隨機變量結果集已經窮盡了所有可能出現的情況,因此總體來看,它們的并集是一個必然事件。(還是拿骰子舉例:骰子每次投擲出現的結果必然是落在數字1到6之間,也就是100%會落在1到6中的某個數字。當數字1出現的概率為 1/6 時,意味著可能出現其他5個數字的概率為 5/6 )。
標準差和標準差系數
標準差:Standard Deviation,計算公式是
,標準差能夠反映一個數據集的離散程度。
標準差系數:變異系數???,coefficient of variation,計算公式是
。
標準差并不是在所有情況下都適用,它受幾個因素影響:離散程度、數據水平和計量單位。不同數據水平、不同計量單位的數列不能使用標準差來判斷離散程度。
總結
以上是生活随笔為你收集整理的二维数组离散程度matlab,(十八)数据分析中的一些概念的全部內容,希望文章能夠幫你解決所遇到的問題。