當常態分布搞上標準差


常態分佈(Normal distribution)又名高斯分佈(Gaussian distribution),是一個在數學、物理及工程等領域都非常重要的機率分佈,在統計學的許多方面有著重大的影響力。(維基)



常態分布(以下簡稱ND)在現實生活中是相當常見的東西(茶)。


舉例來說,彰化高中每個人的身高作統計調查,繪成直線分布圖,會形成一個接近ND的情況。

但是在特殊的母群體下(比如說收入等等),每個人的收入不盡相同。以上面那個圖來說明好了,收入的狀況當然不可能會這麼漂亮,事實上在左邊的地方會顯得狹窄,最右邊的地方會拉到很遠(想像最右邊有一個謝董拿著哀鳳在玩,就知道那條線會被拉多遠了)。那種右邊特別遠的分布情況稱為右偏曲線(扯遠了XD)。再打個比方,大家都知道現在正邁入可怕的M型社會(糟糕......大家都變成M就沒有S了啊=口=|||),顯然跟ND相去甚遠,那怎麼又會說在現實生活中常見呢?

是的,為了解除大家這種憂慮,就先不管母群體的分布,單單考慮抽樣出來的樣本分布就可以了!

實際上,我們不可能對每件事一一調查它的母群體(那太恐怖了),於是我們才建立了抽樣調查等系統。而我們在建立這些抽樣系統的目的,就是為了透過樣本,了解整個母群體!

好,我們現在來做個隨機抽樣調查(隨機是很重要的前提),來調查賴O然對彰中人是不是正咩,以看出對賴O然的支持率。每次隨機抓1000個人出來作調查。假如GB同學調查出結果賴O然的支持率是68%,H翔的結果是62%,有鑒於速率,謝董派了1000個手下去作調查......一直作一直作,會得到好多個關於賴O然支持率的結果。把那些結果繪成直線分布圖就會發現,它會呈現一個ND的情況!

這個例子似乎沒辦法說明剛才收入分布的問題,但是用一樣的方式下去作調查,會因為取樣機率的影響,而讓整個結果的分布呈現一個ND的情況!

也就是說,在任意的情況下,對母群體作隨機抽樣調查,得出來的樣本統計分布會呈現一個ND的狀況

當然,這個說明中涉及到了「機率」,所以就必須建立在大數量的情況下才成立。

(事實上如果借用機率密度和中央極限定理的概念的話會更好說明。)

這裡稍微提一下,中央極限定理中說明到了很重要的一點,在ND情況下的中央對稱軸會正好是這個樣本數據的平均數





好,那麼重點來了,ND能給我們什麼幫助呢?答案是,目前只能幫助我們了解抽樣樣本的分布狀況

我們該如何賦予這麼一張圖意義,就必須再引入「標準差」等離均值的概念。


一組數據的平均值及標準差常常同時作為參考的依據。從某種意義上說,如果用平均值來考量數值的中心的話,則標準差也就是對統計的分散度的一個"自然"的測度。因為由平均值所得的標準差要小於到其他任何一個點的標準差。(維基)


標準差的意義在於表達一個樣本數據字平均值分散開來的程度(也可以說是離散的程度),很容易明白的是,標準差越大,數據就越分散


好,那麼現在把常態分布和標準差結合的話(事實上在作數據分析與評估的時候,最一般的情況就是考慮最理想的情況),我們可以由中央極限定理知道,最中間的地方就是這個數據的平均數,那麼我們從平均數往外擴大1個標準差,2個標準差,3個標準差,會得到68%.95%.99.7%這三個比例。

這三個比例有很多很重要的含意。

(1) 若其假設正確,則約 68% 數值分佈在距離平均值有 1 個標準差之內的範圍,約 95% 數值分佈在距離平均值有 2 個標準差之內的範圍,以及約 99.7% 數值分佈在距離平均值有 3 個標準差之內的範圍。

(2) 在該範圍中,曲線下方的面積佔整體面積的68%.95%.99.7%

(3) 很奇怪的幾何解釋:幾何學的角度出發,標準差可以理解為一個從 n 維空間的一個點到一條直線的距離的函數。舉一個簡單的例子,一組數據中有3個值,X1,X2,X3。它們可以在3維空間中確定一個 P = (X1,X2,X3)。想像一條通過原點的直線 L = {(r, r, r) : r \in \mathbb{R}}。如果這組數據中的3個值都相等,則點 P 就是直線 L 上的一個點,PL 的距離為0, 所以標準差也為0。若這3個值不都相等,過點 P垂線 PR 垂直於 LPRL 於點 R,則 R 的坐標為這3個值的平均數(維基)



而用在實際評估上就必須在牽扯到信賴區間和信心水準的問題,但是有鑒於現在11點多了(愛睏啊),就先到這邊吧(哈欠)

3 則留言:

  1. 明顯的剽竊維基(指)
    不過段考前看這個倒是挺放鬆的
    因為比喻特搞笑↑

    回覆刪除
  2. 你們都剽竊維基嗎(誤
    話說我到現在還不會算標準差呢
    今天小考卷全爆標準差(攤
    我發文的話還不知道怎麼比喻...囧

    回覆刪除
  3. 其實我沒有剽竊維基啊(小聲)
    我明明只有盜用科學人...(被巴)
    不過我都有自己消化完再盜用唷~

    回覆刪除