基本概念
正态分布(Normal distribution)是一種概率分布。正态分布是具有兩個參數μ和σ2的連續型随機變量的分布,第一參數μ是遵從正态分布的随機變量的均值,第二個參數σ2是此随機變量的方差,所以正态分布記作N(μ,σ2 )。遵從正态分布的随機變量的概率規律為取 μ鄰近的值的概率大 ,而取離μ越遠的值的概率越小;σ越小,分布越集中在μ附近,σ越大,分布越分散。
正态分布的密度函數的特點是:關于μ對稱,在μ處達到最大值,在正(負)無窮遠處取值為0,在μ±σ處有拐點。它的形狀是中間高兩邊低 ,圖像是一條位于x 軸上方的鐘形曲線。當μ=0,σ2 =1時,稱為标準正态分布,記為N(0,1)。
μ維随機向量具有類似的概率規律時,稱此随機向量遵從多維正态分布。多元正态分布有很好的性質,例如,多元正态分布的邊緣分布仍為正态分布,它經任何線性變換得到的随機向量仍為多維正态分布,特别它的線性組合為一元正态分布。
定義
概率論中最重要的一種分布,也是自然界最常見的一種分布。該分布由兩個參數——平均值和方差決定。概率密度函數曲線以均值為對稱中線,方差越小,分布越集中在均值附近。
特征
服從正态分布的變量的頻數分布由μ、σ完全決定。
集中性:正态曲線的高峰位于正中央,即均數所在的位置。對稱性:正态曲線以均數為中心,左右對稱,曲線兩端永遠不與橫軸相交。
均勻變動性:正态曲線由均數所在處開始,分别向左右兩側逐漸均勻下降。
正态分布有兩個參數,即均數μ和标準差σ,可記作N(μ,σ2):均數μ決定正态曲線的中心位置;标準差σ決定正态曲線的陡峭或扁平程度。σ越小,曲線越陡峭;σ越大,曲線越扁平。
u變換:為了便于描述和應用,常将正态變量作數據轉換。μ是正态分布的位置參數,描述正态分布的集中趨勢位置。正态分布以X=μ為對稱軸,左右完全對稱。正态分布的均數、中位數、衆數相同,均等于μ。
σ描述正态分布資料數據分布的離散程度,σ越大,數據分布越分散,σ越小,數據分布越集中。也稱為是正态分布的形狀參數,σ越大,曲線越扁平,反之,σ越小,曲線越瘦高。
面積分布
1.實際工作中,正态曲線下橫軸上一定區間的面積反映該區間的例數占總例數的百分比,或變量值落在該區間的概率(概率分布)。不同 範圍内正态曲線下的面積可用公式計算。
⒉幾個重要的面積比例軸與正态曲線之間的面積恒等于1。正态曲線下,橫軸區間(μ-σ,μ+σ)内的面積為68.268949%,橫軸區間(μ-1.96σ,μ+1.96σ)内的面積為95.449974%,橫軸區間(μ-2.58σ,μ+2.58σ)内的面積為99.730020%。
基本概念
正态分布(Normal distribution)是一種概率分布。正态分布是具有兩個參數μ和σ2的連續型随機變量的分布,第一參數μ是遵從正态分布的随機變量的均值,第二個參數σ2是此随機變量的方差,所以正态分布記作N(μ,σ2 )。遵從正态分布的随機變量的概率規律為取 μ鄰近的值的概率大 ,而取離μ越遠的值的概率越小;σ越小,分布越集中在μ附近,σ越大,分布越分散。
正态分布的密度函數的特點是:關于μ對稱,在μ處達到最大值,在正(負)無窮遠處取值為0,在μ±σ處有拐點。它的形狀是中間高兩邊低 ,圖像是一條位于x 軸上方的鐘形曲線。當μ=0,σ2 =1時,稱為标準正态分布,記為N(0,1)。
μ維随機向量具有類似的概率規律時,稱此随機向量遵從多維正态分布。多元正态分布有很好的性質,例如,多元正态分布的邊緣分布仍為正态分布,它經任何線性變換得到的随機向量仍為多維正态分布,特别它的線性組合為一元正态分布。
基本術語
正态分布應用最廣泛的連續概率分布,其特征是“鐘”形曲線。附:這種分布的概率密度函數為:
正态分布
若已知的密度函數(頻率曲線)為正态函數(曲線)則稱已知曲線服從正态分布,記号 ~。其中μ、σ^2 是兩個不确定常數,是正态分布的參數,不同的μ、不同的σ^2對應不同的正态分布。
正态曲線呈鐘型,兩頭低,中間高,左右對稱,曲線與橫軸間的面積總等于1。
标準正态曲線
标準正态曲線N(0,1)是一種特殊的正态分布曲線,以及标準正态總體在任一區間(a,b)内取值概率。
1.标準正态分布是一種特殊的正态分布,标準正态分布的μ和σ^2為0和1,通常用ξ(或Z)表示服從标準正态分布的變量,記為 Z~N(0,1)。
2.标準化變換:此變換有特性:若原分布服從正态分布 ,則Z=(x-μ)/σ ~ N(0,1) 就服從标準正态分布,通過查标準正态分布表就可以直接計算出原正态分布的概率值。故該變換被稱為标準化變換。
⒊ 标準正态分布表:标準正态分布表中列出了标準正态曲線下從-∞到X(當前值)範圍内的面積比例。
“小概率事件”和假設檢驗的基本思想
“小概率事件”通常指發生的概率小于5%的事件,認為在一次試驗中該事件是幾乎不可能發生的。這種認識便是進行推斷的出發點。關于這一點我們要有以下兩個方面的認識:一是這裡的“幾乎不可能發生”是針對“一次試驗”來說的,因為試驗次數多了,該事件當然是很可能發生的;二是當我們運用“小概率事件幾乎不可能發生的原理”進行推斷時,我們也有5%的犯錯誤的可能。
面積分布
1.實際工作中,正态曲線下橫軸上一定區間的面積反映該區間的例數占總例數的百分比,或變量值落在該區間的概率(概率分布)。不同 範圍内正态曲線下的面積可用公式計算。
⒉幾個重要的面積比例 軸與正态曲線之間的面積恒等于1。正态曲線下,橫軸區間(μ-σ,μ+σ)内的面積為68.268949%,橫軸區間(μ-1.96σ,μ+1.96σ)内的面積為95.449974%,橫軸區間(μ-2.58σ,μ+2.58σ)内的面積為99.730020%。
兩種正态分布
一般正态分布與标準正态分布的轉化
由于一般的正态總體其圖像不一定關于y軸對稱,對于任一正态總體 ,其取值小于x的概率。隻要會用它求正态總體 在某個特定區間的概率即可。“小概率事件”和假設檢驗的基本思想“小概率事件”通常指發生的概率小于5%的事件,認為在一次試驗中該事件是幾乎不可能發生的。這種認識便是進行推斷的出發點。關于這一點我們要有以下兩個方面的認識:一是這裡的“幾乎不可能發生”是針對“一次試驗”來說的,因為試驗次數多了,該事件當然是很可能發生的;二是當我們運用“小概率事件幾乎不可能發生的原理”進行推斷時,我們也有5%的犯錯誤的可能。
一般正态分布與标準正态分布的區别與聯系
正态分布也叫常态分布,是連續随機變量概率分布的一種,自然界、人類社會、心理和教育中大量現象均按正态形式分布,例如能力的高低,學生成績的好壞等都屬于正态分布。标準正态分布是正态分布的一種,具有正态分布的所有特征。所有正态分布都可以通過Z分數公式轉換成标準正态分布。
兩者特點比較:
⑴正态分布的形式是對稱的,對稱軸是經過平均數點的垂線。
⑵中央點最高,然後逐漸向兩側下降,曲線的形式是先向内彎,再向外彎。
⑶正态曲線下的面積為1。正态分布是一族分布,它随随機變量的平均數、标準差的大小與單位不同而有不同的分布形态。标準正态分布是正态分布的一種,其平均數和标準差都是固定的,平均數為0,标準差為1。
⑷正态分布曲線下标準差與概率面積有固定數量關系。所有正态分布都可以通過Z分數公式轉換成标準正态分布。
主要特征
1.集中性:正态曲線的高峰位于正中央,即均數所在的位置。
2.對稱性:正态曲線以均數為中心,左右對稱,曲線兩端永遠不與橫軸相交。
3.均勻變動性:正态曲線由均數所在處開始,分别向左右兩側逐漸均勻下降。
4.正态分布有兩個參數,即均數μ和标準差σ,可記作N(μ,σ):均數μ決定正态曲線的中心位置;标準差σ決定正态曲線的陡峭或扁平程度。σ越小,曲線越陡峭;σ越大,曲線越扁平。
5. u變換:為了便于描述和應用,常将正态變量作數據轉換。μ是正态分布的位置參數,描述正态分布的集中趨勢位置。正态分布以X=μ為對稱軸,左右完全對稱。正态分布的均數、中位數、衆數相同,均等于μ。
6. 3σ原則:
3σ原則:P(μ-σ
σ
描述正态分布資料數據分布的離散程度,σ越大,數據分布越分散,σ越小,數據分布越集中。也稱為是正态分布的形狀參數,σ越大,曲線越扁平,反之,σ越小,曲線越瘦高。
曲線性質
1.當x<μ時,曲線上升;當x>μ時,曲線下降。當曲線向左右兩邊無限延伸時,以x軸為漸近線。
2.正态曲線關于直線x=μ對稱。
3.σ越大,正态曲線越扁平;σ越小,正态曲線越尖陡。
4.在正态曲線下方和x軸上方範圍内區域面積為1。
曆史發展
正态分布是最重要的一種概率分布。正态分布概念是由德國的數學家和天文學家Moivre于1733年首次提出的,但由于德國數學家Gauss率先将其應用于天文學家研究,故正态分布又叫高斯分布,高斯這項工作對後世的影響極大,他使正态分布同時有了“高斯分布”的名稱,後世之所以多将最小二乘法的發明權歸之于他,也是出于這一工作。高斯是一個偉大的數學家,重要的貢獻不勝枚舉。但現今德國10馬克的印有高斯頭像的鈔票,其上還印有正态分布的密度曲線。這傳達了一種想法:在高斯的一切科學貢獻中,其對人類文明影響最大者,就是這一項。在高斯剛作出這個發現之初,也許人們還隻能從其理論的簡化上來評價其優越性,其全部影響還不能充分看出來。這要到20世紀正态小樣本理論充分發展起來以後。拉普拉斯很快得知高斯的工作,并馬上将其與他發現的中心極限定理聯系起來,為此,他在即将發表的一篇文章(發表于1810年)上加上了一點補充,指出如若誤差可看成許多量的疊加,根據他的中心極限定理,誤差理應有高斯分布。這是曆史上第一次提到所謂“元誤差學說”——誤差是由大量的、由種種原因産生的元誤差疊加而成。後來到1837年,海根(G.Hagen)在一篇論文中正式提出了這個學說。
其實,他提出的形式有相當大的局限性:海根把誤差設想成個數很多的、獨立同分布的“元誤差” 之和,每隻取兩值,其概率都是1/2,由此出發,按狄莫佛的中心極限定理,立即就得出誤差(近似地)服從正态分布。拉普拉斯所指出的這一點有重大的意義,在于他給誤差的正态理論一個更自然合理、更令人信服的解釋。因為,高斯的說法有一點循環論證的氣味:由于算術平均是優良的,推出誤差必須服從正态分布;反過來,由後一結論又推出算術平均及最小二乘估計的優良性,故必須認定這二者之一(算術平均的優良性,誤差的正态性) 為出發點。但算術平均到底并沒有自行成立的理由,以它作為理論中一個預設的出發點,終覺有其不足之處。拉普拉斯的理論把這斷裂的一環連接起來,使之成為一個和諧的整體,實有着極重大的意義。