第四章 常用概率分布
第一節(jié) 二項分布
一、二項分布的概念與特征
(一)成敗型實驗(Bernoulli實驗)
在醫(yī)學衛(wèi)生領域的許多實驗或觀察中,人們感興趣的是衛(wèi)生資格考試網某事件是否發(fā)生。如用白鼠做某藥物的毒性實驗,關心的是白鼠是否死亡;某種新療法臨床實驗觀察患者是否治愈;觀察某指標的化驗結果是否呈陽性等。將我們關心的事件A出現稱為成功,不出現稱為失敗,這類試驗就稱為成-敗型實驗。指定性資料中的二項分類實驗。
成-敗型(Bernoulli)實驗序列:
滿足以下三個條件的n次實驗構成的序列稱為成-敗型實驗序列。
1)每次實驗結果,只能是兩個互斥的結果之一(A或非A)。
2) 相同的實驗條件下,每次實驗中事件A的發(fā)生具有相同的概率π。(非A的概率為1-π)。
實際工作中要求π是從大量觀察中獲得的較穩(wěn)定的數值。
3) 各次實驗獨立。各次的實驗結果互不影響。
(二)二項分布的概率函數
二項分布是指在只能產生兩種可能結果(如“陽性”或“陰性”)之一的n次獨立重復實驗中,當每次試驗的“陽性”概率保持不變時,出現“陽性”的次數X=0,1,2,…,n的一種概率分布。
若從陽性率為π的總體中隨機抽取大小為n的樣本,則出現“陽性”數為X的概率分布即呈現二項分布,記作:B(X;n,π)或B(n,π)。
舉例 設實驗白鼠共3只,要求它們同種屬、同性別、體重相近,且他們有相同的死亡概率,即事件“白鼠用藥后死亡”為A,相應死亡概率為π。記事件“白鼠用藥后不死亡”為 ,相應不死亡概率為1-π。設實驗后3只白鼠中死亡的白鼠數為X,則X的可能取值為0,1,2和3,則死亡鼠數為X的概率分布即表現為二項分布。
互不相容事件的加法定理
獨立事件的乘法定理
構成成-敗型實驗序列的n次實驗中,事件A出現 的次數X的概率分布為:
其中X=0,1,2…,n。 n,π是二項分布的兩個參數 。
對于任何二項分布,總有
例4-2 臨床上用針灸治療某型頭疼,有效的概率為60%,現以該療法治療3例,其中2例有效的概率是多大?
分析:治療結果為有限和無效兩類,每個患者是否有效不受其他病例的影響,有效概率均為0.6,符合二項分布的條件。
2例有效的概率是0.432
一例以上有效的概率為:
或:
(三)二項分布的特征
1. 二項分布的圖形特征
n,π是二項分布的兩個參數,所以二項分布的形狀取決于n,π。可以看出,當π =0.5時分布對稱,近似對稱分布。當π ≠0.5時,分布呈偏態(tài),特別是n較小時, π偏離0.5越遠,分布的對稱性越差,但只要不接近1和0時,隨著n 的增大,分布逐漸逼近正態(tài)。因此, π或1- π不太小,而n足夠大,我們常用正態(tài)近似的原理來處理二項分布的問題。
2. 二項分布的均數和標準差
對于任何一個二項分布B(X;n,π),如果每次試驗出現“陽性”結果的概率均為π ,則在n次獨立重復實驗中,出現陽性次數
X的總體均數為:
方差為:
標準差為:
例 實驗白鼠3只,白鼠用藥后死亡的死亡概率π=0.6,則3只白鼠中死亡鼠數X的
總體均數為: =3×0.6=1.8(只)
方差為:
標準差為:
如果以率表示,將陽性結果的頻率記為 , 則P的
總體均數
總體方差為
總體標準差為
式中 是頻率p的標準誤,反映陽性頻率的抽樣誤差的大小。
例4-4 如果某地鉤蟲感染率為6.7%,隨機觀察當地150人,樣本鉤蟲感染率為p,求p的抽樣誤差 。
二、二項分布的應用
(一) 概率估計
例4-5 如果某地鉤蟲感染率為13%,隨機觀察當地150人,其中有10人感染鉤蟲的概率有多大?
(二)單側累計概率計算
二項分布出現陽性次數至少為K次的概率為
陽性次數至多為K次的概率為
例4-6 如果某地鉤蟲感染率為13%,隨機觀察當地150人,其中至多有2人感染鉤蟲的概率有多大?至少有2人感染鉤蟲的概率有多大?至少有20人感染鉤蟲的概率有多大?
至多有2名感染的概率為:
至少有2名感染的概率為:
至少有20名感染的概率為:
第二節(jié) Poisson分布的概念與特征
一、Poisson分布的概念
Poisson分布也是一種離散型分布,用以描述罕見事件發(fā)生次數的概率分布。Poisson分布也可用于研究單位時間內(或單位空間、容積內)某罕見事件發(fā)生次數的分布,如分析在單位面積或容積內細菌數的分布,在單位空間中某種昆蟲或野生動物數的分布,粉塵在觀察容積內的分布,放射性物質在單位時間內放射出質點數的分布等。Poisson分布一般記作。
Poisson分布作為二項分布的一種極限情況
Poisson分布可以看作是發(fā)生的概率π 很小,而觀察例數很大時的二項分布。除要符合二項分布的三個基本條件外,Poisson分布還要求π或1-π接近于0和1。有些情況π和n都難以確定,只能以觀察單位(時間、空間、容積、面積)內某種稀有事件的發(fā)生數X等來表示,如每毫升水中大腸桿菌數,每個觀察單位中粉塵的記數,單位時間內放射性質點數等,只要細菌、粉塵、放射性脈沖在觀察時間內滿足以上條件,就可以近似看為Poisson分布。
二、Poisson分布的特征
1.Poisson分布的概率函數為:
式中 為Poisson分布的總體均數,X為觀察單位時間內某稀有事件的發(fā)生次數;e為自然對數的底,為常數,約等于2.71828。
如某地20年間共出生短肢畸形兒10名,平均每年0.5名。就可用 代入Poisson分布的概率函數來估計該地每年出生此類短肢畸形兒的人數為0,1,2…的概率P(X)。
2.Poisson分布的特性:
(1)Poisson分布的的總體均數與總體方差相等,均為 。
(2)Poisson分布的觀察結果有可加性。即對于服從Poisson分布的m個互相獨立的隨機變量X1,X2…XM,它們之和也服從Poisson分布,其均數為這m個隨機變量的均數之和。
從總體均數為的服從Poisson分布總體中隨機抽出一份樣本,其中稀有事件的發(fā)生次數為X1,再獨立地從總體均數為的Poisson分布總體中隨機抽出另一份樣本,其中稀有事件的發(fā)生次數為X2,則他們的合計發(fā)生數T=X1+X2也服從Poisson分布,總體均數為。
Poisson分布的這些性質還可以推廣到多個Poisson分布的情形。例如,從同一水源獨立地取水樣5次,進行細菌培養(yǎng),每次水樣中的菌落數分別為,均服從Poisson分布,分別記為,把5份水樣混合,其合計菌落數也服從Poisson分布,記為,其均數為。
醫(yī)學研究中常利用Poisson分布的可加性,將小的觀察單位合并以增大發(fā)生次數X,以便用正態(tài)近似法進行統(tǒng)計推斷。
二、 Poisson分布的應用
(一) 概率估計
例4-7 如果某地新生兒先天性心臟病的發(fā)病概率為80/00,那么該地120名新生兒中有4人患先天性心臟病的概率有多大?
(二)單側累計概率計算
Poisson分布出現陽性次數至多為K次的概率為
陽性次數至少為K次的概率為
例4-8 如果某地新生兒先天性心臟病的發(fā)病概率為80/00,那么該地120名新生兒中至多有4人患先天性心臟病的概率有多大?至少有5人患先天性心臟病的概率有多大?
至多有4人患先天性心臟病的概率:
至少有5人患先天性心臟病的概率
例4-9 實驗顯示某100cm2培養(yǎng)皿平均菌落數為6個,試估計該培養(yǎng)皿菌落數小于3個的概率,大于1個的概率。
該培養(yǎng)皿菌落數小于3個的概率
該培養(yǎng)皿菌落數大于1個的概率
三、二項分布、Poisson分布的的正態(tài)近似
1.二項分布的正態(tài)近似
二項分布的形狀取決于n,π,當π=0.5時分布對稱,當π≠0.5時,分布呈偏態(tài),特別是n較小時, π偏離0.5越遠,分布的對稱性越差,隨著n的增大,分布逐漸趨向于對稱。理論上可以證明,不管π如何,當n相當大時,只要π不接近1和0時,特別是當nπ或n(1- π )都大于5時,二項分布B(X;n,π)近似正態(tài)分布N(nπ,nπ(1-π))。
二項分布累積概率的正態(tài)近似公式為:
為標準正態(tài)分布的分布函數
例4-14 如果某地鉤蟲感染率為13%,隨機觀察當地150人, 其中至少有20人感染鉤蟲的概率有多大?
n π=150×0.13=19.5
n(1- π)=150×(1-0.13)=130.5
至少有20人感染鉤蟲的概率為50%。
2. Poisson分布的正態(tài)近似
Poisson分布,當總體均數小于5時, 越小,分布越呈偏態(tài),隨著的增大,分布逐漸趨向于對稱。理論上可以證明,隨著Poisson分布也漸近為正態(tài)分布。當時,Poisson分布資料可按正態(tài)分布處理。
Poisson分布累積概率的正態(tài)近似公式為:
為標準正態(tài)分布的分布函數
例4-15 實驗顯示某放射性物質半小時內發(fā)出的脈沖數服從Poisson分布,平均為360個,試估計該放射性物質半小時內發(fā)出的脈沖數大于400個的概率。
試估計該放射性物質半小時內發(fā)出的脈沖數大于400個的概率為1.66%。
第三節(jié) 正態(tài)分布
一、正態(tài)分布的概念
正態(tài)分布是自然界最常見的一種分布,若指標X的頻率分布曲線對應于數學上的正態(tài)分布曲線,則稱該指標服從正態(tài)分布。
正態(tài)分布的密度函數,即正態(tài)曲線的方程為
-∞<X<+∞
均數為0,標準差為1的正態(tài)分布,這種正態(tài)分布稱為標準正態(tài)分布。
對于任意一個服從正態(tài)分布N(μ,σ2)的隨機變量,可作如下的標準化變換,也稱Z變換,
標準正態(tài)分布的密度函數:
-∞<Z<+∞
為標準正態(tài)分布的密度函數,即縱坐標的高度。
(二)、正態(tài)分布的特征
1. 關于對稱。即正態(tài)分布以均數為中心,左右對稱。
2. 在處取得概率密度函數的最大值,在 處有拐點,表現為 鐘形曲線。即正態(tài)曲線在橫軸上方均數處最高。
3. 正態(tài)分布有兩個參數,即均數µ和標準差σ。
µ是位置參數,σ是變異度參數(形狀參數)。常用N(µ,σ2)表示均數為μ ,標準差為σ的正態(tài)分布;用N(0,1)表示標準正態(tài)分布。
4. 正態(tài)曲線下面積分布有一定規(guī)律。橫軸上正態(tài)曲線下的面積等于100%或1。
二、正態(tài)曲線下面積的分布規(guī)律
正態(tài)方程的積分式(分布函數):
F(X)為正態(tài)變量X的累計分布函數,反映正態(tài)曲線下,橫軸尺度自-∞到X的面積,即下側累計面積 。
標準正態(tài)分布方程積分式(分布函數):
Φ(Z)為標準正態(tài)變量 u的累計分布函數,反映標準正態(tài)曲線下,橫軸尺度自-∞到Z的面積,即下側累計面積 。
三、標準正態(tài)分布表
用查表代替計算必須注意:
1)表中曲線下面積為-∞到Z的面積。
2)當µ,σ和X已知時,先求出Z值,再用Z值查表,得所求區(qū)間占總面積的比例。當µ和σ未知時,要用樣本均數和樣本標準差S來估計Z值。
3)曲線下對稱于0的區(qū)間,面積相等。
4)曲線下橫軸上的面積為100%或1。
正態(tài)分布是一種對稱分布,其對稱軸為直線X=µ,即均數位置,理論上:
µ±1σ范圍內曲線下的面積占總面積的68.27%
µ±1.96σ范圍內曲線下的面積占總面積的95%
µ±2.58σ范圍內曲線下的面積占總面積的99%
實際應用中:
±1 S范圍內曲線下的面積占總面積的68.27%
±1.96 S范圍內曲線下的面積占總面積的95%
±2.58 S范圍內曲線下的面積占總面積的99%
標準正態(tài)分布的µ=0,σ=1,則
µ±σ相當于區(qū)間(-1,1),
µ±1.96σ相當于區(qū)間(-1.96,1.96),
µ±2.58σ的區(qū)間相當于區(qū)間(-2.58,2.58)。
區(qū)間(-1,1)的面積:1-2Φ(-1)=1-2×0.1587=0.6826=68.26%
區(qū)間(-1.96,1.96)的面積:1-2Φ(-1.96)=1-2×0.0250=0.9500=95%
區(qū)間(-2.58,2.58)的面積:1-2Φ(-2.58)=1-2×0.0049=0.9902=99.02%
例 4-10 X服從均數為,標準差為的正態(tài)分布,,試估計(1)X取值在區(qū)間上的概率;(2)X取值在區(qū)間上的概率;
先做標準化變化:
正態(tài)曲線下面積對稱,則區(qū)間(1.96,∞)的面積也是0.025。Z取值于(-1.96,1.96)的概率為1-2×0.025=0.95,即X取值在區(qū)間上的概率為95%。
例 4-11 已知某地1986年120名8歲男童身高均數醫(yī)學檢驗網,S=4.79 cm ,估計(1)該地8歲男孩身高在130 cm以上者占該地8歲男孩總數的百分比;(2)身高界于120cm~128cm者占該地8歲男孩總數的比例;(3)該地80%男孩身高集中在哪個范圍?
(1)先做標準化變化:
理論上該地8歲男孩身高在130 cm以上者占該地8歲男孩總數的7.21%。
(2)
(3)
查附表1,標準正態(tài)分布曲線下左側面積為0.10所對應的Z值為-1.28,所以80%的8歲男孩身高值集中在區(qū)間內,即116.9cm~129.2cm
四、正態(tài)分布的應用
(一)制定醫(yī)學參考值范圍
參考值范圍:指特定的“正常”人群的解剖、生理、生化、免疫等各種數據的波動范圍。
制定參考值范圍的步驟:
1. 選擇足夠數量的正常人作為調查對象。
2. 樣本含量足夠大。
3. 確定取單側還是取雙側正常值范圍。
4. 選擇適當的百分界限。
5. 選擇適當的方法。
估計醫(yī)學參考值范圍的方法:
1. 正態(tài)近似法:適用于正態(tài)分布或近似正態(tài)分布的資料。
2. 百分位數法:適用于偏態(tài)分布資料。
例4-12 某地調查120名健康女性血紅蛋白,直方圖顯示,其分布近似于正態(tài)分布,得均數為117.4g/L,標準差為10.2g/L ,試估計該地正常女性血紅蛋白的95%醫(yī)學參考值范圍。
分析:正常人的血紅蛋白過高過低均為異常,要制定雙側正常值范圍。
該指標的95%醫(yī)學參考值范圍為
例3.6 某地調查110名正常成年男子的第一秒肺通氣量,得均數為4.2 L,標準差為0.7 L ,試估計該地正常成年男子第一秒肺通氣量的95%參考值范圍。
分析:正常人的第一秒肺通氣量近似正態(tài)分布,且只以過低為異常,要制定單側下限。
該地正常成年男子第一秒肺通氣量的95%參考值范圍為:不低于3.052L。
例 3 某年某市調查了 200例正常成人血鉛含量(μg/100g)如下,試估計該市成人血鉛含量的95%醫(yī)學參考值范圍。
分析:血鉛的分布為偏態(tài)分布,且血鉛含量只以過高為異常,要用百分位數法制定單側上限。
二、質量控制
為了控制實驗中的檢測誤差,常用±2S作上下警戒線,以±3S作為上下控制線。這里的2S和3S可視為1.96S 和2.58S的約數。其依據是正常情況下檢測誤差是服從正態(tài)分布的。
判斷異常的8種情況是:
v 有一個點距中心線的距離超過3個標準差(控制限以外)
v 在中心線的一側連續(xù)有9個點
v 連續(xù)6個點穩(wěn)定地增加或減少
v 連續(xù)14個點交替上下
v 連續(xù)3個點中有兩個點距中心線距離超過2個標準差(警戒限以外)
v 連續(xù)5個點中有4個點距中心線距離超過1個標準差
v 中心線一側或兩側連續(xù)15個點距中心線距離都超出1個標準差以內
v 中心線一側或兩側連續(xù)8個點距中心線距離都超出1個標準差范圍。
三、統(tǒng)計處理方法的理論基礎
如 統(tǒng)計描述中計算算術平均數、標準差、
統(tǒng)計推斷中進行總體均數置信區(qū)間估計、t 檢驗、F 檢驗、相關與回歸等分析
1.標準正態(tài)分布的均數與標準差是( )
A 0,1 B 1,0 C 0,0 D 1,1
2.正態(tài)分布的兩個參數μ與σ,( )對應的正態(tài)曲線愈趨扁平。
A μ愈大 B μ愈小 C σ愈大 D σ愈小
3.正態(tài)分布的兩個參數μ與σ,( )對應的正態(tài)曲線平行右移。
A 增大μB 減小μ C 增大σ D 減小σ
4. 隨機變量X服從正態(tài)分布N(μ1,σ12),隨機變量Y服從正態(tài)分布N(μ2,σ22),X與Y獨立,則X-Y服從( )
A N(μ1+ μ2,σ12- σ22) B N(μ1- μ2,σ12- σ22) C N(μ1-μ2,σ12+σ22)D N(0σ12+σ22)
5. 二項分布的概率分布圖在( )條件下為對稱圖形。
A n>50 B π=0.5 C=1 D nπ>5
6. ( )的均數等于方差。
A 正態(tài)分布B 二項分布
C Poisson分布 D 對稱分布
7. 設X1,X2分別服從以λ1,λ2為均數的Poisson分布,且X1,X2獨立,側X1,X2服從以( )為方差的Poisson分布。
A λ12+λ22 B λ1+λ2 C(λ1+λ2)2 D (λ1+λ2) -1/2
8. 滿足( )時,二項分布B(n ,π)近似正態(tài)分布。
A nπ 和n(1-π) 均大于等于5 B nπ 或n(1-π) 均大于等于5
C n>50D nπ足夠大
9. 滿足( )時,Poisson分布P(λ)近似正態(tài)分布。
A λ無限大B λ>20
C λ =1 D λ =0.5
10. 滿足( )時,二項分布B(n ,π)近似Poisson分布。
A nπ 和n(1-π) 均大于等于5 B n~∞
C n很大且π接近0.5D n很大且π接近0
11. 觀察某地100名12歲男孩身高,均數為138.00cm,標準差為4.12cm,Z=(128.00-138.00)/4.12。Φ(Z)是標準正態(tài)分布的分布函數,1- Φ(Z)=1- Φ(-2.43)=0.9925,結論是( )
A 理論上身高低于138.00cm的12歲男孩占99.25%
B 理論上身高高于138.00cm的12歲男孩占99.25%
C 理論上身高低于128.00cm的12歲男孩占99.25%
D 理論上身高高于128.00cm的12歲男孩占99.25%