信息化应用 营销管理 企业管理 业界消息 站内搜索 标签
首页 » 文档中心 » 信息化软件应用 » BI 商务智能 » 卡方考验

卡方考验

2008-07-01

統計概念
定義 卡方考驗分析
計算公式 關係度量
SAS實務
卡方考驗之SAS語法

統計概念<回menu>

定義<回menu>

適合度考驗
獨立性考驗
同質性考驗

卡方考驗為統計學家皮爾遜所導出,主要解答的問題是:

從樣本觀察而得的次數資料和理論或母群體的次數資料,是

否有顯著的差異?通常依資料的特性與分析目的之不同,卡

方考驗(Chisquare test)可分為下列三種類型:

適合度考驗(goodness of fit test)<回定義>

乃實際觀察次數分配與某種理論次數分配是否相當適宜符合

之檢定。其研究問題、虛無假設、對立假如下所示:

*研究問題:實驗室中,發芽次數表是否與二項分配理論次數相適合?

H0:實際觀察的次數與理論次數並無差異。

Hl:實際觀察的次數與理論次數有顯著差異存在。

獨立性考驗(test ot independence)<回定義>

自一母群體抽取樣本,而考驗其統計事項A與B兩變項間是否

互相獨立(無相關)之檢定。

*研究問題:年齡中(A變項)與收看電視時間長短(B變項)是否

有關係﹖

H0:A、B二變項間獨立無關。

H1:A、B二變項間有關係

同質性考驗(test for homogeneity)<回定義>

自若干母群體分別抽取隨機樣本,依據各樣本之觀察值‧以

判斷此若干母群體是否為同質之檢定。

*研究問題:三個政黨對二種總統選舉方案的支持態度是否相同?

H0:三個政黨對二種總統選舉方案的支持態度相同。

H1:個政黨對二種總統選舉方案的支持態度不同。

卡方考驗分析<回menu>

通用卡方考驗分析時,應注意下列事項:

1.卡方考驗僅適用於類別資料。

2.各細格之期望次數(或理論次數)最好不應少於5。通常要有

80%以上的fe≧5,否則會影響其卡方考驗的效果。若有一格

或數格的期望次數小於5時,在配合研究目的下,可將此數格

予以合併。

3.在2X2的列聯表(contigency tablecrosstabulation)中,當期望次數

介於5和10之間(5≦fe≦10),即應該哂媚谴仁闲U?/p>

(Yate's Correction for Continuity)。

4.在2X2的列聯表中,若期望次數小於5(fe<5),或樣本人數小

於20時,則應使用費雪正確機率考驗(Fisher's exact probability test)。

5.對於同一群受試者前後進行兩次觀察的重複量數卡方考驗時

,應使用麥內瑪考驗(McNemar test)。

計算公式<回menu>

適合度考驗、獨立性考驗、同質性考驗
耶慈校正考驗
費雪正確機率考驗
McNemar's考驗

茲將卡方考驗的計算公式整理歸納如下:

適合度考驗、獨立性考驗、同質性考驗<回計算公式>

‧適合度檢定df=k-1

‧獨立性檢定df=(r-1)(c-1)

‧同性質檢定df=(r-1)(c-1)

f0=觀察次數(observed frequency)

Fe=期望次數(expected frequency)

k:單因子分類的水準(level)數

r:因子分類,列的水準數

c:因子分類,行的水準數

耶慈校正考驗(Yate's correction for continuity)<回計算公式>

費雪正確機率考驗(Fisher's exact probability test)<回計算公式>

ab a+b

cd c+d

a+c b+dN

a、b、c、d:四個細格之觀察值

N:樣本數

p=/}

P:該種特定排列組合之機率

McNemar's考驗<回計算公式>

前後不一致情形觀察值 --------------------- --------

+→- ..................... r

-→+ ..................... s

--------------------

總數 ....................... rs

r :前測「喜歡」,而後測卻變為「不

喜歡」

s :前測「不喜歡」,而後測卻變為

「喜歡」

未校正

校正法

關係度量<回menu>

(measures of association)

類別度量
次序度量

關係度量係列聯表內兩變項間關聯數量化的一種測量指標,

亦即在於指出兩變項間相依的程度與性質。以下茲就類別度

量與次序度量分別加以說明。另有等距或比例度量的與pearson's

相關係數請參考第八章的相關分析

 

類別度量:<回關係度量>

用以表示二類別變項之間的關聯強度。

1.以卡方為基礎的度量

卡方考验:以卡方為基礎的關係度量

關係度量 計算公式 用途
1.關係係數

(phi)

使用2X2列聯表
2.列聯係數

(coefficient of contingency)

使用在大於2X2以上的列

聯表,其值介於01之間

3.克瑞瑪V係數

(Cramer's V)

在任何列聯表中最大值均

可達到12X2列聯表中,

V及值相等

2.誤差比例遞減的度量(proportionate reduction in error, PRE)是

將列聯表中的兩變項,列變項稱為X,行變項稱為Y,若X

Y的關係越強,則預測的誤差將會減少。通常PRE的度量有兩

種型式:

*對稱型式(Symmetrical):

XY變項互相預測,而不分自、依變項。

*不對稱型式(asymmetrical):可分為兩種

a.指利用(列變項)為預測基準,計算預測時發生誤差的比率。

b.指利用(行變項)為預測基準,計算預測時發生誤差的比率。

計算公式值(lambda,Goodman & Kruskal,1954)

次序度量<回關係度量>

主要係對兩個次序變項間的關聯型態,導出其關係的強度與

方向。通常若某一觀察值的兩個變項值皆大於(或皆小於另一

觀察值時,則稱此對觀察值為“一致”)(concordant)。反之,

若一觀察值的第一變項值大於另一觀察值,而第二變項值小

於另一觀察值時,則稱此對觀察值為“不一致”(discordant)。

若兩觀察值的一個變項或兩個變項值相等時,則稱此對觀察

值相等(tied)。

 

次序變項的關係度量

關係度量 計算公式
Kendall的

(tdub)

P:一致的配對組總數

Q:不一致的配對組總數

Tx:變項x之配對組相等數

Ty:變項Y之配對組相等數

Kendall的

(tduC)

m:行或列數較小者

N:樣本數

Goodman

& Kruskal

G(gamma)

4.Sommer的d

 

SAS實務<回menu>

範例一
範例二
範例三
範例四
範例五

卡方考驗之SAS語法 <回menu>

(一)PROC FREQ程序

PROC FREQ 選項串;

TABLES 次數分配表的設計/選項串; ←產生一元、二元

或多元變項的次數分配表

WEIGHT 變項名稱; ←變項的值代表每一觀察體的加權值

BY 變項名稱串;←資料檔內的觀察體加以分組

(二)PROC CATMAOD程序:

(1).基本語法:

PROC CATMOD選項串;

DIRECT 變項名稱串; ←指示直接對數值變項的數值加以處理

MODEL 反應變項 = 線性模型/選項串;

LOGLlN 效果名稱串/選項; ←界定對數線性模式裡的各式效果

FACTORS 自變項名稱類別…/選項串; ←界定實驗設計中的

各式效果以及決定反應函數的自變項

CONTRAST'標名'效果名稱各組效果的係數; ←建立並檢定參

數間的線函數

REPEATED依變項名稱類別串/_RESPONSE_=效果;←重復觀

察的實驗設計

POPULATION變項名稱串; ←決定樣本所代表的母群

RESPONSE函數選項串; ←在於界定反應機率的函友以便進行參數的檢定

RESTRICT參數=定值…; ←限制某些參數的估計值

WEIGHT變項名稱; ←界定觀察體的加權值

BY變項名稱串; ←將資料檔分成幾個小資料檔

(2).詳細語法:

PROC CATMOD選項串;

選項串:

DATA:輸入料檔名稱 ←指名對那一個SAS資料檔執行分析

ORDER=DATA ←界定變項內各類別的次序就是以輸入資料

當內出現的次序

DIRECT變項名稱串; ←指示直接對數值變項的數值加以處理

MODEL反應變項=線性模型/選項串;

選項串:

(一)與分析結果的呈現有關的選項

ONEWAY ←為每一個參與分析的變項,建立一個單元變項的

分配表

FREQ ←為每一個參與分析的變項,建立一個二元變項的分

配表

PROB ←印出上述二元分配表的期待機率

XPX ←印出正規方程式所產生的向量內乘積

COV ←印出每一個樣本所產生的反應函數值的共變數矩陣

COVB ←印出參數估計值的共變數矩陣

CORRB ←印出參數估計值的相關係數矩陣

ML ←要求以最大可能率的方法來估計參數

PREDICT ←印出每一樣本中反應函數的實值和期待值以及誤

差和標準誤差

PRED=PROB ←印出各細格內的期待機率

=FREQ ←印出各細格內的期待次數

TITLE='與模型相對應的標題' ←界定一個與模型相對應的標題

(二)與計算過程有關的選項

ADDCELL=正實數 ←可幫助加權最小誤差平方在解決當某細

格內的次數等

0時的問題

AVERAGED ←界定1.依變項的結果是可以用模型表示的

範例9.1適合度考驗<回SAS實務>

某市場研究想了解民眾對香水的喜好是否不同。乃進行調查

2000位民眾,對甲、乙、丙、丁四種香水喜好的情形,所得

結果如下表所示:

香 水
人 數 560 500 490 450

1.研究問題:民眾對香水的喜好是否有所不同于(a=0.05)

2.統計假設:

H0:民眾對香水的喜好沒有不同。

H1:民眾對香水的喜好有所不同。

參考程式...... fit.sas

 

範例9.2獨立性考驗<回SAS實務>

醫院以某種方法治療各不同血型病人之情形如下:

 

血 型 病情改善(人) 病情惡化(人)
A 25 25
B 35 40
O 30 35
AB 60 45

1.研究問題:血型與治療結果是否相關?(a=0.05)

2.統計假設:

H0:血型與治療結果獨立無關。

H1:血型與治療結果有關。

參考程式...... indep.sas

 

範例9.3同質性考驗<回SAS實務>

某社會學家,調查三個大都市民眾的婚姻狀況,所得結果如

下表:

  台北市 台中市 高雄市
單身 18 4 3
已婚 8 12 5
離婚 10 7 8
喪偶 6 15 4

1.研究問題:三個大都市民眾的婚姻狀況是否有顯著的差異?(a=0.05)

2.統計假設:

H0:三個大都市民眾的婚姻狀況無顯著的差異。

H1:三個大都市民眾的婚姻狀況有顯著的差異。

參考程式...... homoge.sas

 

範例9.4耶慈校正考驗<回SAS實務>

下表的資料是某研究者對兩性的帶眼鏡人數所做的小範圍抽

樣調查的結果:

 

  性別
 
眼+

鏡-

19

9

3

8

1.研究問題:兩性的帶眼鏡人數是否有顯著的差異?(a=0.05)

2.統計假設:

H0:帶眼鏡與性別無關。

Hl:兩性的帶眼鏡人數有差異。

參考程式...... yate.sas

 

範例9.5Fisher's exact考驗<回SAS實務>

某體育教師調查16名男女學生喜不喜歡游泳,得如下表的

結果:

  喜歡 不喜歡
8 0
3 5

1.研究問題:男女生喜歡游泳的比例是否有顯著的差異?(a =0.05)

2.統計假設:

H0:男女生喜歡游泳的比例無顯著的差異。

H1:男女生喜歡游泳的比例有顯著的差異。

參考程式......fisher.sas

4

相关链接
商务智能:走向完善2008-07-04 水晶报表的使用技巧2008-07-07
2008,重塑你的BI战略2008-07-11 BlueQuery高速比对数据功能2008-06-20
商业智能大势所趋  业务驱...2008-07-12 企业BI项目投资与回报比面临用户质疑2008-06-19
OLAP’S ETL and DW’S ETL2008-06-12 数据仓库的集中性?2008-06-05
IDC:商业智能技术已成为企业差异化的...2008-06-04 Gartner称BI市场可能发展放缓2008-07-29
信息化软件应用目录
OA 办公自动化系统 CRM 客户关系管理系统 PM 项目管理系统 SCM 供应链管理系统 CC 协同商务系统 BPM 业务流程管理 BI 商务智能 CMS 内容管理系统 KM/KBS 知识管理系统 电子商务系统 HRM 人力资源管理系统 ERP 企业资源计划 EAM 企业资产管理系统
升蓝首页 | 文档首页 | 产品首页 | 服务首页 | English Version | Big5 Version | 联系我们
Copyright © 1999-2008 深圳市升蓝软件开发有限公司  URL: http://www.hi-blue.com