第十八章 净相关复回归及复相关.docx
- 文档编号:9552406
- 上传时间:2023-02-05
- 格式:DOCX
- 页数:18
- 大小:78.92KB
第十八章 净相关复回归及复相关.docx
《第十八章 净相关复回归及复相关.docx》由会员分享,可在线阅读,更多相关《第十八章 净相关复回归及复相关.docx(18页珍藏版)》请在冰豆网上搜索。
第十八章净相关复回归及复相关
第十八章淨相關,複迴歸及複相關
(PartialCorrelation,MultipleRegressionandMultipleCorrelation)
壹、本單元目標
1、計算並說明淨相關係數(partialcorrelationcoefficients)。
2、認識及解釋最小平方複迴歸(theleast-squaresmultipleregression)方程式及淨斜率(partialslopes)。
3、計算並說明複相關係數(multiplecorrelationcoefficients)。
4、說明淨迴歸及複迴歸分析的限制。
貳、簡介
基本上社會科學研究所探討的議題是屬於多變項性質的,從統計分析的角度來看,就是要能同時處理多個變項。
本單元所要介紹的就是當前社會科學研究中一些非常重要且常用的分析方法。
這些方法可以幫助我們了解因果關係,以及做出預測。
以下所介紹的是以Pearson’sr為基礎,且比上個單元所介紹的方法更具彈性。
第一個要介紹的是淨相關(partialcorrelation)分析。
此方法如同分表的分析一樣,是要看在控制第三個變項後,兩變項間之相關係數為何。
(因此,此分析與PartialGamma所提供之訊息類似。
)其次要介紹的是複迴歸及複相關。
這些方法可幫助研究者評估多個自變項對一應變項之影響(不論是個別或一起)為何。
參、淨相關
當研究者想要知道兩個等距/比值變項在第三變項出現時會有什麼樣的關係,即可用淨相關之分析。
透過對淨相關係數之了解,我們可推測變項間之因果關係,以及是否有直接、中介或虛假關係之情形存在。
淨相關之分析並非在控制變項中之每一類別內觀察兩變項之關係,因此淨相關之分析比較有效率,但也因此並不能看出變項間是否有交互作用(interaction)之情形。
在介紹淨相關之分析前,要先介紹一些符號。
淨相關分析需要處理多過一個雙變項的相關,所以需要區辨不同雙變項間的相關。
首先ryx表示Y和X之間的簡單相關之係數,ryz則為Y和Z之間的簡單相關之係數。
(rxz代表哪兩個變項間的相關呢?
)這種兩變項間之簡單相關,亦稱為zero-ordercorrelations(零階相關)。
當我們控制了第三個變項後,再看原來兩變項之相關,即為first-order(一階)的相關或淨相關,其係數之符號為ryx.z。
而
ryx.z=
-----
(1)
由上面公式可看出,要計算ryx.z須計算由X,Y及Z三個變項所形成的各對變項之間的簡單相關,由公式亦可看出淨相關之分析是在排開控制變項與我們所關心之兩個變項相關的部分後,所計算出之相關。
(看清楚了!
)
兩變項在控制第三變項後之相關與原來之zero-order相關相差很少時,即表示控制變項對此兩變項之關係並無影響,亦即此兩變項間有直接關係(directrelationship)。
若ryx.z較ryx小很多時,則原來兩個變項的關係可能是spurious,即控制變項為二者之共同因(commoncause),但也可能是控制變項為一中介變項,如下圖所示
一、SpuriousrelationshipbetweenXandY:
Z
X Y
二、ZasaninterveningvariablebetweenXandY:
Z
XY
不論如何,當ryx.z小於ryx極多,但ryx≠0時,我們必須將Z放入因果關係中。
要注意的是,淨相關的分析結果無法告訴我們,究竟Z是X和Y的共同因,還是X與Y之間的中介變項。
這三者間的因果關係是要基於發生時間的先後,或是理論。
第三個可能出現之情況是ryx.z>ryx極多,這狀況可能是X和Z對Y之影響是獨立的,即如下圖:
X
Y
Z
換言之,X與Z無相關,但加入Z後,因Y與Z共同變異部分已排除(或是說因為Y部份的變異量已被Z所解釋),故X與Y之相關係數會升高(因為X只需解釋Y變異量中尚未被Z解釋的部份)。
當X與Z對Y之影響,是獨立時(或較不嚴格的條件是X與Z相關相當弱時),即是進行複迴歸及複相關分析之良好基礎。
透過複迴歸之分析,我們可以知道,每個自變項對應變項之獨立影響力為何,以及那個自變項對應變項之影響力較強。
肆、複迴歸
先前我們已經介紹過以一最小平方迴歸線來描述兩等距/比值變項間之線性關係。
這個方法可以加以延伸以描述多個自變項與一應變項之關係(自然在三個變項之迴歸分析時,迴歸方程式不是一條線,而是一個迴歸面了)。
三個變項間最小平方之複迴歸的方程式即為
Y=a+b1X1+b2X2---------------------------
(2)
其中b1是X1與Y之直線性關係的淨斜率(thepartialslope,也稱做是未標準化的迴歸係數)
b2為X2與Y之淨斜率,而b1及b2之計算法為:
b1=
--------------(3)
b2=
--------------(4)
而a=Y-b1X1-b2X2
其中Sy是Y之標準差
S1是X1之標準差
S2是X2之標準差
ry1是Y與X1之簡單相關
ry2是Y與X2之簡單相關
r12是X1與X2之簡單相關
透過b1及b2,我們可以「預測」X1及X2分別對Y之分數的影響為何。
伍、比較複迴歸中各個自變項之影響力
從公式2所得之各個自變項的影響力常常是無法互相比較,因為X1及X2之測量的單位,可能是不同的,如X1可能是受教育之年數,而X2為職業聲望之分數,在此情況下,我們並不能很容易得知X1與X2相較下何者對Y之影響力大。
要想比較各自變項對Y之相對影響力,我們可將所有的變項標準化,亦即將各變項依其各自之標準差及平均數變成Zscores。
這樣標準化之結果是不論Xi或Y都有同樣之標準單位,每一變項之X也成為0,S為1。
各變項標準化後做迴歸分析所得之各斜率即為標準化淨斜率(standardizedpartialslopes)亦稱之為beta-weights(即標準化的迴歸係數),可以b*來代表,而每一b*即為在控制其它變項之情況下,某一自變項變動一個標準單位(即標準差時),會對Y之標準化後之分數有何增減(換言之,會影響增減幾個Y的標準差)。
事實上,在三個變項迴歸分析之情況下,
b1*=b1
b2*=b2
在各變項標準化後,原迴歸方程式可寫成
Zy=aZ+b1*Z1+b2*Z2而在此aZ=0(為什麼?
)故上式即為
Zy=b1*Z1+b2*Z2-----------------(5)
公式2及公式5在實質解釋上各有其功能,透過公式2我們可以分別解釋各個自變項之原來的測量單位變化時(如受教育之年數)對Y(如元)之影嚮。
而公式5則在了解自變項之間對Y之相對影響力或相對重要性。
陸、複相關
複迴歸方程式可讓我們解釋每個自變項在控制其它自變項之情況下,對應變項之獨立影響力為何,而透過複相關之分析,我們可知所有自變項綜合起來對Y之整體影嚮力為何,也就是說,我們可計算一複相關係數R(multiplecorrelationcoefficient),以及複決定係數R2(coefficientofmultipledetermination),而三變項間之複相關係數R是
三變項間之複決定係數是
R2=r2y1+r2y2.1(1-r2y1)(請問各r2代表什麼?
)
R2意義和以前所學之兩變項間之r2意義相同(請問此意義為何?
)
柒、複迴歸及複相關之限制
複迴歸及複相關可說是多變項分析之極致(至少以我們教材的範圍來說)。
這種強而有力之分析法也有其限制:
一、這類分析要有極高品質之資料,即每一變項應是interval-ratiolevel之變項,此外,此種分析之基本假定是Y和個別X之關係為線性。
(要如何檢驗此假定?
)
二、在本章之介紹中是假定變項間並無交互作用存在。
三、複迴歸及複相關之分析基本上是假定各自變項間並無相關存在。
事實上,我們較彈性之假定是各對自變項間之相關極低。
當上述基本假定被違反時,我們得到之b及R2會依違反程度之增加而減低其可靠性,此種分析法也亦不適合。
捌、淨相關,複迴歸與相關進一步的說明
1、三個變項間複相關的進一步說明
R2Y.12=r2Y1+r2Y2.1(1-r2y1)
ProportionProportionProportionProportion
explainedbyexplainedbyexplainedbyunexplainedby
X1X2X1X2X1
controllingfor
X1
2、多變項間複相關的公式
R2i.jk=r2ij+r2ik.j(1-r2ij)
=r2ik+r2ij.k(1-r2ik)
三、迴歸分析之基本假定的進一步說明
在此特別將迴歸分析之基本假定做一系統性的介紹。
這些基本假定不論是簡單的兩變項或多變項之迴歸分析都應具備的。
在介紹假定前,先將一些符號弄清楚。
一個迴歸分析之模式(regressionmodel)之例子是:
Y=a+b1X1+b2X2+e
其中e是誤差項(這是先前未提到的),此即Yi到迴歸線或迴歸面上的距離。
此模式是針對整個樣本來說的。
如果將此模式落實在每一個樣本個案上則:
Yi=ai+b1Xi1+b2Xi2+ei
即i這一個案之Y值是如何分成被X解釋及不被X解釋之部分(即ei)。
上述各係數(如a,b)都是總樣本得來之估計值,此模式在母群體是以
Y=+1X1+2X2+ε來表示,而母群中每個Yi之模式是
Yi=i+1Xi1+2Xi2+εi
了解這些符號後,下面就介紹一些重要的基本假定。
(一)無specificationerror(無模式設定上之錯誤)
1、各X與Y間之關係是線性的
2、和Y相關之自變項未排除在迴歸模式之外
3、和Y無關之自變項並未包含在迴歸模式之內
這個假定基本上是說在理論模式上,凡認為是解釋Y的重要原因都應包含在迴歸模式中,不能解釋Y的,即不應包含在內(當然一個重要的關鍵是我們必須有正確的理論)。
此外,X與Y之間之 functionalform(函數關係)必須是線性的。
(二)無測量上的錯誤;即X和Y都是正確測量出來之變項,如無受訪者回答上之錯誤或測量問卷中之問題不夠精確等。
(三)下列假定是和誤差項有關的
1、ε之平均數為0;即E(εi)=0
2、Homoskedasticity;即E(ε12)=2也就是說,ε之變異
量在每一X值上是一樣的。
3、εi和εj間並無相關;即E(εi,εj)=0,i=j,
換言之,如果一個人問兩次同樣的問題所得到的答案,並 非獨立之觀察。
4、εi和Xi並無相關,即E(εi,Xi)=0,也就是說,誤
差項不應與自變項有任何相關。
5、εi是常態分配。
請注意關於εi之分配特性,如常態及Homoskedasticity,事實上即在假定Y之分配特性(為什麼?
)
(四)各個自變項間是無相關的,或至少是無perfect或high
multicollinearity
*當基本假定由
(1)至(3)d能夠維持時,則我們可從樣本中得到母數之良好估計值,即a,b之估計值是所謂的BLUE(BestLinearUnbiasedEstimates)。
在複迴歸分析時,要求得每一迴歸係數為BLUE,則需要再加上第四個基本假定,即無multicollinearity(多元共線性)之問題。
第(3)e之基本假定是和能有效的做估計值之假設測定有關。
四、淨相關(PartialCorrelation)之進一步說明
淨相關之觀念,可從下面另外一種角度來看,以兩個自變項X1,X2與一個應變項Y之間的關係為例,如果我們先將Y迴歸到s
X2上,則每一Yi值可以Yi=ai+bXi2+eiy表示,eiy為此模式之誤差項,亦即各Y點和迴歸線a+bX之差距,而此誤差項也就是Y無法被X2解釋的部分。
若我們再將X1迴歸到X2上即Xi1=ai+bXi2+eix1則若X1與X2有相關,即b≠0,則eix1的部分即為Xi1中無法被X2所解釋的部分。
在這兩種迴歸分析後,各迴歸程式均產生一誤差項,以eiy為例,就是每一個Y值去除被X2所解釋部分後剩餘之值。
以收入與工作年資為例,要是 收入=5000+1000(年資)+e則-收入10000元,工作兩年者,其ei=10000-5000-1000
(2)=3000
而在三變項相關分析之情況下,Y與X1之淨相關ry1.2(即控制X2之情況下所得Y與X1之相關)就是eiy與eix1之相關。
由此,可清楚看出,所謂控制X2之情形下,所得之Y與X1的淨相關,就是將X2對X1及Y之影響排除後,所得到之調整過後之X1及Y之相關。
淨相關係數亦可看成是在將控制變項X2之值看成是許多的類別,而在每一類別中之Y與X,都有一相關係數,若將這些相關係數求一WeightedAverage即為此Y及X1之淨相關,若更進一步假定multivariatenormaldistribution時,不論控制變項之值為何,任何控制變項之值內之其它兩變項的相關係數是一樣的,自然這種狀況或假定在真實資料中是極少看到或符合的。
讓我們仔細看看求淨相關係數之公式,以三個變項為例:
ry1.2=
此為控制X2,Y及X1之淨相關的公式
在此公式中,可看出分子部分是將ry1減去一修正因素(Correctionfactor,即(ry2)(r12)),而分母部分則是兩個修正因素,任何一個都不會大過1。
這公式即和前面所說淨相關是將控制變項對Y及X1之影響排除於計算中之觀念是相一致的。
若將ry1.2平方得到ry1.22,此平方值是意謂著Y之變異量中不能被X2解釋之部分(即排除被X2之解釋部分後剩下之Y的變異量部分中),被調整過後之X1(即將X1中和X2相關之部分排除後之X1值)所能解釋之比例(即調整過之X1,能解釋調整過之Y的變異量之比例)。
若假設ry1為正。
當ry2及r12為同方向之相關(即都為正或負相關)時,則(ry2)(r12)亦為正,在此情形下,上面公式之分子部分會是一小於ry1之正數或會是0,甚至是一負數,此外,分母部分會永遠小於1,除非ry2及r12均為0。
而當ry2及r12為相反方向之相關時,則(ry2)(r12)為一負數,因此上面公式中之分子為一大於ry1之正數(仍假設ry1為正)。
這意謂著說,若兩變項為正相關,而控制變項與此兩變項之一為正相關,另一為負相關時,原兩變項在此第三變項受控制時之淨相關會大過此二變項之零度相關。
另外,當控制變項與兩變項中任何一變項之相關為0時,分子部分之(ry2)(r12)會等於0,但因分母永遠小於1(除非ry2=r12=0),在此情形下,淨相關也大於原來之零度相關(您能想像當ry1為負相關時,上面公式之各種變化嗎?
)
五、淨相關及因果關係之解釋
當我們想到因果關係時,經常會認為時間發生之先後是因果關係中之必要成分。
因此,若A為B之因,則A發生時B就會出現;A不發生時,B不會出現。
自然這種觀念是極簡化的想法。
一來,A,B之關係可能會受到第三者之影響,二來A,B之關係可能是程度上之變化,而非有無而已。
自然,變項間之因果關係不是由實證資料中所能看出的,我們往往是能看出變項間相關之程度以及時間發生之順序而已。
由此兩種觀察,加上我們的理論想像,認為變項間有某種邏輯之關係或B必然會隨A發生時,則我們可以做因果關係之解釋。
自然若是我們並無任何理由做此想像時,則變項間是否有因果關係,自是需要採保留之態度。
我們或可說在變項間之關係是虛假的(spurious)。
就以三個變項間之關係為例,如下圖所示,三者間可有多種因果之關係。
Z
X Y
在這三種可能之情況下,我們通常要做兩種基本假定,或理論上之假定。
一種基本假定是,三變項間之一些因果關係並不存在。
最常做之假定是,任何兩變項間之因果關係是單向的(想想看
X Y是何意思?
)。
第二種基本假定是,任何影響X之因素,和任何影響Y及Z之因素並無相關。
這意謂著任何未包含在此之變項系統內之因素,並不會影響X、Y、Z三者間之關係。
如果有這種因素存在的話,那我們就應將此因素包含在系統中,成為一四變項之系統,不然就犯了specificationerror。
這也是spuriousrelation之情況會存在之原因。
此外當我們說沒有任何其它因素會影響到此設定之系統時,我們就等於在說此系統是一封閉的系統(aclosedsystem)
那麼因果關係之系統和淨相關有何關係呢?
這主要是要看我們如何設定三變項之因果關係,任何兩變項之淨相關即可由此因果系統中推論或假設出來,以下二圖為例。
ZZ
XYXY
圖一圖二
圖1及圖2均看出Z及Y之關係是間接的,事實上如在母群中,X、Y、Z之關係如上二圖中任何一圖,則
yz=xyxz由此可看出,因任何兩變項相關係數不會大於1,因此yz必然小於xy或xz(除非xy或xz有一係數為1)。
而如上二圖中之任何一種情況所示,我們會假設當控制X時 yz=0
若X、Y、Z之關係如下圖:
Z
X Y
請問在控制X之情形下,Z、Y之間的淨相關與不控制X之情形下,Z、Y之相關有何不同?
yz.x之淨相關會比yz之零度相關大或小?
六、複迴歸及標準迴歸(Beta)係數
若X1、X2、X3三變項之關係(注意迴歸分析中,常以X1或X0來代替Y),可以下列迴歸程式來表示
X1=a1.23 + b12.3 X2+ b13.2X3
b12.3及b13.2表示計算任何一個自變項的b時,迴歸程式中另一個自變項已被控制,換言之,在複迴歸中之b是可看成淨斜率,而其計算如下:
a1.23=X1-b12.3X2-b13.2X3
b12.3=b12-(b13)(b23)
1-b32b23
你可注意到分母之計算和淨相關之型式不同。
此外,你是否記得 r232=b23b32。
淨斜率(PartialSlope)之意義是,當其它自變項是被控制的狀態下(即remainconstant,保持固定),此一個自變項變化一個單位時,對依變項會產生的影響,因此PartialSlope即為某一自變項對依變項之直接影響(directeffect),但這直接影響為0時,並不代表說這一自變項對依變項毫無影響力,因為這必須視變項間之因果關係的模式才能看出。
因此在多變項的狀態下,一個變項是否比其它變項重要,需要知道整個因果關係模式的結果,將直接及間接之影響力都考慮進去後才能曉得。
為了要能知道變項間之相對重要性,我們已學到要求得標準迴歸係數。
求標準迴歸係數之方法之一是將各變項標準化(即將各變項之數值減去其平均數後,除以其標準差),然後做迴歸分析。
這些求得的迴歸係數即為標準迴歸係數,又稱為betaweights。
在一簡單因果關係之模式中,即所有因果關係都是單方向的因果關係結構,此betaweights又稱做是因徑係數(PathCoefficients),以
Pij來表示,以下圖為例即是一簡單之多變項的因果模式。
(注意因徑係數之符號不須有控制變項之表示)
P21
X1 X2
P31P41P52
X4
P53P54
X3 X5
此模式須以一聯立迴歸方程式來表示,此種因果關係分析,亦稱之為因徑分析(PathAnalysis)。
以上圖為例,其聯立方程式為:
X2=P21X1
X3=P31X1
X4=P41X1
X5=P52X2+P53X3+P54X4
注意在此所稱之betaweights若以符號表示是,但此不是指母數,而是由樣本求得之一標準化迴歸係數,故要區別,標準係數和未標準化之b的關係是
ij.k=bij.k
其中sj、si為Xi、Xj變項之標準差
(這是指控制那一變項下之?
)。
又
ij.kl=bij.kl
而ij.k和淨相關係數之關係如下公式:
ij.k=
請問求rij.k之公式為何?
事實上 rij.k2=(ij.k)(ji.k)
求得了各betaweights後,我們即可進一步看出在一多變項之簡單因果關係模式中,任何兩個變項之bivariatecorrelation(在此又叫totalcorrelation)是由PathCoeficients及另一totalcorrelation所組成的,而這另一totalcorrelation本身也許也可分成兩部分,換言之,totalcorrelaton是直接與間接關係所組成的。
分解任何totalcorrelation,rij,之規則是:
1、先確認所有直接畫到依變項Xi的表示因果關係之箭頭。
如上圖之X3只有X1有箭頭到其位置,X5則X2、X3、X4之箭頭到其位置。
2、如果我們要想分解的是Xj及Xi之totalcorrelation即rij,是要
先將任何到Xi之Xk(即對Xi有直接影響力之變項)之因徑
係數Pik乘以Xk及Xj之totlacorrelation(即rkj)。
3、將所有2項之乘積相加,即得
rij=Pikrkj
k
若以上圖之因果模式為例
r12=P21r11=P21
(1)=P21,同樣的
r13=P31, r14=P41
但是r23=P31r12=P31P21,因此r23被分解成兩個PathCoefficients,此二PathCoefficients代表X1到X2及X3之直接因徑或直接影響力。
由於r23=P31P21=r13r12,因此如上述因果關係是正確的話,則
r23-r13r12=0,即r23.1=0
(您是否會分解r15?
)(r15=P52r12+P53r13+P54r14您是否可將此全由PathCoefficients來表示?
)
六、建立虛擬變項(dummyvariable)
先前對迴歸分析的介紹中,所有的自變項都假定是等距/比值的變項。
但研究者在從事迴歸分析時,所感興趣的自變項中,有些是名目或類別尺度的變項,如性別、婚姻狀態、政黨偏好、宗教信仰等。
在這種情況下,我們不能將這些變項的類別給予高低的分數後,直接納入迴歸分析中。
解決的方式之一是將這些類別分別做成只有0與1兩個數值的虛擬變項。
當我們的類別變項只有兩個類別時,我們只需建構一個虛擬變項,將其中一個類別給與1的數值,另一類別則給0。
如性別,可以建構出一個「女性」的虛擬變項,當樣本中的個案之性別為女性時,則為1;為男性時,則為0。
當類別多過兩個時,則我們需要建立K-1個虛擬變項,K是類別的數目,如下表:
表1建立婚姻狀態的虛擬變項
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第十八章 净相关复回归及复相关 第十八 相关 回归