迴歸分析漫談(Regression Analysis) 江銘輝 五夢網
研究多個(或一個)隨機變數(Y1,Y2, Y3, Y4,……, Yi)與另一些隨機變數(X1,X2, X3, X4,……, Xk),關係的統計方法,叫迴歸分析。迴歸分析的由來是高爾登(Sir Francis Galton)比較兒子與其父親的身高時,祖先是高父親的兒子經世代相傳,會回歸到全體人口的平均高度,因此祖先是特別高的人,其後代有矮化的趨勢,換言之,因此祖先是特別矮的人,其後代有長高的趨勢。現今統計學的迴歸分析只單純作各種預測分析,沒有迴歸至全體平均值的意思。迴歸分析中最簡單的是y = a+ bx的線性迴歸曲線。
根據過去,預測未來
因為過去是如此,將來也是如此。每天搭20路車子上班,所以昨天、今年都搭它上班,這是想當然兒。然而,然人類社會,有許多狀況,過去是如此,但未來未必是如此。昨天20路車子的,今日可能改道。雖然如此,社會還是存在許多的因為,如此。所以我們必須從許多的「因為」場合,模擬「如此」的應付方法。這就需要「預測能力」。
時間數列的迴歸分析
時間數列的迴歸分析法就是收集一段時間之內的種種數據,分析並推算其趨勢,再按其趨勢推出未來可能的結果。例如:有一去企業經營超市很成功,開業第一年就設10家分店,在業務蒸蒸日上後,第2年分店增到12家,第3年分店增到16家、第4年22家、第5年30家,5年之內,分店增加3倍。它可以畫成圖1的圖形。橫軸代表時間,以年為單位;縱軸代表分店數,黑點表示理論值,星號表是實際開店數。
現在讓我們來預測再過3年超市可能增加到幾店。為了求問題答案,我們從這些實績點的軌跡劃出一條直線,條件是所有實績點與此直線的距離為最短。若實績點在直線上方距離則記下正數,在直線下方距離則記下負數,所為實績點與此直線的距離為最短,就是所有點的正數加負數的和是0。這條直線我們稱為迴歸線。只要知道迴歸線我們就可預測再過3年超市可能增加到幾店。
用簡單數學求出迴歸線
圖1:企業家每年增加數目
由圖1,可知它是一條直線的迴歸線,它的數學式是:
Y= a+bx;從所有實績點與此直線的距離為最短的條件中我們可得出(我們暫時略去推算a、b的過程):
b= (nΣxiyi-【Σxi】【Σyi】)/(nΣxi2-【Σxi】2)……(1)
a=y-bx……(2)y、x 是平均值。
因此上面問題求出a、b值的方法如下:
1. 將5年的x值(1、2、3、4、5)相加,得15。
2. 將5年的分店數,即所有y值(10、12、16、22、30)相加,得90。
3. 記下每年的的x×y值,並求其總和為320。
4. 求每年的x2值,並求其總和為55。
將1、2、3、4的值 製成下表示:
|
x
|
y
|
Xy
|
X2
|
第一年
|
1
|
10
|
10
|
1
|
第二年
|
2
|
12
|
24
|
4
|
第三年
|
3
|
16
|
48
|
9
|
第四年
|
4
|
22
|
88
|
16
|
第五年
|
5
|
30
|
150
|
25
|
合計
|
15
|
90
|
320
|
55
|
表:迴歸線Y= a+bx;a、b值的計算表
由公式1得b=(5×320-15×90)/(5×55-152)=250/50=5
由公式2及圖1;得 a=y-bx,當x為1時,y為8;b為5,得a為3。
因此此條迴歸線是Y=3+5x
只要知道迴歸線,未來預測就很簡單,三年後,亦即第8年開店的欲估值是:
Y=3+5×8=43
四種類型的迴歸線
上面所舉例的超級市場分店的例子,它的迴歸線是直線。所以是直線的,因為它每年以等差級數的數量增加,畫出來的曲線是直線。其圖型如圖2。
圖2:直線型迴歸曲線(y= a+bx)
2. 指數型迴歸線
但是,世界上每一樣事物的增加方式並不都是直線。例如細菌的繁殖方式就不是。假定細菌是每分鐘以1倍的比例在繁殖。如國果繁殖一公升的細菌須要24小時,那麼繁殖半公升的細菌需多少小時?答案當然不是12小時,正確數字是23小時59分鐘,1分鐘增加1倍,其時增加的比率也是定值,經濟成長也是一樣,假設民國五十年的國民總生產額為8億8千萬元,民國60年卻達43億2千萬元,它應該不是每年以1億元的等差數目在增加,它大約是每年以10%的速率在增加。換句話說,如有一年的國民總生產額為9億元,第二年鷹該是9億9千萬元。如果某一年是43億元,次年則應該是47億3千萬元,這種情況的迴歸線是屬於圖3的急速上升指數曲線型。
圖3:指數型迴歸曲線(y= abx)
3. 對數型迴歸線
相反的,有一種情形是增加的幅度隨著時間的延長而減低。例如,小孩體重增加的情形。剛出生嬰兒的體重大約3公斤,滿週歲時已到了大約9公斤。等於說一年增加了6六公斤,亦即增加3倍。如果按這種比率增加的話,8歲就應該到達57公斤,這就變成大人了。事實上並不然,一般情況是,滿2歲是11公斤(增加22%),滿3歲才12.8公斤(增加16%)其增加的速率逐年在下降。這種情形的迴歸線是屬於圖4的對數型曲線。
圖4:對數型迴歸曲線(y= logb ax)
4. 邏輯型迴歸線
第四種情形是,如圖5的S型曲線,這種曲線稱為邏輯曲線,是經常使用於預測商品需要量的迴歸線。以電視機的情形為例,當電視剛開出現始的時候,電視機對於一般人來說仍是可望而不可及的奢侈品,除非有錢人家,屋頂上的天線寥寥無幾。等到第二家,第三家電視台陸續開播後,節目內容有了改進,各種盛大的現場轉播引起了一般人的興趣,既然隔壁裝了電視機,我家也不落後的,在這種情況下,電視機的銷售率,急速上升。如圖5上的B點。
圖5:邏輯型迴歸曲線(y=R/(1+ae-bx))
以上所述直線型、指數型、對數型、邏輯型乃是迴歸線的四種型態。一般經濟都是越來越繁榮,但世界上還是有許多向下降的曲線,比如:沒落的商品、農村人口的增加率,年齡與頭髮,都是。也有曲線下降是可喜的,例如,車禍,空氣污染、夫妻吵架的次數……等等。
如何選擇迴歸曲線
我們所搜集的數據究竟與那一種迴歸曲線最相似,換言之,我們如何選擇迴歸曲線。簡單地說明如下,供我們靈活應用這四種基本類型。
1. 直線型迴歸曲線
隨時間變化的直線迴歸線是增加的數值為等差,亦即,單位時間內的工作量相等。這種例子極為普遍,也是最基本的例子。如步行的時間和步行距離,或者每月儲蓄一定金頓的儲蓄總額,都是直線型的迴歸線。只要實際點差不多散佈在一個直線方向,則用直線來預測未來並無不妥。這種迴歸線則以y=a+bx來表示。
2. 指數型迴歸曲線
亦即未來的趨勢線是以等比或近於等比延伸的曲線,比如說,經濟成長率每 年10%,就是典型的指數型曲線,這一類實例也相當多。如前述細菌的繁殖情形.或每年以一定百分比上昇的物價等,都是等比的延伸曲線。經濟或企業的管理,如果基數大,則其延伸的絕對量也隨著增大,因此一般都使用指數曲線。這種迴歸式以y= abx表示之。
3. 對數型迴歸曲線
這種曲線的性質是,開始的延伸的幅度逐漸變小,最後近於水平延伸。它適用於身高,體重等增加量有限接的情形,或者,如高爾夫球和圍棋等技術的進步等都可以利用這種曲線來預測,其他如沒落中商品的生產量也是屬於這種類型。迴歸曲線為y= logbax。
4. 邏輯型迴歸曲線
這種曲線一般應用於商品的普及率或商品壽命的預測。只要開始的增加量小,中間大,最後不再增加的情形都可以適用。有些人的高爾夫球技或圍棋的進步情形的時間數列並不屬於上述的對數曲線型,而屬於邏輯型曲線,其迴歸曲線為y=R/(1+ae-bx),R是常數。
上述直線型,指數理,對數型和邏輯型是四種迴歸線的基本型態。只要將隨時間變化的數據套入其中適合的迴歸式,然後計算它的值就可以。直線迴歸式的計算方法前面已經說明。指數型.對數型,邏輯型迴歸式的計算方法請參閱註1、2、3。有些曲線雖然類似指數型或對數型,但是,其預測場合卻以二次式曲線比較安當。其計算方法如註4。
註1:
指數型迴歸曲線的計算方法
Y= abx
取二邊的對數
log y= log a+ x log b
設log a=a’; log b= b’; log y= y’;
則y’= a’+ xb’
然後根據直線的迴規線計算方法求a’、 b’的值。則可以得迴規曲線。
註2:
對數型迴歸曲線的計算方法
Y= logb ax
還原為指數型,則:
by= ax
x= 1/a×b8
設log x=x’
log 1/a=a’; log b=b’,則:
log(x)= log(1/a×by)= log(1/a)+ log(by)
x’= a’+ b’y
然後根據直線的迴規線計算方法求a’、 b’的值。則可以得迴歸曲線。
註3:
邏輯型迴歸曲線的計算方法
邏輯型迴歸曲線為:y=R/(1+ae-bx);將式變為:y/R=1/(1+ae-bx);即:
R/y=1+ae-bx;即:(R-y)/y = ae-bx=a/ebx;即:y/(R-y)=1/a×ebx
二邊取對數:log y/(R-y)= log【1/a×ebx】;得log y/(R-y)= bx- loga
設log y/(R-y)= y’; - loga=a’;則y’= a’+bx
然後根據直線的迴規線計算方法求a’、 b’的值。則可以得迴歸曲線。
註4:
二次曲線的迴歸曲線計算方法
二次曲線的迴歸曲線為y= a+b+bx+cx2
解方程式
Σy = na+ bΣx + cΣx2
Σxy= aΣx + bΣx2+ cΣx3
Σx2y= aΣx2 + bΣx3+ cΣx4
Σ:為總和;求a、b、c。
預測值的準確度
如圖6、7;圖6,所有實績點都很靠近迴歸線,或者落在線上。圖7的場合,實績點的散佈比較廣,因此,在圖6,求三年後的預測值,預測對的機率很大,相反的,在圖7的場合,從線上取3年後的預測值,將會使人懷疑它的可靠性。
根據迴歸線和實績點散佈的情形.預測可以分為「可靠」或「不可靠」。測定實績點散佈的情形稱為相關係數。不管迴歸曲線是直線或曲線.其相關係數的計算方法皆相同。
茲舉前述超級市場的分店擴充為例,說明相關係數的計算方法。
1. 將超級市場的資料排成表2的形式。表上 x-x的值是每年的x的值與x的平均值(本例的平均值等於3)的差。第2年是2-3=-1。同樣地,y-y的值是每年的y的值與y的平均值(本例的平均值是18),第4年應該是22-18=4。
2. 求出每年的x和y值後,再計算x × y、x2、y2的值,然後再求合計值,x × y的合計值是50。x2的合計為1O,y2的合計為264。 根據下面的公式求相關係數R。
R= xy的合計/(x2的合計×y2的合計)的開根號 =50/(10×264)的開根號=50/51.4=0.973
這表是實績點與回歸線的分佈情況,如果實績點的分佈再靠近回歸線,則相關係數可能是0.99,如果實績點全部落在回歸線上,那麼相關係數就是1。如果相關係數是負數,則實績點大部分落在右下方。如果相關係數底低於0.9,甚至連0.8都不到那麼從這條回歸線所作預測值的準確度就有問題。