回归分析漫谈(Regression Analysis)江铭辉 五梦网
研究多个(或一个)随机变数(Y1,Y2, Y3, Y4,……, Yi)与另一些随机变量(X1,X2, X3, X4,……, Xk),关系的统计方法,叫回归分析。回归分析的由来是高尔登(Sir Francis Galton)比较儿子与其父亲的身高时,祖先是高父亲的儿子经世代相传,会回归到全体人口的平均高度,因此祖先是特别高的人,其后代有矮化的趋势,换言之,因此祖先是特别矮的人,其后代有长高的趋势。现今统计学的回归分析只单纯作各种预测分析,没有回归至全体平均值的意思。回归分析中最简单的是y = a+ bx的线性回归曲线。
根据过去,预测未来
因为过去是如此,将来也是如此。每天搭20路车子上班,所以昨天、今年都搭它上班,这是想当然儿。然而,然人类社会,有许多状况,过去是如此,但未来未必是如此。昨天20路车子的,今日可能改道。虽然如此,社会还是存在许多的因为,如此。所以我们必须从许多的「因为」场合,模拟「如此」的应付方法。这就需要「预测能力」。
时间数列的回归分析
时间数列的回归分析法就是收集一段时间之内的种种数据,分析并推算其趋势,再按其趋势推出未来可能的结果。例如:有一去企业经营超市很成功,开业第一年就设10家分店,在业务蒸蒸日上后,第2年分店增到12家,第3年分店增到16家、第4年22家、第5年30家,5年之内,分店增加3倍。它可以画成图1的图形。横轴代表时间,以年为单位;纵轴代表分店数,黑点表示理论值,星号表是实际开店数。
现在让我们来预测再过3年超市可能增加到几店。为了求问题答案,我们从这些实绩点的轨迹划出一条直线,条件是所有实绩点与此直线的距离为最短。若实绩点在直线上方距离则记下正数,在直线下方距离则记下负数,所为实绩点与此直线的距离为最短,就是所有点的正数加负数的和是0。这条直线我们称为回归线。只要知道回归线我们就可预测再过3年超市可能增加到几店。
用简单数学求出回归线
图1:企业家每年增加数目
由图1,可知它是一条直线的回归线,它的数学式是:
Y= a+bx;从所有实绩点与此直线的距离为最短的条件中我们可得出(我们暂时略去推算a、b的过程):
b= (nΣxiyi-【Σxi】【Σyi】)/(nΣxi2-【Σxi】2)……(1)
a=y-bx……(2)y、x 是平均值。
因此上面问题求出a、b值的方法如下:
1. 将5年的x值(1、2、3、4、5)相加,得15。
2. 将5年的分店数,即所有y值(10、12、16、22、30)相加,得90。
3. 记下每年的的x×y值,并求其总和为320。
4. 求每年的x2值,并求其总和为55。
将1、2、3、4的值 制成下表示:
|
x
|
y
|
Xy
|
X2
|
第一年
|
1
|
10
|
10
|
1
|
第二年
|
2
|
12
|
24
|
4
|
第三年
|
3
|
16
|
48
|
9
|
第四年
|
4
|
22
|
88
|
16
|
第五年
|
5
|
30
|
150
|
25
|
合计
|
15
|
90
|
320
|
55
|
表:回归线Y= a+bx;a、b值的计算表
由公式1得b=(5×320-15×90)/(5×55-152)=250/50=5
由公式2及图1;得 a=y-bx,当x为1时,y为8;b为5,得a为3。
因此此条回归线是Y=3+5x
只要知道回归线,未来预测就很简单,三年后,亦即第8年开店的欲估值是:
Y=3+5×8=43
四种类型的回归线
1. 直线型回归线
上面所举例的超级市场分店的例子,它的回归线是直线。所以是直线的,因为它每年以等差级数的数量增加,画出来的曲线是直线。其图型如图2。
图2:直线型回归曲线(y= a+bx)
2. 指数型回归线
但是,世界上每一样事物的增加方式并不都是直线。例如细菌的繁殖方式就不是。假定细菌是每分钟以1倍的比例在繁殖。如国果繁殖一公升的细菌须要24小时,那么繁殖半公升的细菌需多少小时?答案当然不是12小时,正确数字是23小时59分钟,1分钟增加1倍,其时增加的比率也是定值,经济成长也是一样,假设民国五十年的国民总生产额为8亿8千万元,民国60年却达43亿2千万元,它应该不是每年以1亿元的等差数目在增加,它大约是每年以10%的速率在增加。换句话说,如有一年的国民总生产额为9亿元,第二年鹰该是9亿9千万元。如果某一年是43亿元,次年则应该是47亿3千万元,这种情况的回归线是属于图3的急速上升指数曲线型。
图3:指数型回归曲线(y= abx)
3. 对数型回归线
相反的,有一种情形是增加的幅度随着时间的延长而减低。例如,小孩体重增加的情形。刚出生婴儿的体重大约3公斤,满周岁时已到了大约9公斤。等于说一年增加了6六公斤,亦即增加3倍。如果按这种比率增加的话,8岁就应该到达57公斤,这就变成大人了。事实上并不然,一般情况是,满2岁是11公斤(增加22%),满3岁才12.8公斤(增加16%)其增加的速率逐年在下降。这种情形的回归线是属于图4的对数型曲线。
图4:对数型回归曲线(y= logb ax)
4. 逻辑型回归线
第四种情形是,如图5的S型曲线,这种曲线称为逻辑曲线,是经常使用于预测商品需要量的回归线。以电视机的情形为例,当电视刚开出现始的时候,电视机对于一般人来说仍是可望而不可及的奢侈品,除非有钱人家,屋顶上的天线寥寥无几。等到第二家,第三家电视台陆续开播后,节目内容有了改进,各种盛大的现场转播引起了一般人的兴趣,既然隔壁装了电视机,我家也不落后的,在这种情况下,电视机的销售率,急速上升。如图5上的B点。
图5:逻辑型回归曲线(y=R/(1+ae-bx))
以上所述直线型、指数型、对数型、逻辑型乃是回归线的四种型态。一般经济都是越来越繁荣,但世界上还是有许多向下降的曲线,比如:没落的商品、农村人口的增加率,年龄与头发,都是。也有曲线下降是可喜的,例如,车祸,空气污染、夫妻吵架的次数……等等。
如何选择回归曲线
我们所搜集的数据究竟与那一种回归曲线最相似,换言之,我们如何选择回归曲线。简单地说明如下,供我们灵活应用这四种基本类型。
1. 直线型回归曲线
随时间变化的直线回归线是增加的数值为等差,亦即,单位时间内的工作量相等。这种例子极为普遍,也是最基本的例子。如步行的时间和步行距离,或者每月储蓄一定金顿的储蓄总额,都是直线型的回归线。只要实际点差不多散布在一个直线方向,则用直线来预测未来并无不妥。这种回归线则以y=a+bx来表示。
2. 指数型回归曲线
亦即未来的趋势线是以等比或近于等比延伸的曲线,比如说,经济成长率每 年10%,就是典型的指数型曲线,这一类实例也相当多。如前述细菌的繁殖情形.或每年以一定百分比上升的物价等,都是等比的延伸曲线。经济或企业的管理,如果基数大,则其延伸的绝对量也随着增大,因此一般都使用指数曲线。这种回归式以y= abx表示之。
3. 对数型回归曲线
这种曲线的性质是,开始的延伸的幅度逐渐变小,最后近于水平延伸。它适用于身高,体重等增加量有限接的情形,或者,如高尔夫球和围棋等技术的进步等都可以利用这种曲线来预测,其他如没落中商品的生产量也是属于这种类型。回归曲线为y= logbax。
4. 逻辑型回归曲线
这种曲线一般应用于商品的普及率或商品寿命的预测。只要开始的增加量小,中间大,最后不再增加的情形都可以适用。有些人的高尔夫球技或围棋的进步情形的时间数列并不属于上述的对数曲线型,而属于逻辑型曲线,其回归曲线为y=R/(1+ae-bx),R是常数。
上述直线型,指数理,对数型和逻辑型是四种回归线的基本型态。只要将随时间变化的数据套入其中适合的回归式,然后计算它的值就可以。直线回归式的计算方法前面已经说明。指数型.对数型,逻辑型回归式的计算方法请参阅注1、2、3。有些曲线虽然类似指数型或对数型,但是,其预测场合却以二次式曲线比较安当。其计算方法如注4。
注1:
指数型回归曲线的计算方法
Y= abx
取二边的对数
log y= log a+ x log b
设log a=a’; log b= b’; log y= y’;
则y’= a’+ xb’
然后根据直线的回规线计算方法求a’、 b’的值。则可以得回规曲线。
注2:
对数型回归曲线的计算方法
Y= logb ax
还原为指数型,则:
by= ax
x= 1/a×b8
设log x=x’
log 1/a=a’; log b=b’,则:
log(x)= log(1/a×by)= log(1/a)+ log(by)
x’= a’+ b’y
然后根据直线的回规线计算方法求a’、 b’的值。则可以得回归曲线。
注3:
逻辑型回归曲线的计算方法
逻辑型回归曲线为:y=R/(1+ae-bx);将式变为:y/R=1/(1+ae-bx);即:
R/y=1+ae-bx;即:(R-y)/y = ae-bx=a/ebx;即:y/(R-y)=1/a×ebx
二边取对数:log y/(R-y)= log【1/a×ebx】;得log y/(R-y)= bx- loga
设log y/(R-y)= y’; - loga=a’;则y’= a’+bx
然后根据直线的回规线计算方法求a’、 b’的值。则可以得回归曲线。
注4:
二次曲线的回归曲线计算方法
二次曲线的回归曲线为y= a+b+bx+cx2
解方程式
Σy = na+ bΣx + cΣx2
Σxy= aΣx + bΣx2+ cΣx3
Σx2y= aΣx2 + bΣx3+ cΣx4
Σ:为总和;求a、b、c。
预测值的准确度
如图6、7;图6,所有实绩点都很靠近回归线,或者落在在线。图7的场合,实绩点的散布比较广,因此,在图6,求三年后的预测值,预测对的机率很大,相反的,在图7的场合,从在线取3年后的预测值,将会使人怀疑它的可靠性。
根据回归线和实绩点散布的情形.预测可以分为「可靠」或「不可靠」。测定实绩点散布的情形称为相关系数。不管回归曲线是直线或曲线.其相关系数的计算方法皆相同。
兹举前述超级市场的分店扩充为例,说明相关系数的计算方法。
1. 将超级市场的数据排成表2的形式。表上 x-x的值是每年的x的值与x的平均值(本例的平均值等于3)的差。第2年是2-3=-1。同样地,y-y的值是每年的y的值与y的平均值(本例的平均值是18),第4年应该是22-18=4。
2. 求出每年的x和y值后,再计算x × y、x2、y2的值,然后再求合计值,x × y的合计值是50。x2的合计为1O,y2的合计为264。 根据下面的公式求相关系数R。
R= xy的合计/(x2的合计×y2的合计)的开根号 =50/(10×264)的开根号=50/51.4=0.973
这表是实绩点与回归线的分布情况,如果实绩点的分布再靠近回归线,则相关系数可能是0.99,如果实绩点全部落在回归线上,那么相关系数就是1。如果相关系数是负数,则实绩点大部分落在右下方。如果相关系数底低于0.9,甚至连0.8都不到那么从这条回归线所作预测值的准确度就有问题。