离均、方差、均方差、协方差听起来都差不多,但能在日常工作生活中用到这些概念的人并不多。今天就来说说区别吧。

要理解什么是偏离均值、方差、均方差、协方差,首先要从均值的概念说起。即使是数学最差的人也应该知道算术平均数是多少。

以标普500指数为例。2018年9月10日至9月21日共有10个交易日。自然有10个标普500指数收盘价。将这10个交易日的标准普尔500指数收盘价相加,除以10个交易日,这10个交易日的标准普尔500指数平均收盘价为2902.46。

日期

标准普尔500指数x

平均值/均值

2018-9-10

2,877.13

2,902.46

2018-9-11

2,887.89

2018-9-12

2,888.92

2018-9-13

2,904.18

2018-9-14

2,904.98

2018-9-17

2,888.80

2018-9-18

2,904.31

2018-9-19

2,907.95

2018-9-20

2,930.75

2018-9-21

2,929.67

总计达

29,024.58

有了平均值,与平均值的偏差可以计算如下。与平均值的偏差是一组数据中的每个值与该组数据的平均值之间的差异。用上述10个交易日的收盘价减去2902.46的平均值,就可以得到各收盘价与平均值的偏差。

日期

标准普尔500指数x

m平均值

偏离平均值=X-M

2018-9-10

2,877.13

2,902.46

(25.33)

2018-9-11

2,887.89

(14.57)

2018-9-12

2,888.92

(13.54)

2018-9-13

2,904.18

1.72

2018-9-14

2,904.98

2.52

2018-9-17

2,888.80

(13.66)

2018-9-18

2,904.31

1.85

2018-9-19

2,907.95

5.49

2018-9-20

2,930.75

28.29

2018-9-21

2,929.67

27.21

与平均值的偏差是方差计算的基础。与平均值的偏差自乘幂,然后除以10得到平均值。结果就是这组数据的方差,它也度量了一组数据中每个值的离散程度和这组数据的平均值。在下表中,方差等于280.7405。方差的公式是

其中x是样本的平均值,n是样本的大小。

日期

标准普尔500指数x

m平均值

偏离平均值

(偏离平均值)2 = σ 2

2018-9-10

2,877.13

2,902.46

(25.33)

641.51

2018-9-11

2,887.89

(14.57)

212.23

2018-9-12

2,888.92

(13.54)

183.28

2018-9-13

2,904.18

1.72

2.97

2018-9-14

2,904.98

2.52

6.36

2018-9-17

2,888.80

(13.66)

186.54

2018-9-18

2,904.31

1.85

3.43

2018-9-19

2,907.95

5.49

30.16

2018-9-20

2,930.75

28.29

800.44

2018-9-21

2,929.67

27.21

740.49

总计达

29,024.58

2,807.4055

280.7405

有了方差,标准差就解决了,因为标准差=方差的平方根,用σ表示。所以上一组数据的标准差= (280.7405) (1/2) = 16.7553。

等一下。。。上述计算过程是基于这样一个前提,即这组数据是样本数据的总体,也就是说,在标普500指数的历史上,只有2018年9月10日至9月21日这10个交易日的收盘价。当然这是不可能的,因为这些数据只是样本数据,是为了说明而给出的,而不是所有的数据,所以需要稍微调整一下上面的计算过程。上表中的和2,807.4055要除以(10-1)而不是10,方差的结果变成311.9339,同样的标准差变成= (311.9339) (1/2) = 17.6617:

标准差又称均方偏差,是平均平方偏差的算术平均值的平方根,可以用来衡量一组数据中每个值对该组数据均值的离散程度。标准差的计算公式为

其中x是样本的平均值,n是样本的大小。标准差越大,该组中大多数数据与平均值之间的差异越大。均值相等的两组数据的标准差可能不一样。例如,有两组数据A和B,如下表所示。这两组数据的平均值等于5。

A

B

4.8

5.2

4.3

5.7

但是,每个数据与平均值的偏差是不同的。。。可以看出,在均值相等的两组数据中,A组数据之间的差异高于b组。

总结:方差是标准偏差的平方,是平均平方的偏差总和的平均值。

通过以上的实证计算可以看出,偏离均值、方差和标准差是衡量某一组数据内各值对均值的偏离程度。通俗地说,就是和自己比。但是下面介绍的协方差比较的是两组数据的差异。协方差的计算方法如下

其中

是两个数据系列的样本平均值,x和y是数据系列中的单个数据,n是样本大小。

如果用于比较的两组数据相同,那么方差和协方差的计算结果是一致的,所以方差只是协方差的一个特例。

有了方差和协方差,下一步就是计算相关系数,公式为

其中是两个数据系列的样本平均值,x和y是数据系列中的单个数据,n是样本大小。

注意,如果用协方差计算相关系数,假设协方差中的X和Y都是数据,那么协方差公式中的标准差需要除以N,而不是n-1。

以西德克萨斯轻质原油和标准普尔500指数为例,计算其收益率之间的相关系数。收盘价为2018年9月10日至9月21日。

分布得出的结果与EXCEL自带函数计算的结果一致。