新版白话空间统计（5）：莫兰指数之计算详解[通俗易懂]

CSDN的被爬虫专用声明：虾神原创，公众号\知乎：虾神说D

转发、转载和爬虫，请主动保留此声明。

上次我们简单的介绍了一下学渣莫兰同学的逆袭之旅，梦想成为一个数学家的他最后阴差阳错的成为了一个统计学家，所以虾神不禁陷入沉思：

好了，不说数学了，我们今天继续来说莫兰指数。

我们先来看看莫兰指数的原理。

先看看下面这样一个属性数据的相关分析图，假设这是四个城市的房价数据——

当北京连续三个月上升的时候，石家庄也连续三个月上升，这样我们就可以认为（在本次分析中）北京和石家庄的房价是正相关的，所以我们记为1。

同样，北京上升的同时，太原连续三个月下降，就认为是负相关，记为-1。

北京上升，但是天津有升有降，那么这样就可以他们之间是不相关，记为0

类推，西安，正相关，记为1。

属性相关性的分析非常容易，那么到了空间自相关应该怎么办呢？虽然莫兰提出莫兰指数的时候，所谓的地理学第一定律还没有被发布（1950年，托布勒还在读大学，莫兰同学已经是牛津大学的讲师了），但是莫兰在随机概率的研究中发觉，空间分布对动物种群研究的重要性，所以开创性的在相关性研究中，加入了空间相邻的参数，如果加入空间关系，就会得到这样一个空间权重关系：

之后，四个城市之间的空间权重矩阵就应该是：

那么，最简单的对二者之间，做一个乘法，就得到这样一个值（与北京的空间自相关）：

可以看见，空间关系就两种：相关 or 不相关，属性有三种：正、负、无，所以乘积就得到三种情况：

这就是莫兰指数的原理：属性与空间关系的乘积，得到最终的空间上的相关性。空间关系在自相关分析里面，起到的作用就是判定是否有关系，空间上不相关，那么属性再相关也没有用。

在这个例子里面，北京被认为与太原有临近关系，而他们的属性又正好是负相关，所以空间加权之后，就认为是空间负相关，再按照空间分布模式的规则，两个蹲在一起的，属性不相似，那就是所谓的离散关系。

而北京与石家庄在空间上也有临近关系，而且属性相似，为正相关，所以加权之后被计算为空间自相关，在自己身边有相似的伙伴，就是所谓的聚集模式。

下面我们来看看那莫兰当年给莫兰指数定义的计算公式：

好吧好吧，数学公式就不写了，有兴趣的同学见（以后可能会有的）黑话空间统计学算法篇里面的内容。我只是简单说说莫兰指数如何进行计算的基础过程：

第一件事就是计算出所有要素之间的空间关系，形成空间关系矩阵，不过用矩阵来进行存储的话，有足足50%+的浪费，所以所有的计算莫兰指数的软件，都用的稀疏矩阵来进行记录的，比如上面那个矩阵，记录的方式就是：

北京：天津、石家庄、太原

天津：北京、石家庄、太原

石家庄：北京、天津，太原

太原：北京、天津、石家庄

西安：(空）

然后以此对有关系的城市之间进行计算，因为莫兰指数计算的是截面数据，所以不可能会出现多个时间片段的数据，单个数值之间，怎么进行相关性对比呢？答案就是用属性值与平均数之间的差（离差）来进行判定。

总所周知，离差是衡量数据分布离散程度的一种非常有效的指标，所以莫兰在这里用每个要素与相邻要素的离差乘积，然后乘以空间关系系数，作为分子，然后用所有数据的离差平方和作为分母，计算出所有数据之间的离散程度来，接下去用总的要素数量除以所有空间关系权重的和，来作为总体系数权重，把二者相乘，就得到了结果，用公式表达就是：