样本方差(协方差)的估计和矫正

Posted by SkyHigh on April 1, 2017

样本方差(协方差)的估计和矫正

最近又用到python里面的numpy的cov,它考虑了对于方差/协方差的无偏估计的矫正。而之前自己经常会忘记随机变量的方差和协方差、样本的方差和协方差之间的关系。由于随机变量的方差是根据随机变量的分布计算得到(协方差则是多个随机变量的分布)。而样本空间没有给定明确的分布,只有对于m个随机变量,每个随机变量产生的n个样本而已。我们需要根据这些样本,计算出m个随机变量之间的协方差估计,以及它们自身的均值估计和方差估计。并且和真实分布相比,均值是无偏估计,而方差是有偏估计,需要减少一个维度(n-1)来确保无偏。

假设$X$是独立同分布的随机变量,从中抽取$N$个随机变量构成一个样本。并且假设随机变量的总体均值和方差为:

\[E(X_i)=\mu\] \[D(X_i)=\sigma^2\]

样本的均值和方差为:$\bar{X}$和$S^2$

现在求样本均值期望方差,可以看成是$n$个随机变量的组合,那么可以得到:

\[E(\bar{X})=E(\frac{1}{n}\Sigma_{i=1}^{n}X_i)=\frac{1}{n}*n*E(X_i)=\mu\] \[D(\bar{X})=D(\frac{1}{n}\Sigma_{i=1}^{n}X_i)=\frac{1}{n^2}\Sigma_{i=1}^{n}D(X_i))=\frac{\sigma^2}{n}\]

同样,可以看到样本均值的期望就等于随机变量的期望。所以样本均值为无偏估计。

现在看样本方差期望

\[E(S^2)=E(\frac{1}{n}\Sigma_{i=1}^{n}(X_i-\bar{X})^2)=\frac{1}{n}\Sigma_{i=1}^{n}E(X_i^2)-E(\bar{X}^2)\]

可以得到:

\[E(S^2)=\frac{n-1}{n}\sigma^2\]

可以看到,样本方差是有偏估计,它不等于随机变量的方差。因此,假设样本方差为下面式子的时候,样本方差的期望就等于随机变量方差。

\[\frac{n}{n-1}S^2=\frac{1}{n-1}\Sigma_{i=1}^{n}(X_i-\bar{X})^2\]

同理,对于协方差,也是一样的,也需要进行矫正。