样本方差（协方差）的估计和矫正

最近又用到python里面的numpy的cov，它考虑了对于方差/协方差的无偏估计的矫正。而之前自己经常会忘记随机变量的方差和协方差、样本的方差和协方差之间的关系。由于随机变量的方差是根据随机变量的分布计算得到（协方差则是多个随机变量的分布）。而样本空间没有给定明确的分布，只有对于m个随机变量，每个随机变量产生的n个样本而已。我们需要根据这些样本，计算出m个随机变量之间的协方差估计，以及它们自身的均值估计和方差估计。并且和真实分布相比，均值是无偏估计，而方差是有偏估计，需要减少一个维度（n-1）来确保无偏。

假设$X$是独立同分布的随机变量，从中抽取$N$个随机变量构成一个样本。并且假设随机变量的总体均值和方差为：

\[E(X_i)=\mu\] \[D(X_i)=\sigma^2\]

样本的均值和方差为：$\bar{X}$和$S^2$

现在求样本均值的期望和方差，可以看成是$n$个随机变量的组合，那么可以得到：

\[E(\bar{X})=E(\frac{1}{n}\Sigma_{i=1}^{n}X_i)=\frac{1}{n}*n*E(X_i)=\mu\] \[D(\bar{X})=D(\frac{1}{n}\Sigma_{i=1}^{n}X_i)=\frac{1}{n^2}\Sigma_{i=1}^{n}D(X_i))=\frac{\sigma^2}{n}\]

同样，可以看到样本均值的期望就等于随机变量的期望。所以样本均值为无偏估计。

现在看样本方差的期望：

\[E(S^2)=E(\frac{1}{n}\Sigma_{i=1}^{n}(X_i-\bar{X})^2)=\frac{1}{n}\Sigma_{i=1}^{n}E(X_i^2)-E(\bar{X}^2)\]

可以得到：

\[E(S^2)=\frac{n-1}{n}\sigma^2\]

可以看到，样本方差是有偏估计，它不等于随机变量的方差。因此，假设样本方差为下面式子的时候，样本方差的期望就等于随机变量方差。

\[\frac{n}{n-1}S^2=\frac{1}{n-1}\Sigma_{i=1}^{n}(X_i-\bar{X})^2\]

同理，对于协方差，也是一样的，也需要进行矫正。