こんてんつ

最小二乗法や回帰分析に関わる表現を、行列によって理解したいと思った。自分用のメモである。

線形モデルの行列による表現

一元配置モデルでも良いのだが、簡単のため次の多項式モデルを考える。

$\displaystyle y_i = \beta_0 + \beta_1 x_i + \beta_2 x_i^2 + \epsilon_i$

上のようなモデルは、

観測値のベクトル $\boldsymbol{y}$

$\displaystyle \boldsymbol{y} = (y_1, \cdots, y_n)^{\prime}$

計画行列 $\boldsymbol{X}$

$\displaystyle \boldsymbol{X} = \begin{pmatrix} 1&x_1&x_1^2\\ \vdots &\vdots&\vdots\\ 1&x_n&x_n^2 \end{pmatrix}$

未知母数 $\boldsymbol{\theta}$

$\displaystyle \boldsymbol{\theta} = (\beta_0, \beta_1, \beta_2)^{\prime}$

誤差ベクトル $\boldsymbol{\epsilon}$

$\displaystyle \boldsymbol{\epsilon} = (\epsilon_1, \cdots, \epsilon_n)^{\prime}$

によって、次のように書ける。

$\displaystyle \boldsymbol{y} = \boldsymbol{X} \boldsymbol{\theta} + \boldsymbol{\epsilon}$

最小二乗法の原理

データ $\boldsymbol{y}$ とその期待値の偏差二乗和 $S(\boldsymbol{\theta})$ を最小にする $\boldsymbol{\hat{\theta}}$ を求めることが最小二乗法の原理である。

$\displaystyle \begin{eqnarray} S(\boldsymbol{\theta}) &=& \| \boldsymbol{y}-\boldsymbol{X} \boldsymbol{\theta} \|^2 \\ &=& (\boldsymbol{y}-\boldsymbol{X} \boldsymbol{\theta})^{\prime} (\boldsymbol{y}-\boldsymbol{X} \boldsymbol{\theta}) \end{eqnarray}$

と表され、上記を最小にする。

誤差分散 $\sigma^{2}$ の推定

最小二乗法により線形モデルを当てはめた後の残差 $\boldsymbol{y}-\boldsymbol{X} \boldsymbol{\hat{\theta}}$ の二乗和は、線形モデルの誤差分散 $\sigma^{2}$ に関する情報を担っている。

$\displaystyle S(\boldsymbol{\hat{\theta}}) = (\boldsymbol{y}-\boldsymbol{X} \boldsymbol{\hat{\theta}})^{\prime}(\boldsymbol{y}-\boldsymbol{X} \boldsymbol{\hat{\theta}})$

残差平方和 $S(\boldsymbol{\hat{\theta}})$ の期待値は、

誤差分散 $V(\epsilon_i) = \sigma^{2}$
$\boldsymbol{X}$ のランク $q=rank(\boldsymbol{X})$

を用いて、

$\displaystyle E(S(\boldsymbol{\hat{\theta}})) = (n-q) \cdot \sigma^2$

と書ける。（証明は東大出版「自然科学の統計学P.52」などにある。やや長文なので結果のみの記載とします。）

これらから、 $\nu_e = n-q$ とし、

$\displaystyle \hat{\sigma}^{2} = \frac{S(\boldsymbol{\hat{\theta}})}{n-q} = \frac{S(\boldsymbol{\hat{\theta}})}{\nu_e}$

と置くと、これが誤差分散 $\sigma^{2}$ の不偏推定量を与える。ここで、 $\nu_e = n-q$ は自由度と呼ばれる。

ここで、この推定量の平方根を取った $\sqrt{\hat{\sigma} ^ {2}}$ のことを推定値 $\hat{y _ i }$ の標準誤差（s.e. : standard error of estimates）と呼ぶ。これは、回帰方程式の当てはまりを表す表現であり、 $S(\boldsymbol{\hat{\theta}})$ を回帰残差 $\hat{e_ i } ^ 2$ を用いて、

$\displaystyle s.e. = \sqrt{ \frac {\sum \hat{e_ i } ^ 2}{n-q} }$

と書く場合が多い。

自由度

自由度は $\nu_e = n-rank(\boldsymbol{X})$ で与えられる。例えば、

$\displaystyle \boldsymbol{X} = \begin{pmatrix} 1&x_1&x_1^2\\ \vdots &\vdots&\vdots\\ 1&x_n&x_n^2 \end{pmatrix}$

のランクは、3である。こんな感じで応用すればよい。

t検定

$\boldsymbol{y} = \boldsymbol{X} \boldsymbol{\theta} + \boldsymbol{\epsilon}$ について、以下を考える。

任意の線形推定量 $\boldsymbol{l}^{\prime} \boldsymbol{\theta}$ （説明変数の値 $x$ における予測値 $\beta _ 0 + \beta _ 1 x + \beta _ 2 x ^ 2$ などが例）
↑から得られた、最小分散の不偏推定量 $\boldsymbol{l}^{\prime} \boldsymbol{\hat{\theta}}$ （ $\hat{\beta} _ 0 + \hat{\beta} _ 1 x + \hat{\beta} _ 2 x ^ 2$ などが例）
↑↑とは別の任意の線形不偏推定量 $t(\boldsymbol{y}) = \boldsymbol{L}^{\prime} \boldsymbol{y}$ （一般的な推定量）

最小分散の不偏推定量が、任意の線形不偏推定量を用いて、

$\displaystyle \boldsymbol{l}^{\prime} \boldsymbol{\hat{\theta}} = \sum L_i y_i$

の様に表現されている場合を考える。この場合の最小二乗推定量 $\boldsymbol{l}^{\prime} \boldsymbol{\hat{\theta}}$ の期待値は、

$\displaystyle E(\boldsymbol{l}^{\prime} \boldsymbol{\hat{\theta}}) = \boldsymbol{l}^{\prime} \boldsymbol{\theta}$

分散は、

$\displaystyle V(\boldsymbol{l}^{\prime} \boldsymbol{\hat{\theta}}) = V(\sum L_i y_i) = \sum L_i^2 \cdot \sigma^2$

と書ける。よって、最小二乗推定量 $\boldsymbol{l}^{\prime} \boldsymbol{{\hat{\theta}}}$ は正規分布

$\displaystyle N(\boldsymbol{l}^{\prime} \boldsymbol{\theta} , \sum L_i^2 \sigma^2)$

に従う。

t検定は、ある指定可能関数に関する帰無仮説 $H_0 : \boldsymbol{l}^{\prime} \boldsymbol{\theta} = 0$ の検定に他ならない。 $\boldsymbol{l}^{\prime} \boldsymbol{\theta} = 0$ の仮定の下で、検定に用いるt統計量は

$\displaystyle t=\frac{\boldsymbol{l}^{\prime} \boldsymbol{\hat{\theta}}-0}{\sqrt{\boldsymbol{L}\boldsymbol{L}^{\prime} \cdot \hat{\sigma}^{2}}} = \frac{ \boldsymbol{L}^{\prime} \boldsymbol{y} }{\sqrt{\boldsymbol{L}\boldsymbol{L}^{\prime} \cdot \hat{\sigma}^{2}}}$

となる。ここで、 $\hat{\sigma}^{2}$ は誤差分散 $\sigma^{2}$ の不偏推定量（不偏分散）。 $t$ は自由度 $\nu_e = n-q$ のt分布 $t(\nu_e)$ に従う。しばしばこのt統計量は、偏回帰係数の推定値 $\hat{ \beta _ i }$ と推定値の標準誤差 $s.e. ( \hat{ \beta _ i } )$ を用いて、