最小二乗法の行列による表現

こんてんつ

最小二乗法や回帰分析に関わる表現を、行列によって理解したいと思った。自分用のメモである。

線形モデルの行列による表現

一元配置モデルでも良いのだが、簡単のため次の多項式モデルを考える。


\displaystyle
y_i = \beta_0 + \beta_1 x_i + \beta_2 x_i^2 + \epsilon_i

上のようなモデルは、

観測値のベクトル\boldsymbol{y}

 
\displaystyle
\boldsymbol{y} = (y_1, \cdots, y_n)^{\prime}

計画行列\boldsymbol{X}

 
\displaystyle
\boldsymbol{X} = \begin{pmatrix}
1&x_1&x_1^2\\
\vdots &\vdots&\vdots\\
1&x_n&x_n^2
\end{pmatrix}

未知母数\boldsymbol{\theta}

 
\displaystyle
\boldsymbol{\theta} = (\beta_0, \beta_1, \beta_2)^{\prime}

誤差ベクトル\boldsymbol{\epsilon}

 
\displaystyle
\boldsymbol{\epsilon} = (\epsilon_1, \cdots, \epsilon_n)^{\prime}

によって、次のように書ける。


\displaystyle
\boldsymbol{y} = \boldsymbol{X} \boldsymbol{\theta} + \boldsymbol{\epsilon}

最小二乗法の原理

データ\boldsymbol{y}とその期待値の偏差二乗和S(\boldsymbol{\theta})を最小にする\boldsymbol{\hat{\theta}}を求めることが最小二乗法の原理である。


\displaystyle
\begin{eqnarray}
S(\boldsymbol{\theta}) &=& \| \boldsymbol{y}-\boldsymbol{X} \boldsymbol{\theta} \|^2 \\
&=& (\boldsymbol{y}-\boldsymbol{X} \boldsymbol{\theta})^{\prime} (\boldsymbol{y}-\boldsymbol{X} \boldsymbol{\theta})
\end{eqnarray}

と表され、上記を最小にする。

誤差分散\sigma^{2}の推定

最小二乗法により線形モデルを当てはめた後の残差\boldsymbol{y}-\boldsymbol{X} \boldsymbol{\hat{\theta}}の二乗和は、線形モデルの誤差分散\sigma^{2}に関する情報を担っている。


\displaystyle
S(\boldsymbol{\hat{\theta}}) = (\boldsymbol{y}-\boldsymbol{X} \boldsymbol{\hat{\theta}})^{\prime}(\boldsymbol{y}-\boldsymbol{X} \boldsymbol{\hat{\theta}})

残差平方和S(\boldsymbol{\hat{\theta}})の期待値は、

  • 誤差分散V(\epsilon_i) = \sigma^{2}
  • \boldsymbol{X}のランクq=rank(\boldsymbol{X})

を用いて、


\displaystyle
E(S(\boldsymbol{\hat{\theta}})) = (n-q) \cdot \sigma^2

と書ける。(証明は東大出版「自然科学の統計学P.52」などにある。やや長文なので結果のみの記載とします。)

これらから、\nu_e = n-qとし、


\displaystyle
\hat{\sigma}^{2} = \frac{S(\boldsymbol{\hat{\theta}})}{n-q} = \frac{S(\boldsymbol{\hat{\theta}})}{\nu_e}

と置くと、これが誤差分散\sigma^{2}の不偏推定量を与える。ここで、\nu_e = n-qは自由度と呼ばれる。

ここで、この推定量平方根を取った\sqrt{\hat{\sigma} ^ {2}}のことを推定値\hat{y _ i }の標準誤差(s.e. : standard error of estimates)と呼ぶ。これは、回帰方程式の当てはまりを表す表現であり、S(\boldsymbol{\hat{\theta}})を回帰残差 \hat{e_ i } ^ 2を用いて、


\displaystyle
s.e. = \sqrt{ \frac {\sum \hat{e_ i } ^ 2}{n-q} }

と書く場合が多い。

自由度

自由度は\nu_e = n-rank(\boldsymbol{X})で与えられる。例えば、

 
\displaystyle
\boldsymbol{X} = \begin{pmatrix}
1&x_1&x_1^2\\
\vdots &\vdots&\vdots\\
1&x_n&x_n^2
\end{pmatrix}

のランクは、3である。こんな感じで応用すればよい。

t検定

\boldsymbol{y} = \boldsymbol{X} \boldsymbol{\theta} + \boldsymbol{\epsilon}について、以下を考える。

  • 任意の線形推定量\boldsymbol{l}^{\prime} \boldsymbol{\theta}(説明変数の値xにおける予測値\beta _ 0 + \beta _ 1 x + \beta _ 2 x ^ 2などが例)
  • ↑から得られた、最小分散の不偏推定量\boldsymbol{l}^{\prime} \boldsymbol{\hat{\theta}}\hat{\beta} _ 0 + \hat{\beta} _ 1 x + \hat{\beta} _ 2 x ^ 2などが例)
  • ↑↑とは別の任意の線形不偏推定量t(\boldsymbol{y}) = \boldsymbol{L}^{\prime} \boldsymbol{y}(一般的な推定量

最小分散の不偏推定量が、任意の線形不偏推定量を用いて、


\displaystyle
\boldsymbol{l}^{\prime} \boldsymbol{\hat{\theta}} = \sum L_i y_i

の様に表現されている場合を考える。この場合の最小二乗推定量\boldsymbol{l}^{\prime} \boldsymbol{\hat{\theta}}の期待値は、


\displaystyle
E(\boldsymbol{l}^{\prime} \boldsymbol{\hat{\theta}}) = \boldsymbol{l}^{\prime} \boldsymbol{\theta}

分散は、


\displaystyle
V(\boldsymbol{l}^{\prime} \boldsymbol{\hat{\theta}}) = V(\sum L_i y_i) = \sum L_i^2 \cdot \sigma^2

と書ける。よって、最小二乗推定量\boldsymbol{l}^{\prime} \boldsymbol{{\hat{\theta}}}正規分布


\displaystyle
N(\boldsymbol{l}^{\prime} \boldsymbol{\theta} ,  \sum L_i^2  \sigma^2)

に従う。

t検定は、ある指定可能関数に関する帰無仮説H_0 : \boldsymbol{l}^{\prime} \boldsymbol{\theta} = 0の検定に他ならない。 \boldsymbol{l}^{\prime} \boldsymbol{\theta} = 0の仮定の下で、検定に用いるt統計量は


\displaystyle
t=\frac{\boldsymbol{l}^{\prime} \boldsymbol{\hat{\theta}}-0}{\sqrt{\boldsymbol{L}\boldsymbol{L}^{\prime} \cdot \hat{\sigma}^{2}}} = \frac{ \boldsymbol{L}^{\prime} \boldsymbol{y} }{\sqrt{\boldsymbol{L}\boldsymbol{L}^{\prime} \cdot \hat{\sigma}^{2}}}

となる。ここで、 \hat{\sigma}^{2}は誤差分散\sigma^{2}の不偏推定量(不偏分散)。tは自由度\nu_e = n-qのt分布t(\nu_e)に従う。しばしばこのt統計量は、偏回帰係数の推定値 \hat{ \beta _ i }と推定値の標準誤差  s.e. ( \hat{ \beta _ i } )を用いて、


\displaystyle
t_i = \frac{ \hat{ \beta _ i } - \beta _ i }{ s.e. ( \hat{ \beta _ i } ) }

と書く場合が多い。