こんにちは。2021年4月に新卒入社したMaketing Solution Division (MSD) 所属の内藤と申します。「数理統計の奥深さにふれる」というテーマのもと、これから様々なトピックで発信していきたいと考えています。今回は点推定についてお話します*1。点推定の中でも今回は不偏推定について解説します。
点推定の目的
まず点推定の目的をお話します。結論から言えば、点推定の目的は「リスク関数を最小化するような推定量を求めること」です。点推定の目的を理解するため、定式化しつつ説明していきます。
母集団から抽出された標本を特徴づけるものを\( X_1,\ldots,X_n \)とします。ここで\( X_1,\ldots,X_n \)は標本抽出にともなう確率変数です。\( X_1,\ldots,X_n \)はいわゆる生データでありそのままの形で活用することは少なく、平均値や中央値、分散を求めるなど何らかの処理をほどこして活用します。つまり\( X_1,\ldots,X_n \)の関数に着目します。\( X=(X_1,\ldots,X_n) \)の関数\( T(X) \)を\( X \)の統計量といいます。例えば標本平均\( \bar{X}=\frac{1}{n}\sum_{i=1}^{n}X_i \)は統計量の一つです。
点推定とは未知のパラメータ\( \theta \)を統計量\( T(X) \)によって可能な限り正確に求めようとすることです。ここでのパラメータとは母集団における平均や分散などです。点推定において\( \theta \)を推定するときに用いる統計量\( T(X) \)を\( \theta \)の推定量といいます。ここで\( T(X) \)と\( \theta \)の近さを計るために損失関数\( l(\theta, T(X)) \)がよく使われます。
損失関数\( l(\theta, T(X)) \)とは、\( T({X})=\theta \)のとき\( l(\theta, T({X}))=0 \)となるような非負の関数です。\( T(X) \)は確率変数であるため*2、\( T(X) \)が平均的に\( \theta \)に近くなるように推定することが”良い”推定であると考えられます。つまり\( R\left(\theta, T({X}) \right)=E\left[l(\theta, T({X}))\right] \)の値を小さくするような推定量が”良い”推定量と考えられます。ここで\( E\left[\cdot\right] \)は期待値を表す記号です。
\( R\left(\theta, T({X}) \right) \)はリスク関数とよばれています。
平均二乗誤差と不偏推定量
次に点推定でよく用いられるリスク関数の平均二乗誤差を説明します。さらに平均二乗誤差と関連のある不偏推定量について見ていきます。
平均二乗誤差とは損失関数\( l(\theta, T(X)) \)を二乗誤差\( \left\{ T({X})-\theta \right\}^2 \)とするリスク関数\( {\rm MSE}\left(T({X}), \theta \right)=E\left[\left\{ T({X})-\theta \right\}^2\right] \)です。ここで仮にすべての\( T(X) \)に対して\( \forall \theta, {\rm MSE}\left(T^{*}(X), \theta \right) \leq {\rm MSE}\left(T(X), \theta \right) \)が成立する\( T^{*}(X) \)が存在する場合、\( {\rm MSE}\left(T^{*}(X), \theta \right) =0 \)となります。これは\( T^{*}(X) \)が常に\( \theta \)の真値であることと同義であり、\( \theta \)が未知であることに矛盾します。よって一般に\( \theta \)が未知である場合\( {\rm MSE}\left(T({X}), \theta \right) \)を一様に最小にする推定量は存在しません。
数理統計では伝統的に考える推定量のクラスを制限し、制限されたクラスの中で\( {\rm MSE}\left(T({X}), \theta \right) \)を最小にする推定量を考えます。ここでのクラスとはある条件を満たす集まりという意味です。推定量のクラスとして、今回は不偏推定量のクラスを考えます。不偏推定量とは推定量の期待値がパラメータの値に一致するような推定量です。すべての\( \theta \)に対して\( E\left[T({X})\right]=\theta \)が成り立つとき、\( T(X) \)は\( \theta \)の不偏推定量とよばれます。
ここで推定量\( T(X) \)のバイアス\( b(T({X})) \)を\( b(T({X}))=E\left[ T({X}) \right] – \theta \)と定義します。\( T(X) \)が不偏推定量であるとき\( b(T({X}))=0 \)です。ここで平均二乗誤差\( {\rm MSE}\left(T({X}), \theta \right) \)は次のように分散とバイアスの二乗和に分解できます。
\begin{equation*}
\begin{split}
{\rm MSE}\left(T({X}),\theta \right)&=E\left[\left\{ T({X})-\theta \right\}^2\right]\\
&=E\left[\left\{ \left( T({X}) -E[T({X})] \right)+\left( E[T({X})] -\theta \right) \right\}^2\right]\\
&=E\left[\left\{T(X)-E[T({X})]\right\}^2\right] + \{E[T({X})]-\theta\}^2\\
&=V[T(X)]+b(T(X))^2 \qquad (1)
\end{split}
\end{equation*}
そこで推定量がバイアスをもつとき、推定量を修正して\( b(T({X}))=0 \)に近づければ平均二乗誤差が小さくなると期待できます*3。
一様最小分散不偏推定量(UMVUE)
いよいよこの記事のメインテーマである一様最小分散不偏推定量について説明していきます。統計量\( T(X) \)が不偏推定量であれば\( b(T({X}))=0 \)なので、(1)式より\( {\rm MSE}\left(T({X}), \theta \right)=V[T(X)] \)となります。つまり不偏推定量に限れば分散が最小である推定量が望ましい推定量であることがわかります。このような特徴をもつ不偏推定量が一様最小分散不偏推定量です。
正確に定義すると、すべての\( \theta \)に対して(i)\( E\left[T^{*}({X})\right]=\theta \)であり、(ii)他のどの不偏推定量\( T(X) \)に対しても\( V[T^{*}(X)] \leq V[T(X)] \)が成立する場合、\( T^{*}(X) \)を一様最小分散不偏推定量(uniformly minimum variance unbiased estimator, UMVUE)といいます。UMVUEが存在する場合、推定量としてUMVUEを用いることはそれなりに理にかなっています。与えられた不偏推定量がUMVUEであることを示すには、フィッシャー情報量に基づくクラメール・ラオの不等式を用いる方法があります*4。
まずはフィッシャー情報量について説明します。\( X=(X_1,\ldots,X_n) \)の同時密度関数を\( f_n(x \mid \theta) \)とします*5。ここでは説明を簡潔にするため\( \theta \)は1次元とします。このときフィッシャー情報量は\( I_{n}(\theta)=E\left[\left\{ \frac{\partial}{\partial\theta} {\rm log}f_{n}(X \mid \theta) \right\}^2\right] \)と定義されます。ここで\( S_{n}(\theta, x)=\frac{\partial}{\partial\theta} {\rm log}f_{n}(x \mid \theta) \)とおけば\( I_{n}(\theta)=E\left[\left\{ S_{n}(\theta, X) \right\}^2\right] \)と表されます。\( S_{n}(\theta, x) \)はスコア関数とよばれています。フィッシャー情報量\( I_{n}(\theta) \)と不偏推定量\( T^{*}(X) \)の分散に関して、いくつかの正則条件*6のもとで次の不等式が成立します。
\begin{equation*}
V[T^{*}(X)] \geq 1/I_{n}(\theta) \qquad (2)
\end{equation*}
この不等式はクラメール・ラオの不等式とよばれています。(2)式から明らかに不等式が成立するにはフィッシャー情報量が正であることが必要です。クラメール・ラオの不等式を証明してみましょう。
いま\( T^{*}(X) \)は不偏推定量なので\( \theta=E\left[T^{*}(X)\right]=\int T^{*}(x)f_{n}(x \mid \theta)dx \)が成立します。この等式の両辺を\( \theta \)で偏微分すると、微分と積分の交換が保証されているという仮定のもとで
\begin{equation*}
\begin{split}
1
&=\frac{\partial}{\partial \theta} \int T^{*}(x)f_{n}(x \mid \theta)dx \\
&=\int T^{*}(x)f_{n}(x \mid \theta) \frac{1}{f_{n}(x \mid \theta)} \frac{\partial}{\partial \theta}f_{n}(x \mid \theta) dx \\
&=\int T^{*}(x)\frac{\partial {\rm log} f_{n}(x \mid \theta)}{\partial \theta} f_{n}(x \mid \theta) dx \\
&=\int T^{*}(x)S_{n}(\theta, x) f_{n}(x \mid \theta) dx \\
&=E\left[S_{n}(\theta, X)T^{*}(X) \right] \qquad (3)
\end{split}
\end{equation*}
となることがわかります。また\( f_{n}(x \mid \theta) \)は確率密度関数なので\( \int f_{n}(x \mid \theta)dx=1 \)であり、この両辺を\( \theta \)で偏微分すると、同じく微分と積分の交換が保証されているという仮定のもとで
\begin{equation*}
\begin{split}
\frac{\partial}{\partial \theta} \int f_{n}(x \mid \theta)dx
&= \int \frac{\partial f_{n}(x \mid \theta)}{\partial \theta}dx = 0 \qquad (4)
\end{split}
\end{equation*}
が成り立ちます。(4)式より
\begin{equation*}
\begin{split}
E \left[ S_{n}(\theta, X) \right]
&= \int \frac{\partial {\rm log}f_{n}(x \mid \theta)}{\partial \theta}f_{n}(x \mid \theta)dx \\
&= \int \frac{\partial f_{n}(x \mid \theta)}{\partial \theta}dx = 0
\qquad (5)
\end{split}
\end{equation*}
が成り立ちます。この記法によるとフィッシャー情報量は
\begin{equation*}
\begin{split}
I_{n}(\theta)
&=E\left[ \{ S_{n}(\theta, X) \}^2 \right] \\
&=\int S_{n}(\theta, x)^2 f_{n}(x \mid \theta)dx \\
&=\int \{S_{n}(\theta, x) – E\left[ S_{n}(\theta, x) \right] \}^2 f_{n}(x \mid \theta)dx \\
&=V[S_{n}(\theta, X)]
\qquad (6)
\end{split}
\end{equation*}
と書くことができます。(5)式より(3)式の右辺は
\begin{equation*}
\begin{split}
E\left[S_{n}(\theta, X)T^{*}(X) \right]
&=E\left[S_{n}(\theta, X)T^{*}(X) \right]- E\left[\theta S_{n}(\theta, X) \right] \\
&=E\left[\left( T^{*}(X) -\theta \right) S_{n}(\theta, X) \right] \\
&=E\left[\left( T^{*}(X) -E\left[T^{*}(X)\right] \right) \left( S_{n}(\theta, X) – E\left[S_{n}(\theta, X) \right] \right) \right]\\
&=Cov(T^{*}(X), S_{n}(\theta, X))
\qquad (7)
\end{split}
\end{equation*}
と表すことができます。ここで相関係数の絶対値は1を超えないため(3)式、(6)式、(7)式より
\begin{equation*}
\begin{split}
1
&=Cov(T^{*}(X), S_{n}(\theta, X))^2 \\
&\leq V[T^{*}(X)]V[S_{n}(\theta, X)] \\
&=V[T^{*}(X)]I_{n}(\theta)
\end{split}
\end{equation*}
となり、この両辺を\( I_{n}(\theta) \)で割ることによりクラメール・ラオの不等式が得られます。
クラメール・ラオの不等式より、不偏推定量\( T^{*}(X) \)がすべての\( \theta \)に対して\( V[T^{*}(X)]=1/I_{n}(\theta) \)であるとき\( T^{*}(X) \)はUMVUEであるといえます。最後にUMVUEの具体例として、正規分布の母平均\( \mu \)の推定に関して標本平均\( \bar{X} \)がUMVUEであることを示します。そのためにまず\( X_1,\ldots,X_n \)が独立同一分布に従うとき
\begin{equation*}
I_{n}(\theta)=nI_{1}(\theta) \qquad (8)
\end{equation*}
が成り立つことを示します。
\( X_1,\ldots,X_n \)が互いに独立に同一分布に従うため同時確率密度関数は
\begin{equation*}
\begin{split}
f_n(x \mid \theta)
&= \prod_{i=1}^{n}f_{1}(x_i \mid \theta)
\qquad (9)
\end{split}
\end{equation*}
と表されます。(9)式の両辺の対数をとり\( \theta \)で微分すれば
\begin{equation*}
\begin{split}
S_n(\theta, X)
&= \sum_{i=1}^{n}S_{1}(\theta, X_{i})
\qquad (10)
\end{split}
\end{equation*}
を得ることができます。ここで(6)式に(10)式を代入すれば
\begin{equation*}
\begin{split}
I_{n}(\theta)
&= V\left[ \sum_{i=1}^{n}S_{1}(\theta, X_{i}) \right]
\end{split}
\end{equation*}
となります。ここで\( S_{1}(\theta, X_{i}), i=1,\cdots, n \)も独立同一分布に従うため、\( I_{n}(\theta)=nV[S_1(\theta, X_1)]=nI_{1}(\theta) \)となり(8)式が成り立つことがわかります。
ここから実際に正規分布の母平均\( \mu \)の推定に関して標本平均\( \bar{X} \)がUMVUEであることを示していきます。まず\( \mu \)に関するスコア関数は
\begin{equation*}
\begin{split}
S_{1}(\mu, x)
&=\frac{\partial}{\partial\mu} {\rm log}f_{1}(x \mid \mu) \\
&=\frac{\partial}{\partial \mu}{\rm log}
\left[ \frac{1}{\sqrt{2 \pi \sigma^2}} {\rm exp}\left\{ -\frac{(x-\mu)^2}{2\sigma^2} \right\} \right] \\
&=\frac{\partial}{\partial \mu} \left\{ -\frac{(x-\mu)^2}{2\sigma^2}-\frac{1}{2}{\rm log}(2 \pi \sigma^2) \right\} \\
&=\frac{(x-\mu)}{\sigma^2}
\end{split}
\end{equation*}
と表されます。従ってフィッシャー情報量は
\begin{equation*}
\begin{split}
I_{1}(\mu)
&= E\left[\left\{ \frac{(X-\mu)}{\sigma^2} \right\}^2 \right] \\
&= \frac{E[(X-\mu)^2]}{\sigma^4} = \frac{1}{\sigma^2}
\end{split}
\end{equation*}
となります。よって(8)式より
\begin{equation*}
\begin{split}
\frac{1}{I_{n}(\mu)} = \frac{1}{nI_{1}(\mu)} = \frac{\sigma^2}{n} = V[\bar{X}]
\end{split}
\end{equation*}
となり、\( \bar{X} \)がUMVUEであることが示されました。
おわりに
今回は一様最小分散不偏推定量(UMVUE)の理論について説明しました。標本平均の例からも分かるようにUMVUEの理論は、直観的に”良い”と思われる推定量の合理性を確かめられる有効な理論です。しかしながら常にUMVUEが存在するとは限らず、その場合は最尤推定などによって他の推定量を構成することを視野に入れる必要があります。この記事を読んで少しでも数理統計の奥深さを感じていただけると幸いです。最後まで読んでいただき、ありがとうございました。
参考文献
竹村彰通(1991). 『現代数理統計学』. 創文社.
久保川達也(2017). 『現代数理統計学の基礎』. 共立出版.
野田一雄・宮岡悦良(1992). 『数理統計学の基礎』. 共立出版.
※特に今回の記事の論理構成の大部分は『現代数理統計学』(創文社)を参考にさせていただいております。
注釈
*1:数理統計において推定は点推定と区間推定に大別されます。
*2:\( X_1,\ldots,X_n \)が確率変数なので確率変数の関数である統計量\( T(X) \)も確率変数です。
*3:このことが不偏推定量を考える一つのモチベーションになっています。しかし\( \theta \)が未知である以上、\( b(T(X)) \)の修正は必ずしも容易ではありません。
*4:他にも完備十分統計量の理論を用いる方法もあります。
*5:以降の議論は\( f_n(X \mid \theta) \)が同時確率関数であっても成り立ちます。
*6:証明中に出てきた「微分と積分の交換が保証されているという仮定」が正則条件です。