【数理統計】不偏推定量の中でも望ましい一様最小分散不偏推定量(UMVUE)とは?

x facebook hatena

こんにちは。2021年4月に新卒入社したMaketing Solution Division (MSD) 所属の内藤と申します。「数理統計の奥深さにふれる」というテーマのもと、これから様々なトピックで発信していきたいと考えています。今回は点推定についてお話します*1。点推定の中でも今回は不偏推定について解説します。

点推定の目的

まず点推定の目的をお話します。結論から言えば、点推定の目的は「リスク関数を最小化するような推定量を求めること」です。点推定の目的を理解するため、定式化しつつ説明していきます。

母集団から抽出された標本を特徴づけるものをX1,,Xnとします。ここでX1,,Xnは標本抽出にともなう確率変数です。X1,,Xnはいわゆる生データでありそのままの形で活用することは少なく、平均値や中央値、分散を求めるなど何らかの処理をほどこして活用します。つまりX1,,Xnの関数に着目します。X=(X1,,Xn)の関数T(X)Xの統計量といいます。例えば標本平均X¯=1ni=1nXiは統計量の一つです。

 

点推定とは未知のパラメータθを統計量T(X)によって可能な限り正確に求めようとすることです。ここでのパラメータとは母集団における平均や分散などです。点推定においてθを推定するときに用いる統計量T(X)θの推定量といいます。ここでT(X)θの近さを計るために損失関数l(θ,T(X))がよく使われます。

 

損失関数l(θ,T(X))とは、T(X)=θのときl(θ,T(X))=0となるような非負の関数です。T(X)は確率変数であるため*2、T(X)が平均的にθに近くなるように推定することが”良い”推定であると考えられます。つまりR(θ,T(X))=E[l(θ,T(X))]の値を小さくするような推定量が”良い”推定量と考えられます。ここでE[]は期待値を表す記号です。
R(θ,T(X))はリスク関数とよばれています。

平均二乗誤差と不偏推定量

次に点推定でよく用いられるリスク関数の平均二乗誤差を説明します。さらに平均二乗誤差と関連のある不偏推定量について見ていきます。

 

平均二乗誤差とは損失関数l(θ,T(X))を二乗誤差{T(X)θ}2とするリスク関数MSE(T(X),θ)=E[{T(X)θ}2]です。ここで仮にすべてのT(X)に対してθ,MSE(T(X),θ)MSE(T(X),θ)が成立するT(X)が存在する場合、MSE(T(X),θ)=0となります。これはT(X)が常にθの真値であることと同義であり、θが未知であることに矛盾します。よって一般にθが未知である場合MSE(T(X),θ)を一様に最小にする推定量は存在しません。

 

数理統計では伝統的に考える推定量のクラスを制限し、制限されたクラスの中でMSE(T(X),θ)を最小にする推定量を考えます。ここでのクラスとはある条件を満たす集まりという意味です。推定量のクラスとして、今回は不偏推定量のクラスを考えます。不偏推定量とは推定量の期待値がパラメータの値に一致するような推定量です。すべてのθに対してE[T(X)]=θが成り立つとき、T(X)θの不偏推定量とよばれます。

ここで推定量T(X)のバイアスb(T(X))b(T(X))=E[T(X)]θと定義します。T(X)が不偏推定量であるときb(T(X))=0です。ここで平均二乗誤差MSE(T(X),θ)は次のように分散とバイアスの二乗和に分解できます。

MSE(T(X),θ)=E[{T(X)θ}2]=E[{(T(X)E[T(X)])+(E[T(X)]θ)}2]=E[{T(X)E[T(X)]}2]+{E[T(X)]θ}2=V[T(X)]+b(T(X))2(1)

そこで推定量がバイアスをもつとき、推定量を修正してb(T(X))=0に近づければ平均二乗誤差が小さくなると期待できます*3。

 

一様最小分散不偏推定量(UMVUE)

いよいよこの記事のメインテーマである一様最小分散不偏推定量について説明していきます。統計量T(X)が不偏推定量であればb(T(X))=0なので、(1)式よりMSE(T(X),θ)=V[T(X)]となります。つまり不偏推定量に限れば分散が最小である推定量が望ましい推定量であることがわかります。このような特徴をもつ不偏推定量が一様最小分散不偏推定量です。

正確に定義すると、すべてのθに対して(i)E[T(X)]=θであり、(ii)他のどの不偏推定量T(X)に対してもV[T(X)]V[T(X)]が成立する場合、T(X)を一様最小分散不偏推定量(uniformly minimum variance unbiased estimator, UMVUE)といいます。UMVUEが存在する場合、推定量としてUMVUEを用いることはそれなりに理にかなっています。与えられた不偏推定量がUMVUEであることを示すには、フィッシャー情報量に基づくクラメール・ラオの不等式を用いる方法があります*4。

まずはフィッシャー情報量について説明します。X=(X1,,Xn)の同時密度関数をfn(xθ)とします*5。ここでは説明を簡潔にするためθは1次元とします。このときフィッシャー情報量はIn(θ)=E[{θlogfn(Xθ)}2]と定義されます。ここでSn(θ,x)=θlogfn(xθ)とおけばIn(θ)=E[{Sn(θ,X)}2]と表されます。Sn(θ,x)はスコア関数とよばれています。フィッシャー情報量In(θ)と不偏推定量T(X)の分散に関して、いくつかの正則条件*6のもとで次の不等式が成立します。

V[T(X)]1/In(θ) (2)

この不等式はクラメール・ラオの不等式とよばれています。(2)式から明らかに不等式が成立するにはフィッシャー情報量が正であることが必要です。クラメール・ラオの不等式を証明してみましょう。

いまT(X)は不偏推定量なのでθ=E[T(X)]=T(x)fn(xθ)dxが成立します。この等式の両辺をθで偏微分すると、微分と積分の交換が保証されているという仮定のもとで

1=θT(x)fn(xθ)dx=T(x)fn(xθ)1fn(xθ)θfn(xθ)dx=T(x)logfn(xθ)θfn(xθ)dx=T(x)Sn(θ,x)fn(xθ)dx=E[Sn(θ,X)T(X)](3)

となることがわかります。またfn(xθ)は確率密度関数なのでfn(xθ)dx=1であり、この両辺をθで偏微分すると、同じく微分と積分の交換が保証されているという仮定のもとで

θfn(xθ)dx=fn(xθ)θdx=0(4)

が成り立ちます。(4)式より

E[Sn(θ,X)]=logfn(xθ)θfn(xθ)dx=fn(xθ)θdx=0(5)

が成り立ちます。この記法によるとフィッシャー情報量は

In(θ)=E[{Sn(θ,X)}2]=Sn(θ,x)2fn(xθ)dx={Sn(θ,x)E[Sn(θ,x)]}2fn(xθ)dx=V[Sn(θ,X)](6)

と書くことができます。(5)式より(3)式の右辺は

E[Sn(θ,X)T(X)]=E[Sn(θ,X)T(X)]E[θSn(θ,X)]=E[(T(X)θ)Sn(θ,X)]=E[(T(X)E[T(X)])(Sn(θ,X)E[Sn(θ,X)])]=Cov(T(X),Sn(θ,X))(7)

と表すことができます。ここで相関係数の絶対値は1を超えないため(3)式、(6)式、(7)式より

1=Cov(T(X),Sn(θ,X))2V[T(X)]V[Sn(θ,X)]=V[T(X)]In(θ)

となり、この両辺をIn(θ)で割ることによりクラメール・ラオの不等式が得られます。

クラメール・ラオの不等式より、不偏推定量T(X)がすべてのθに対してV[T(X)]=1/In(θ)であるときT(X)はUMVUEであるといえます。最後にUMVUEの具体例として、正規分布の母平均μの推定に関して標本平均X¯がUMVUEであることを示します。そのためにまずX1,,Xnが独立同一分布に従うとき

In(θ)=nI1(θ)(8)

が成り立つことを示します。

X1,,Xnが互いに独立に同一分布に従うため同時確率密度関数は

fn(xθ)=i=1nf1(xiθ)(9)

と表されます。(9)式の両辺の対数をとりθで微分すれば

Sn(θ,X)=i=1nS1(θ,Xi)(10)

を得ることができます。ここで(6)式に(10)式を代入すれば

In(θ)=V[i=1nS1(θ,Xi)]

となります。ここでS1(θ,Xi),i=1,,nも独立同一分布に従うため、In(θ)=nV[S1(θ,X1)]=nI1(θ)となり(8)式が成り立つことがわかります。

ここから実際に正規分布の母平均μの推定に関して標本平均X¯がUMVUEであることを示していきます。まずμに関するスコア関数は

S1(μ,x)=μlogf1(xμ)=μlog[12πσ2exp{(xμ)22σ2}]=μ{(xμ)22σ212log(2πσ2)}=(xμ)σ2

 

と表されます。従ってフィッシャー情報量は

I1(μ)=E[{(Xμ)σ2}2]=E[(Xμ)2]σ4=1σ2

となります。よって(8)式より

1In(μ)=1nI1(μ)=σ2n=V[X¯]

となり、X¯がUMVUEであることが示されました。

 

おわりに

今回は一様最小分散不偏推定量(UMVUE)の理論について説明しました。標本平均の例からも分かるようにUMVUEの理論は、直観的に”良い”と思われる推定量の合理性を確かめられる有効な理論です。しかしながら常にUMVUEが存在するとは限らず、その場合は最尤推定などによって他の推定量を構成することを視野に入れる必要があります。この記事を読んで少しでも数理統計の奥深さを感じていただけると幸いです。最後まで読んでいただき、ありがとうございました。

 

参考文献

竹村彰通(1991). 『現代数理統計学』. 創文社.

久保川達也(2017). 『現代数理統計学の基礎』. 共立出版.

野田一雄・宮岡悦良(1992). 『数理統計学の基礎』. 共立出版.

※特に今回の記事の論理構成の大部分は『現代数理統計学』(創文社)を参考にさせていただいております。

 

注釈

*1:数理統計において推定は点推定と区間推定に大別されます。

*2:X1,,Xnが確率変数なので確率変数の関数である統計量T(X)も確率変数です。

*3:このことが不偏推定量を考える一つのモチベーションになっています。しかしθが未知である以上、b(T(X))の修正は必ずしも容易ではありません。

*4:他にも完備十分統計量の理論を用いる方法もあります。

*5:以降の議論はfn(Xθ)が同時確率関数であっても成り立ちます。

*6:証明中に出てきた「微分と積分の交換が保証されているという仮定」が正則条件です。

ご質問・お問い合わせは
こちらよりお送りください
採用
ARISE analyticsとは

PAGE TOP