2010年1月19日火曜日

統計科学の数理 第11回 情報量基準

まずは、先週の回帰診断とモデル選択の残り。逐次選択法(変数増加法、変数減少法、変数増減法)。選択規準量(Marrows のCp、予測残差平方和、赤池情報量規準AIC、自由度修正決定係数)。自由度修正決定係数は真のモデルを外すことが多いので好きではない。 大上先生の一橋での修論のテーマは『情報量規準』だった。ということで、 情報量規準、カルバック-ライブラー情報量(ドイツの暗号解読の目的で開発されたらしい)、真のモデルが分からないのでこのままでは使いづらい。赤池は真の確率分布とモデルの確率分布との「距離」を測る尺度としてK-L情報量を用いることを提案した。データから平均対数尤度の有効な推定量を求めて、それをモデルの評価基準とする。対数尤度をパラメータの関数とみなして対数尤度関数と呼び、それを最大とするパラメータ推定値を最尤推定量とよぶ。 最大対数尤度は平均対数尤度の推定量としてバイアスをもつのでそのままではモデルの比較が出来ない。赤池はバイアスを補正することを考え、それがパラメータの数で近似できることを求めた。AICは構造がシンプルで使いやすいことから、その後広く使われることとなった。 AICはあくまで最尤推定法で求めたモデルの比較しか出来ない。ベイジアンならBIC、一般化されたGICなどがある。天才、竹内啓はTICをもとめ、それを雑誌の依頼原稿に書いた。彼は天才なのであまり原稿を書かなかった。書いていればもっと評価されただろう。 「ああ、AICね。カルバッック-ライブラー情報量を近似したものだよ」と、さらっと言えれば、「おおっ、この人、分かっている」となってかっこいい。 参考文献に小西・北川の『情報量基準』と坂本・石黒・北川の『情報量統計学』。随分前に両方読んだけど、当時はさっぱり分からなかったな。今読めば少しは分かりそう。 試験範囲は「回帰分析」のみ。来週は生存分析。最後はPC実習。 昨日はゼミだったが、おれは朝にメールで出したばかりだったし、寝不足でふらふらしたので休んだ。出た人には、読みやすさなどの注意があったそうだ。まあ、いまさら内容の書き直しを言われても時間がない。とりあえず、25日には出せそうな見通し。あと少しですべて終わる。終わらせよう。 「髪切りてぇ~」 (ホリケン風)

0 件のコメント: