IBIS2009

九大で開かれているIBIS 2009に出席している.IBIS (情報論的学習理論ワークショップ) は初めての参加.(今回は様子を知るために,演題を出さなかったけれども).使っている言葉や技術が違うのでとても勉強になる.

昨日の収穫は Bregman Divergence (ブレグマン情報量).KL Divergenceを一般化したもの.どうやらBregmanの研究がmnSOMやSOM2に関わっていそう.
情報幾何の世界では,m-測地線とe-測地線の2つの距離を併用する.SOM2の言葉を借りて言えば,「データ集合からクラスマップまでの二乗誤差」がm-測地線に沿って測った距離.そしてe-測地線に沿って測った距離が,「モデルとモデルの距離」.SOM2の場合だと「クラスマップとリファレン スマップ(マップとマップ)間の距離」に相当する.

データ集合とモデルとの間の距離を測る場合,両者の平均二乗誤差だとか,尤度とかをいきなり評価してはいけない!と情報幾何は教えてくれる.まずデータ集合を最も良く表現するモデルを見つける(これをベストモデルとでも呼ぼうか).そしてデータとベストモデルとの誤差を評価する(m-距離).次に,ベストモデルから評価したいモデルの距離を,モデル間距離で評価する(e-距離).最終的にデータとモデルとの距離は,m-距離とe-距離を足したものになる.そう,だからSOM2の学習アルゴリズムは,情報幾何的に見て,とても正しい.

ただし!e-測地線に沿った空間がフラット,すなわち線形空間を作るには,モデルが指数関数族でなければならない.SOMのような多様体モデルは(簡単には)指数関数にならない.フラットだったらe-距離はモデルパラメータ同士のユークリッド距離で簡単に求められるが,曲がった空間の場合は,空間に沿って曲がった最短経路を求めなければならないので大変である.

情報幾何の世界では,KL情報量が距離に相当する.指数関数族はKL的に見てフラットな世界を作り,多様体族は曲がった世界を作る.通常のベクタスペースだ と,多様体族はフラットな世界を作るのに.ここが情報幾何にとっての難題で,甘利先生も「難しい」と言っていた.SOM2はそこの部分に入り込んでいるのだった.

そこでBregmanはKL情報量を拡張した概念を提案した.確率密度間の距離を測るには,何もKL情報量でなければいけないことはなく,もっと自由に決めてよいのではないか,と.ちょうどユークリッド距離がミンコフスキー距離に拡張できるみたいに.そうすればKL情報量的には曲がった空間であっても,Bregman情報量的にはフラットな世界になる.もしそれで多様体族がフラット世界になってくれたとすると......ここから先は,Bregmanの論文を読まないとわからない(私の数学力で読めるだろうか?たぶん無理だろうなあ......).