SOMとNG

SOMは,データ空間から特徴空間を自己組織的に作る学習装置.データ空間における2点間の距離は,データ依存であると同時に,距離測度にも依存する.一方,特徴空間における2点間の距離は固定で,学習を通じて変化しない.

NGの場合は,アルゴリズムがSOMに似ているが,特徴空間の扱いが異なる.特徴空間における2つのリファレンス・ポイントは「ランキング」で表現されるが,データ構造に依存するだけでなく,データ空間の距離測度にも依存する.しかし,データ空間における距離と特徴空間における距離の関係もまたデータ依存で,単純なプロポーショナルな関係ではない.さらに,厳密には「距離」ですらなく,そもそも対象性が成り立たない.

そんないいかげんな特徴空間なんか使わず,全部データ空間でやってしまえば良いように思える.そうなるとk-means法になるが,これはこれで困った問題があって,学習の最中に徐々にリファレンス・ポイントが収束していくプロセスで,時々刻々誤差(すなわちデータ空間での距離)が変化してしまい,好ましい結果が得られにくい.また学習の安定性の問題も生じる.やはりSOMのように,何かしらの抽象化された空間で距離を測ることは大事なことと思われる.

このあたりのデリケートな問題(他にもいくつか問題があるのだが)は,NGを通常使う上で表面化することはまずない.だから,このような問題が背後に隠されているということは,大部分の人は気づかずに通り過ぎるだけだと思う.ところが,NG x SOMのようなアーキテクチャを実現しようとなると,こうした問題が前面に出てくる.この話は,また機会があれば書きたい.

なお上記の「問題」は,「困った点」という意味での問題(problem)ではなく,「興味深い,解明すべき対象」という意味での問題(issue)である.NG x SOMによって,NGに内在していた隠されたissueが表面化してきたと理解したい.