自然言語処理と機械学習こそが最強の学問

CSの大学院生が真の最強学問である自然言語処理と機械学習の内容を書いていく予定。時々全然違う分野の記事も書くかもしれない。

統計力学と機械学習の似ているアプローチ

最近統計力学の本を眺めていたら、統計力学機械学習のアプローチのいくつかが結構似ていることに気がつきました。機械学習ももともと統計力学からヒントを得ている面があるから、あたりまえかもしれませんが、やはり似た数式が出てくると興味深い気がします。似ているアプローチをいくつかリストしてみました。

1 熱力学エントロピーと情報エントロピー

ボルツマンの公式によると、Wを全状態数とすると、熱力学エントロピーは以下で表せます。

 S=klogW

情報エントロピーはよく確率Piを使った式で定義されるのを見ます。

 I = -\sum_{i} P_{i} log P_{i}

この二つの式は実は結構似ています。いまn個の観測値があるときに、i番目の状態の観測値がPiとすると、それが観測される回数の期待値はnPiになります。このときありうる並び替えの状態数を考えて変換すれば、二つの式が同じものになります。発見時期は前者はボルツマンさんの19世紀、後者はシャノンさんあたりの20世紀半ば。

 

2 カノニカル分布とRestricted Boltzmann Machineとsoftmax関数

この三つのモデルの確率分布は、どれもexp(E)の形を正規化したものになっています。

統計力学の本を読んでいたら、カノニカル分布などが万能すぎて怖い。よくみる方程式が次々と導かれる出てくるし、磁性、結晶、しまいには黒体放射まで出てきます。プランクの法則のあの汚いうつくしい数式がどこから出てくるかずっとわからなかったので、かなりすっきりしました。カノニカル分布はかなり昔からあるモデルであるに比べて、RBMは最近deep learningの波で脚光を浴びてきています。

 

3  イジングモデルと条件付確率場(CRF)

イジングモデルとCRFは両方共似た関数の最適解をもとめます。イジングモデルは隣り合う格子の総合作用を考慮にいれて、全体のハミルトニアンの最小化を測りますが、CRFはとなりあう系列ラベルの総合作用を考慮して、全体の確率の最適解を求めます。

CRFはグラフィカルモデルの一種で、作られてからあまり時間がたっていないし、わりと最近流行っている?手法です。一方でイジングモデルはかなり古いモデルで, Wikiによると1920年あたりにもう発見されています。両方に共通する解法として、ワイス理論(Ising)、平均場近似(CRF)とかがあるようですが、どっちもよくわかりません。

 

結論や思ったこと

1: ボルツマンは偉大な人

2: 量子統計力学とか物性物理学をまじめに勉強すれば、機械学習のいいヒントになるかもしれません。