知的情報処理の最前線：世界の表現芸術「深層学習」

original image: © Pix by Marti - Fotolia.com

知的情報処理の最前線：世界の表現芸術「深層学習」

2015.12.01

Updated by Masayuki Ohzeki on December 1, 2015, 09:00 am JST

人間はぱっと目の前にしたものが何であるか、即座に判別する．

危機的状況にさらされたとき、決断に迫られたとき、人間は即座に判断をする．

これを人工知能研究の最前線では、普通に行うことができつつある．様々な事象を「データ」から学ぶことで、人間が経験して学習を行うように、機械が判断能力をつけるいわゆる機械学習と呼ばれる学問的枠組みの成果である．

猫の画像を見せて、犬の画像を見せて、最後にクイズ．これは何の画像でしょうか？いまや犬猫の区別くらい容易いと機械が言っているかのような精度で識別してくれる．

犬とは言っても猫とは言っても、見る画像見る画像ピクセル単位の画素値という観点では全く異なる．どうもその画素値同士の関係や配置だとか、画素値そのもの以上の関係を捉えているようだ．

これは確かに人間と似た「賢さ」の獲得である．

この識別の問題で圧倒的性能を誇る機械学習のアーキテクチャとして知られるのが深層学習（Deep Learning）である．耳学問的にも興味のある読者は多いことだろう．その中身で何が行われているのか、学術的にも興味があるという研究者は多い．何よりその驚くべき性能である．日々改良が行われ国際会議では、まさにオリンピック競技のごとく、性能を競っている状態である．

そもそもはボルツマン機械学習と呼ばれる、まさに画像の画素値や配置の間にある関係を捕まえる雛形が大元となっている．

ボルツマンとは統計力学と呼ばれる物理学の学問体系の開祖のひとりである．統計力学では多くの要素が集まった際に、集団としての振る舞いを予言する．例えば原子や分子の集まりでできた物質の性質を調べることを可能にする．そのときに使われる大前提となる処方箋が、微視的要素の振る舞いはある特別な確率分布によって記述されるというものだ．

データの世界にこのボルツマンによる統計力学を持ち込むと、例えば画像の画素値が微視的要素に対応する．それぞれの画素値は異なるのは、確率的なルール従っているために生じる不確実性から来るのだ、と「大胆にも」仮定する．これがボルツマン機械学習の始まりである．ただしどんな確率的ルールか？それが知りたい．そこに学習という要素がある．猫であれば猫のルールがあり、犬であれば犬の画像に対応したルールがきっと背後にはあり、そのルールを知る事ができれば、数ある画像から犬か猫かの判別は可能であろう．

しかしボルツマン機械学習を実行しようとすると、計算時間が膨大なものになり、実行は困難なものであった．その計算時間の原因は、ボルツマンによる統計力学の計算の難しさにあった．実際、統計力学という学問分野では、その計算を実行することこそがひとつの研究課題となるというくらいの難易度を誇っていた．そのため、どんなルールであるかもわからない状況の問題を解きなさいと言われたら、それは絶望的なものである．しかし時代は経て、計算時間の短縮のための計算技法の整備、コンピュータの支援による計算時間そのものの短縮が相補的に進み、なんとか実行することができるレベルにまで到達した．一方で識別する対象についても、画像や音声データの豊富さは去ることながら、単なる犬と猫の識別を超えて、より高度で複雑なものの識別がニーズとして広まり、ボルツマン機械学習とは別の手法が発展してしまった．なんだか時代に取り残された機械学習の浦島太郎である．

そこであきらめるのは早い．ここからが意地である．

より高度で複雑なものに対応するルールを表現できるようなものに変更して行こう．しかし闇雲に多様なルールに対応してしまうと、計算時間の膨大化を招き、歴史は繰り返す．何かいい方法はないだろうか？計算そのものは簡単なものに収まりつつ、しかしやや多様なルールに対応させられるものはないか．模索の結果、登場したのが隠れ変数有りボルツマン機械と呼ばれるルールである．黎明期の深層学習の基本単位として知られる．

この隠れ変数有りボルツマン機械というルールは、非常に的を射た発明である．今までのルールは、見えるもの全ての関係性だけで決まると考えていた．画像で言えば、画素値は配置そのもの、つまり目に見える表現だけで決まるとしていた．しかし隠れ変数有りボルツマン機械では、目に見えない何か冗長なものが背後にあり、それと目に見える世界が繋がって、初めて多様な姿を見せているのだという考えのもと、設計されたルールとなっている．目に見える部分を正しく表現できるようにルールの調整を行い、ボルツマン機械学習の新しい形式がここに登場したわけだ．確かに人間の聴覚、視覚を始めとする感覚器官は、外界との接触をしたのちに、内部の神経回路網に伝わり、脳の情報処理機構に送られる．その構造を模しているかのような形式である．

肝心の計算時間はどうなのか？隠れ変数有りボルツマン機械という、世界の表現の仕方の別ルールを手に入れたため、ただ闇雲に世界が複雑にできているというのではなく、外部の世界自体には無味乾燥に関係性がないかもしれない、しかし内部の情報処理系統では外部と内部のどこを繋ぎ合わせるかを工夫することで複雑に絡み合うことができる．この繋ぎ方の整理の結果、計算時間の短縮が可能であることが発見された．

考えてみればその通りだ．通りすがりの猫は単なる猫だ．犬がそこにいるという事実はつまらない．しかし脳の内部にいくと、その猫は近所の猫で、いつもあの路地裏で昼寝をしていて……と関連づけているのは、外部の情報と内部の記憶である．外部の情報同士を結びつけているのは我々が知覚することで勝手に行われているのだ．無味乾燥な外部の情報同士にそもそも関係があるか、といわれるとないのかもしれないな、と少し考えさせられる．

計算量の短縮、そして内部と外部の切り分けと繋ぎかえによる複雑な表現の獲得．

これらがトリガーとなり、より高度で複雑な表現を獲得する完成品が登場した．

それが深層学習である．

中身で行われている計算や、その起源をたどると、なんだか妙に納得しやすい形にできている究極の芸術品に見えてくる．

おすすめ記事と編集部のお知らせをお送りします。（毎週月曜日配信）

登録はこちら

大関真之（おおぜき・まさゆき）

1982年東京生まれ。2008年東京工業大学大学院理工学研究科物性物理学専攻博士課程早期修了。東京工業大学産学官連携研究員、ローマ大学物理学科研究員、京都大学大学院情報学研究科システム科学専攻助教を経て2016年10月から東北大学大学院情報科学研究科応用情報科学専攻准教授。非常に複雑な多数の要素間の関係や集団としての性質を明らかにする統計力学と呼ばれる学問体系を切り口として、機械学習を始めとする現代のキーテクノロジーを独自の表現で理解して、広く社会に普及させることを目指している。大量の情報から本質的な部分を抽出する、または少数の情報から満足のいく精度で背後にある構造を明らかにすることができる「スパースモデリング」や、次世代コンピュータとして期待される量子コンピュータ、とりわけ「量子アニーリング」形式に関する研究活動を展開している。平成28年度文部科学大臣表彰若手科学者賞受賞。近著に「機械学習入門-ボルツマン機械学習から深層学習まで-」、「量子コンピュータが人工知能を加速する」（共著）がある。

その地の気候風土を体で覚えている暇はない

まだまだ怖い自動運転

知的情報処理の最前線：覗きは駄目「量子の弱点？」

[PR]製造業のビジネスモデル変革も促す IoTデバイスのセキュリティ基盤

PREVIOUS
NEWS

VRからハプティクス、攻殻機動隊までデジタルメディアの今を知る「シーグラフアジア 2015」（後編）

アマゾン、「Prime Air」用ドローンの新型プロトタイプを披露

NEXT
NEWS