20151113sparse-ec

知的情報処理の最前線:「スパースモデリング」という方法論

2015.11.24

Updated by Masayuki Ohzeki on 11月 24, 2015, 09:00 am JST

会議が長引くのは決まって誰かの混ぜっ返しだ.しかしその発言が「本質」をついていると、ついつい考えたくなるものだから有り難い.一方で「何が言いたいの?」と感じるよくわからないことをグダグダ言われるときほど悲しいことはない.

世の中、見渡すとコンピュータにあふれて、コンピュータと人間の協同が織りなすサービスに感激する日々である.全ては情報のなかから、顧客が何を考えているかを先攻して予測しながら、可能性を絞り込むことでサービスの利用者に不安やストレスを感じさせないようにしているところがポイントなのだろう.あまのじゃくな顧客からしたら、もっとこうだったらいいのに、もっと細かいマニアックな注文もかなえてほしいと思うことも重々承知である.しかし世の中の大勢はきっとこう感じているという帰結を得た上で、現状のサービスは構築されている.全ては大多数の情報から抽出された「本質」なのだ.

そのため世の中は「ビッグデータ」という言葉に時代の到来を感じた.その名の通り、大量の情報から人間社会の構造を理解して、サービスの提供の質を向上させようというわけだ.しかしながら、大量の情報を目の当たりにして、結局その情報は何を示しているのだろうか?

例えば乗車記録.ある人がA駅からB駅まで、どれだけの時間をかけて通勤したか.毎日どの時間に乗るか.毎晩どのくらいの時間まで帰路につくための電車に乗れず働いているか.きっとこういうことが「ビッグデータ」を駆使すれば容易に調べることができるのだろう!大量の情報をうまく適切に処理すれば、そう読み取ることができるのだな?

はて、その適切に処理する方法とは一体なんだろうか?

大量のデータは今描いたように生き生きと、ある人の人生を描くだろうか?

実はそんなことは決してない.無味乾燥な数字や記号の羅列しかない.大規模なデータを意味のある形へと処理するためには、どのような要素を重要視して取り出すのか、データの構造のあるべき形をある程度人間が手で入れるほうが都合が良い.このようにして、大量のデータを入れれば、注目した要素がどの程度重要であるかの指標がきちんと得られる.大半の機械学習のアルゴリズムでは、このように問題を洗練した形に焼き直した上で、ようやくデータの構造を読み取ることが可能である.しかしながら問題点が残る.データの構造として仮定した形は正しかったのだろうか?そしてそんな単純な構造でよかったのだろうか?もっと複雑なのではないだろうか?

そうやって次々とこった構造を作り、そしてうまく大量のデータを用いて複雑な構造についての結果が出力されても、また複雑な数値の羅列に終わる.これではちっとも賢くなった気がしない.結局そのデータは何を物語っているのか、全く分からない.ビッグデータは単なる数の暴力に終わる.人間は賢くならないし、それを利用したサービスもきっとエッジが効いたものではない.

そこで最近登場したキーワードが「スパース性」である.

スパースというのは、英語で「まばらである」、「わずかにしかない」、「スカスカである」という意味である.

何がスカスカなのかというと、物事の本質は実は単純にできていて、それを説明する要素はごく少数しかないという信念である.その信念に基づき、機械学習や情報処理のアルゴリズムを少し改変すると、結果として得られるのは本当に重要な要素のいくつかだけしか残さない.従来の方法では、ありとあらゆる要素を考慮に入れようと全張りをする.一方で、スパース性を用いると、いくつかの要素だけにその本質をゆだねるという数少ない候補を予想してくれるというわけだ.

要するにどういうこと?とデータに語りかけているのだ.

あたかも何の変哲もない数字の羅列にすぎないデータから「本質」を見抜いてくれる.この方法を用いて、複雑な数字や記号の羅列のデータから、色々な要素を考慮した上で、結局重要な事実があぶり出されるような仕組みのことをスパースモデリングと称する.ビッグデータに対する有効な処方箋のひとつとして近年急速に盛り上がりを見せており、日本の学術界でも活発に研究活動が行われ、海外も同様に熱気にあふれている状況だ.

大量のデータにまみれて、ああだこうだと細かいことを言う前に、結局そのデータの本質を抽出してくれる技術があって、初めてデータの背後にある構造を理解することができるのではなかろうか.そして人間社会の普遍的な構造を理解したり、人間の知的プロセスの重要な部分を取り出すことで、初めて人間と知能を理解することにつながるのではないか.その結果を活かすことで、初めて人間と対峙しても違和感のない本質をついた知的情報処理システムと出会うのではないだろうか.

僕もこんなぐだぐだ述べないで、一言だけで語りたいものだ.

そういえば人間は、駅のベンチで乗降客を眺めれば、乗車時間等気にせずとも、乗降客のなんとなくの特徴を簡潔に表現することができる.データを目の当たりにする機械に必要なのは、このスパース性に基づく知的情報処理ではなかろうか.

WirelessWire Weekly

おすすめ記事と編集部のお知らせをお送りします。(毎週月曜日配信)

登録はこちら

大関 真之(おおぜき・まさゆき)

1982年東京生まれ。2008年東京工業大学大学院理工学研究科物性物理学専攻博士課程早期修了。東京工業大学産学官連携研究員、ローマ大学物理学科研究員、京都大学大学院情報学研究科システム科学専攻助教を経て2016年10月から東北大学大学院情報科学研究科応用情報科学専攻准教授。非常に複雑な多数の要素間の関係や集団としての性質を明らかにする統計力学と呼ばれる学問体系を切り口として、機械学習を始めとする現代のキーテクノロジーを独自の表現で理解して、広く社会に普及させることを目指している。大量の情報から本質的な部分を抽出する、または少数の情報から満足のいく精度で背後にある構造を明らかにすることができる「スパースモデリング」や、次世代コンピュータとして期待される量子コンピュータ、とりわけ「量子アニーリング」形式に関する研究活動を展開している。平成28年度文部科学大臣表彰若手科学者賞受賞。近著に「機械学習入門-ボルツマン機械学習から深層学習まで-」、「量子コンピュータが人工知能を加速する」(共著)がある。

RELATED NEWS

RELATED TAG