Web-Scale時代のパターン認識

2011.10.03

Updated by WirelessWire News編集部 on October 3, 2011, 16:21 pm JST

2011年10月6日7日と幕張メッセCEATEC国際会議場にて「Big Data and Cloud ：Webスケール時代のパターン認識」と名打った研究会を行う。主催は電子情報通信学会パターン認識とメディア理解研究会（略称PRMU）であり大学および企業研究所でパターン認識を専門とする研究者グループの集まりである。この研究会は一般に極めてオープンであり、IT技術者の飛び入り聴講を期待している。パターン認識研究者たちがIT・エレクトロニクス産業のコンファレンスで研究会を開催することになった理由を以下に説明させていただきたい。

メッセージは2つある。一つは、パターン認識研究者に対して「今の研究は時代の要請にマッチしているのか？（後述の）Web-scale時代におけるパターン認識研究はどうあるべきかを考えて欲しい。」もう一つは、IT技術者と起業家に対して「クラウドの登場によりネットを通してデータを集積しサービス化することが容易になった。そのネタはパターン認識にもあり、タイミング良く技術を拾うことでネットサービスにつなぐことができる。」このメッセージの背景を以下に解説していく。

"Web 2.0"の中に見られたビッグデータの萌芽

筆者の理解では、この10年は「情報の共有が人間ネットワークを介して瞬時に行われるソーシャルメディアが生まれ，さらには散在する情報を幅広く収集しそれを価値化して提供するという『情報の社会化』を迎えた時代」であった。Tim O'Reilly が2005年9月に"What is Web 2.0"の概念を提唱したとき、そこで彼が述べた洞察は新鮮だった。

その一つにユーザーとともに成長するデータベースがある。ユーザーデータが増えるほどサービスが充実し、そのサービスがさらなるユーザーデータを呼び込む。そしてそのデータがある臨界量を超えたとき、他社が追従できない大きな提供価値を持ったサービスが生まれる。Googleの各種サービスはその典型であろう。データが財産であり競争力の原資である。O'Reillyは"Data is the Next Intel Inside"であり、データが生み出す場をどのように設計するかが大事あると述べ、Web時代のネットサービスの方向性を示した。

===

おりしも、Googleの前CEO, Eric Schmidtが「クラウド」という世界規模にスケールする大規模サーバー群を形容する言葉を用いたのは、約1年後の2006年8月9日であった。そしてその2週間後の8月24日にAmazon EC2サービスがアナウンスされている。これは偶然ではない。そして翌年2007年6月29日に米国にてi-phoneが発売されクラウドと連携してサービスを提供するスマートフォンが出現した。追従するアンドロイドの登場が実世界データを生み出すデバイス、クラウドデバイスという機能をより明確にした。

つまり、データが企業活動にとって重要財産の一つであるというコンセプトがWeb2.0で示され、集積したデータを活用するSNS、メディア蓄積・配信・検索等のネットサービスがクラウド、大規模データベース処理技術、クラウドデバイスが現れたことで劇的な発展を遂げた。一億台ものコンピュータが連携して地球規模で大衆サービスを提供するという「情報の社会化」はTim O'Reillyの言葉をまた借りるなら"Global Brain"という付加価値を生み出した。Googleの音声認識、機械翻訳, Facebook, Twitterデータの解析によるリコメンデーション等がその例である。2011年の状況は、以下の式で表現できる。

日本アンドロイドの会会長の丸山教授は、世界規模で起きているデータ集積と処理の規模を"Web-Scale"と評した（2009）。¹

Web-Scaleデータとはなにか？　現時点でそれらは、サーバーログ、センサー情報、画像・ビデオ、Twitter/Facebookを初めとするSNSデータ、ブログ、ソーシャルグラフであろう。これらをビッグデータと呼ぶことにする。一般的に大規模、構造が一定ではない²、速いレスポンスが要求されるという特徴があり、さらに履歴として意味を持つデータが多いためデータの間引きができないことが多い。課題は、これらビッグデータをどのように処理するかである。アルゴリズムとシステムの二つの側面がある。

Web-Scaleでなければクラウドではない。Web-Scaleでの情報の爆発・利用者の拡大に対応するためのシステム技術あるいはプラットフォームがクラウドであって、自社のデータウェアハウスを安直に「プライベートクラウド」と呼ぶことは本質を捉えていないと言える
構造が一定で無いから、NoSQLだという考えもあるが、ちゃんとモデル化すれば構造化データとして扱えるので、SQLで扱うのがまっとうだと思う。また統計データが欲しいならNoSQL＋Hadoop, データそのものを再現したいなら一貫性重視でSQL利用という使い分けが必要。Hadoopがどこまで流行るかはBig Dataの統計的利用がどこまで大衆化するかによると考えている。

===

サービスの一部としてビッグデータ収集の「場」を設計する

これまでデータから有益なルール、統計モデルを自動学習するという機械学習の技術および、また得られたルール、統計モデルからデータを識別するパターン認識技術は研究されてきた。パターン認識研究者の興味は、音声データから文字に変換する、手書き漢字を入力としてコンピュータに自動入力する、人の顔画像を自動追尾するという方法論、アルゴリズムそのものであった。良いアルゴリズムを着想して、ちょっとした実データで実験すれば論文が書けた。

2005年まではビックデータは無かった。ところが2006年以降ビッグデータに対して機械学習、パターン認識技術を適用させてサービスを創造あるいは向上させる時代が到来しようとしている。Googleの成功を見てみればよい。"More Data beats Better Algorithm（MDbBA）"の事例が多く見受けられるようになった。Googleの自動走行デモンストレーションは良い例であろう。複雑なアルゴリズムの組み合わせに頼らずとも、収集した地図データと通常の距離計測と画像センサーの組み合わせでサンフランシスコからシリコンバレーまで車が自動走行することを示した。

▼Google Cars Drive Themselves, in Traffic - NYTimes.com

この自動走行は機械学習とは関係なくデータがあれば有用性が臨界点を超える事例であるが、機械学習の枠組みを導入した成功事例はさらに沢山ある。機械学習は、正解データがあればシステムが、正解を出すように自動修正される枠組みであるから、ある所定の問題のクラス、言い換えればサービスに対して良い学習アルゴリズムが設計されれば、データの集積と性能向上のループが正循環する。

それらは、文字認識、音声認識、機械翻訳、ランドマーク認識、顔画像認識等で実現され多くがネットサービスとして提供されている。例えば機械翻訳のレベルは既に同じ言語族、たとえば英語、フランス語、スペイン語間ではほぼ実用レベルに達している。翻訳アルゴリズムに改良の余地はまだあり、それが研究論文発表の良い機会ではるが、実際に大事なことは、ビッグデータを収集する場を設計すること、すなわちサービスの一部に機械学習の枠組みを組み込むことである。パターン認識研究の環境が、ここ10年で様変わりしたことに我々は気がつかなければならない。

===

顔画像認識の「次」に来るものを探る

2001年にPaul ViolaとMichael Jonesがブースティングと呼ばれる顔識別機の学会発表 [PDF]を行った。このアルゴリズム発表は顔画像同定というサービスが"More Data beats Better Algorithm（MDbBA）"の領域に入った瞬間であった。以後、性能を大きく改善する多くのアルゴリズム改良がなされたが、デジタルカメラで用いられる顔領域追跡は基本的にこの発表の手法に基づいている。

▼顔識別機の学会発表 [PDF]

研究者に求めるのは2つ。

次なるMDbBAの領域を新たなアルゴリズム・手法を発明して開拓する。第2のViolaとJonesになる。
MDbBAの領域では、アルゴリズムに加えてビッグデータを処理するプラットフォームも研究対象とする。アルゴリズム・プラットフォームをトータルで設計することが工学である。

IT技術者・起業家に求めるのは以下の1つ。

MDbBAの領域に入って商用化が間近なネタを真っ先に探り当て、それをネットサービスの仕掛けとして利用する。

シリコンバレーだけがネットサービスイノベーションの発信地ではない。クラウド、データベース処理技術、クラウドデバイスの登場は、ネットサービス設計の機会を全ての人に与えた。一般的にビッグデータを集める仕掛けを考えることが重要であり、それはパターン認識応用だけとは限らないが、日本にはパターン認識技術のネタがごろごろと転がっている。是非目を向けて貰いたい。

今回の企画では、PRMUの拓く未来：Webスケール時代のパターン認識」という大きなテーマで、ビッグデータに対してどのような取り組みが現在行われているのか、「ソーシャルメディア」，「クラウド」，「地球環境」，「経済活動」、「画像メディア」をキーワードとして理論、システム両側面から現在の技術を俯瞰する場を提供している。どのようなビックデータが存在しているのか、どのようなアルゴリズムが最前線なのかを議論する。一方でシステム側面での講演もお願いしている。最近のホットワードであるNoSQL, Hadoopもトピックとして取り上げている。

===

本研究会のみどころは以下の5点であろう。最終日のパネルディスカッションでこれらのトピックをサーベイする予定である。

Big Data beats Better Algorithmsの次の領域はどこにあるだろう？　文字、音声、顔画像認識と到達して次は料理画像か？　気象予測、個人の消費行動予測は？
ベイジアンモデリング等の最新アルゴリズムはどこまでビッグデータに対してスケールするのか？
Big Dataの嘘と本当。ソーシャルネットワーク解析はどれだけ効果があるのか。
Hadoop, NoSQLはどこまで流行る？
10年後Global Brainはどうなっている？

ビッグデータの利用はマーケティング、金融セキュリティ、社会インフラ最適化、医療介護を含み多岐にわたり、今回の研究会は全てをカバーできるものではないが、パターン認識研究者とIT産業との交流の場として是非注目していただきたいと思う。

　
文・栄藤稔（NTTドコモ　サービス＆ソリューション開発部部長　兼　ドコモイノベーションズ（米国パロアルト）社長）