WirelessWire News The Technology and Ecosystem of the IoT.

by Category

やがて訪れるデータ・エコノミー社会の将来像〜ビッグデータだけでは見えない情報社会の真実〜[第7回]美濃導彦氏「価値のあるデータは、人の行動を変化させる」(3)

2013.04.16

Updated by on April 16, 2013, 11:00 am UTC

情報やデータとは何なのか。そして、私たち人間や社会にどのような影響をもたらしているのでしょうか。京都大学学術情報メディアセンターにおいて教べんを取りつつ研究をリードされている美濃導彦教授にうかがいます。

情報の体系化構造化はとても難しい

──情報の体系性や管理手回しの良さをどう作っていくかはいかがお考えでしょうか。階層整理的なアプローチがやはり軸になるのでしょうか。

201304161100-1.jpg美濃:階層というよりは、建て分けみたいな感じです。階層の構造を持つデータも考えられますが、全体の一部ではないでしょうか。

GISを例に取ると、ここには階層という考え方があって、最初に地形データがあり、道路データあり...、という階層を重ねあわせていくと、それで地理空間情報として表示できます。しかしこのように階層表現できる構造は、たぶん一般的ではないですね。

同じデータベースでも、リレーショナル・データベースは、表をベースにしていて、XMLはツリー構造をベースに設計ができるようになっています。それぞれをデータの本質によって使い分けています。

つまり、データベースに限ってみても単純な表形式で間に合うデータの表現方法と、データがツリー構造になる関係、他にはネットワークであるとか、バラバラであるとか色々な表現型が出てきてしまいます。

かと言ってすべてのデータをツリー構造に構造化しようとするのはすごく難しい。いい例がホームページのデータ整理です。大学のホームページを6年ぐらい前に作りましたがこれはほんとうに大変な作業でした。データを全部集めてきて、このデータはどの概念の下なのかと整理しだしたら、もうそれは言語体系というか、世の中の概念を整理しているような話になってきてしまいました。

ホームページはツリー構造だから、いったん違う枝に分岐したら探したいデータは出てきません。どれだけ議論しても多様な意見はまとまらないので、最後は1人が決めました。案の定「使いにくい」と言ってくる人もいますが、中には「すごく使いやすくなりました」という人もいる。それは、たまたま概念ががぴったり合っていたんですね(笑)。結局、逃げ道になったのは、ポータルを作って、違う概念で整理してあげることでした。
整理のモデルを決めてしまうとそのモデルに合う情報しか入らなくなるのです。恣意的な切り落としが発生してしまいます。

だから、サイエンス分野では、統計的に有意なところをうまく記述できるようにモデル化するわけです。しかし実際は、常に例外が出てくるわけです。実際に動いている情報システムのプログラムは例外処理のところのほうが大きいものも少なくありません。データの扱いにくさについては考えこんでしまいますね。

データは解釈の多義性があって、だから階層にしようにも表やツリー構造にしようにも、すごく難しいのです。情報システムを作るときにも常にそこが問題になる。同じ言葉使っていて情報伝達をしても、人によって解釈が違います。だから共通化するにはコミュニケーションが必要で、何回も話さないと情報はなかなか伝わりません。

データにもいろいろ種類があります。われわれはずっと昔から画像を扱っているので、だいたい時空間の目線で、データには方向性があるという感覚をもっている。同じことを言語学者に伝えようとしても、そんなことは全然伝わらない。

情報は、データの形式によって性格がかなり違うので、処理の仕方も全然違っていて研究分野も分かれています。みんなそれぞれの解釈に向かって一生懸命情報を抽出しようとしているのですが、全くやり方が異なる。同じデータ処理、データ分析といっても研究の世界ではほかの分野の処理方法は全く違う話になっている。

ビッグデータ分析という新しい課題

──情報の解釈がデータに依存するならば、分野を超えてデータを共有することは非常に困難なことではないのでしょうか。あるいは、そういった困難を超える方法論が何かあるのでしょうか。

美濃:ビッグデータの世界ではこれまでと全然違うモデルを作る必要があります。ロングテールの処理なんてそう簡単にはいかないので研究開発が必要です。データ依存のモデルでは普遍性がないので、汎用的なアプローチをどうしたものかと思案中です。

基本的な技術としてデータから分析法を学習する機械学習があります。機械学習は統計的な処理をしているため、データがたくさん必要です。そこでデータが少ない時は、勝手にシュミレーション・データ作って学習させる、という新しいアプローチが出てきています。
※機械学習:データ分析分野において注目されている技術領域。分析方法や整理モデルを人間が設定して分析するのではなく、データパターンの読み取りをコンピュータ自体が支援的に行うことで分析負担を軽減できるのではと試みられている。

これは本質的には数学の課題なので、数学の先生に「もっと小さいデータでの学習方法は、数学で何か理論ないですか」と問題提起したいと思っています。

しかし、セマンティックスが入ってくるとサイエンスで扱いにくいですね。データと情報の話でも、シャノンの情報理論のように確率を取り入れましたが、実際は確率では十分ではなくてセマンティックスを考えないとデータ分析にも限界が出てきます。ここは難しい課題です。(※シャノン:クロードシャノン。デジタル回路設計、情報理論の考案者であり情報理論の父と呼ばれる)

──コンピュータがどこまで人間の思考に近づけるのかという問題でもあります。例えれば、コンピュータが裁判を処理できるのかという感じです。いずれにしろ、今のところまだ無理なことです。

美濃:コンピュータで情報発信はできるようになりましたが、その情報を受信したことによってどれだけの人の行動が変わったか、という調査は今のところできていません。発信した情報の価値は、本来その情報を受けた人間の行動の変化にあるはずですよね。

私は情報が人に与える影響がどのようなものかが知りたくて、最近は観光情報をテーマに研究を進めています。レコメンデーションを出したときに、提示された情報を受けた人が、どう動いたのかGPSでトラッキングできるので、レコメンデーション情報の価値を測ることができます。

人が納得して行動する情報こそが、価値の高い情報でしょう。個人の多様な思考を予想したうえで、その人に合わせたレコメンデーションを行い、それを受信した人が本当に動いたかという効果まで考える。こういう情報のありかたとその評価というのを考える必要があると考えています。観光はこの評価実験を行うのに適した現場だと思います。

──情報が紐付く実体の、あり方の違いで整理すればいいのでしょうか。しかし、それを紐解く個々人の考え方が全部違うので情報は基本的に全部揺れているという部分も無視できないのですね。

美濃:もっと遡ると、これは人と人のコミュニケーションの問題になります。私はコミュニケーションのモデルを作っているのですけど、階層という言葉を使っています。

201304161100-2.jpg
出典:美濃導彦・西田正吾著「新世代工学シリーズ 情報メディア工学」株式会社オーム

一番上は情報が伝わるレベルのメディア。これは言ってみれば、意味が分かるというコミュニケーション・チャネルです。相手の言っていること、言いたいことが分かる状況です。

この意味が伝わるチャネルを実現するためには、下に言葉が通じるとか、表現が通じるという階層が必要です。日本語は通じているけれども、言葉が難しかったり考え方が捉えられなかったりして、意味内容まで理解できないという場面などは、表現が通じるけれども意味が通じないパターンです。さらにその下のレベルで、信号が物理的に向こうへ通じないと意味も言葉も通じない。

例えば、愛を告白したいとすると、絵を書いて告白することもできるし、言葉で表現することもできるし、私はあなたを愛しているということを表現する音楽を作ってもいい。それぞれは表現の違いなのです。当たり前ですが情報というのは表現されないと相手に伝わりません。その表現手段を、情報を伝える側は選べるわけです。

ところが受け取る側は、送る側が伝えたい情報の表現型のひとつしかもらえないのです。加えて、受け取った情報の解釈はまた、いろいろあるわけです。絵や音楽のような表現は解釈が多義的になりやすい。だから一方向では情報は伝わらないことになる。

伝わらない情報を伝えるためにどうするのか。そこには対話しかありません。対話をしなければ情報は伝わりません。私が一方的に授業でしゃべっていると学生は学べないはずなので、質問をするようにと常々言っているのですが、質問はあまりありません。非常に残念です。

[終]

WirelessWire Weekly

おすすめ記事と編集部のお知らせをお送りします。(毎週月曜日配信)

登録はこちら