WirelessWire News Technology to implement the future

by Category

レコード プレイヤー 再生 イメージ

「データ駆動型社会」は必ずしもバラ色の未来を保証しない

"Data-driven society" does not necessarily guarantee a bright future

2022.04.22

Updated by Shigeru Takeda on April 22, 2022, 14:48 pm JST

データ(data)はデータム(datum)の複数形で、ラテン語の dareまたはdonare(ダーレ=与える:ドネーション(寄付)の語源でもある)を語源とするが、データムという単数系が利用されることはない。つまり、最初からある程度まとまった量(=データ)が与えられている、と考えるのが普通だ。

データはデジタル化することで、コピーしても品質が劣化せず、瞬時に移動可能で、他のデータと組み合わせたりコンピュータで演算可能な状態になる。いうまでもなく現在脚光を浴びているのはデジタルデータだが、アナログデータをデジタル化することで経時劣化を防ぐ活動に従事している人も多い。最近リニューアルした「文化遺産オンライン」の本領が発揮されるのは、かなり後世のことになる可能性はあるが、(サイバーとフィジカルを結びつける、という意味においても)この活動の社会的意義は極めて高い。

一般に「データ」という場合は、元データ(Raw Data)を指す。熱力学的には最もエントロピー(entropy:乱雑さ)が大きい状態で、そのままでは(ヒトが)解釈不能であることも多い。データサイエンスは、この元データから意味や価値を引き出すための作業、すなわちエントロピーを小さくするための手順を統計的もしくは確率的な処理で実行しようとする学問であると考えられる。

そのためにコンピュータ(チューリング・マシン)でアルゴリズムを走らせる。現在有望なアルゴリズムにはマシンラーニング(機械学習)、ディープラーニング、ニューラルネットワーク、遺伝的アルゴリズムなどがあり、これらはまとめてAI(artificial intelligence)と呼ばれることが多いが、AIは学術用語ではないことに注意していただきたい(単なるキャンペーン用語に過ぎない)。ただし、エネルギー的な持続可能性を考慮した時は、ある特定の生物由来の自然なアルゴリズムこそが次世代の主役のはず、と考える研究者の一群が存在すること(ジオラマ行動力学で原生知能を定式化する)も頭の片隅に留めておきたい。

データは、エントロピーを小さくすると「情報」になる。上司が「データもってこい」という場合は、本人が自分でエントロピーを小さくしようと考えているはずだが、「情報もってこい」という上司は、最初から自分のアタマを使うつもりがない可能性が高い。雑誌における編集という行為はまさにエントロピーを小さくして、情報量を最小化しつつ最大の品質を提供しようとする行為だが、これを突き詰めると詩歌や格言になる。最小の文字数(データ量)にもかかわらず意味の含有量が極めて大きいのが詩歌の特徴である(ただし、意味の含有量は計測不能である)。

データの品質は、3種類のパラメータで表現できる。解像度(resolution)、文脈(context)、そしてメタデータ(meta data)の総量だ。解像度は高いに越したことはないが、一般に元データは、ハードディスクなどの資源を効率的に使うべく圧縮される。圧縮率が高ければ、データ量は小さくなるがそれに伴い品質は劣化する。また同じ圧縮率でも圧縮のアルゴリズムが優れているとさほど品質が変わらない、という場合もある。

これは諸刃の剣だ。例えば音楽CDは1,411kbpsというビットレートでエンコーディングされているが、このレートでリッピングを行うとCD1枚で1GB前後のディスクを必要とする。加えて、かなり特殊な音響環境で再生するのでなければ、ヒトの耳は256kbpsでエンコーディングしたものと1,411kbpsでエンコーディングされたデータの違いを聞き分けることはほぼ不可能だ。というわけで、256kbpsでリッピングするのが合理的だ、といいたいところだが、それが未来永劫正しいとは限らないのが悩ましい。近い将来とてつもなく高音質を再現できるネットワーク環境(6Gなど)が実用化したときに、1,411kbps(あるいはそれ以上のビットレート)がその本領を発揮する可能性を否定できないからだ。

圧縮という行為は不可逆的だ。例えばYouTubeは、「巨大な動画ファイルコンバータ」と見做すことができる。MPEG4、AVI、WMV、FLVなど様々な動画ファイル形式をサポートしているが、これらは全てYouTubeにアップロードされると同時にエンコーディングされる。このエンコーディング作業を同じ動画素材に対して1000回繰り返すとどうなるか、ということを本当に試した猛者(VIDEO ROOM 1000 COMPLETE MIX -- All 1000 videos seen in sequential order!)がいるが、これは圧縮が不可逆的であることを実にわかりやすく説明してくれている。

データの価値や意味の重要性は、そのデータを受け取る(解釈する)人の状況に大きく依存する。例えば空腹で街をうろついている時に「もう少し先にいくとラーメン屋があるはず」というデータ(情報)が適切なタイミングでフィードされたとしたら、当該のラーメン屋に関するデータが多少貧弱なものでも、空腹な人には極めて貴重で品質の高いデータに変身する。一見凡庸なデータでも、受け取る人の状況と素早い情報フィード(流通)ができるならば、そのデータの品質は高い。ここでは状況を察知する性能と、素早く流通させる性能がデータそのものの品質を規定することになる。

なお、状況は、国籍・性別・年齢・季節・気候・風土・体調・緯度経度高度情報・時刻・懐具合・ライフスタイルや信条・働き方・専門性などの多くの要素で決定する。これらは、都度変化するもの、生涯まとわりつくもの、個人的なもの、ある特定の社会共通のもの、という具合に4象限にマッピングできる。

メタデータは、データの詳細を説明するためのデータである。通常は注釈(annotation)という形式をとるが、メタデータのサイズが元データのサイズを上回ることも少なくない。例えば「磯野波平」というデータに「サザエさんの実の父親」というメタデータが付与されるとしよう。そうすると「父親」を概念定義する別のメタデータが必要になり、いうまでもなくこれは、「母親」も定義しなければならなくなることを意味する(かつ循環参照が許されない)。

結果として、メタデータ自体は無限に膨らんでいく可能性を孕んでいる。このようにデータオブジェクト同士の関係性を決定していく行為を「オントロジー(ontology)を記述する」というが、この作業はいわゆるフォークソノミー(folksonomy)形式で実施されるのが一般的だ。例えばソーシャルメディア上で展開されることの多い#(ハッシュタグ)を付与する行為はみんなでメタデータを付け合うフォークソノミーである(対義語はディレクトリー・ツリーを前提としたtaxonomy)。

フォークソノミーの大きな弱点は、ノイズが混入しやすく、かつノイズとメタデータの区別がつかないことにあるが、ここでベイズ推定(Bayesian inference)が本領を発揮することも多い(最近のメーラーのスパムフィルターが信頼に値するのはこれが理由)。いずれにしてもメタデータ量が多いデータは品質が高い可能性が高い、とはいえるだろう。

データマネジメントについてはDAMA(DAta Management Association)Internationalが定めたDMBOK(Data Management Body Of Knowledge)という知識体系の中で「データ価値を高めるための計画・手順などを開発・実施・監督すること」と定義されている。データは正しく育成されるべき対象である、と指摘しているように思える。

この種のドキュメントでは、データと情報(infomation)を明確に区別していないことが多いが、ビジネスの現場でもっぱら必要なのはデータよりは情報だろう。データマネジメントはセキュリティ、アーキテクチャデザイン、インターオペラビリティ、その他の細目で構成されるが、これはもっぱらクラウドベンダーの仕事だろうと思われる。高性能なクラウドとAIの基盤があれば、データマネジメントはそこに丸投げできる状況になっていると考えて良い。ユーザー企業に求められるのは、その育成されたデータを駆使することでどのような新しい価値を顧客に提供できるかを妄想することだろう。そこで「データ駆動型社会」という言葉が出現することになる。

データ駆動型(data driven)は、演算によって生成されたデータにさらに次の演算を起動させ、そこから生成されたデータをさらに.......という形で演算を連続的に行う処理を指す(対義語はイベント駆動型(event driven):演算プロセスそのものを人がその都度起動させる計算方式)のだが、現在のビジネスシーンではデータ駆動型経営(Data-based management)のように「データが明らかにしたエビデンス(evidence)を元に経営戦略・戦術を構築すること」という意味で使われることが多いようだ。

この時点で本来の意味からかなりずれているが、「データに基づく経営」で注意すべきは、それが「集めることができた元データだけで構成される(閉じた)世界観」が前提になっていることだ。その世界の規則性や傾向を演算することになるので、当然のことながら演算を施している現在から観測すれば、これは「古い世界観の傾向を見る」ことになる。

閉じた系において拡大再生産すれば良いだけのビジネスであれば極めて有効な手段だが、このデータの分析結果に新規事業の可能性を探らせるのは難しい。新規事業はそもそもデータが存在しないことが前提になっているからだ。

ビッグデータ分析で予測できる未来は「今と似たような傾向のある未来」でしかないことに気がついていない経営者が多いのではないだろうか。本当の新規事業(とりあえずこれをイノベーションと呼ぶことにする)は「現状否定」から入るはずなので、現状と似たような未来しか演算できないビッグデータ分析は(イノベーションには)全く役に立たないことがわかる。

「閉じた系における拡大再生産」の最もわかりやすい例は、野球やサッカーなどのスポーツだろう。これはビッグデータ分析により「うまく行った過去」が高い確率で再現されているに過ぎず「見たこともない未来」が展開されているわけではない。筆者が若い頃は「王シフト」が話題になったが、あれを豊富なデータを元に演算しているのが、現在大リーグ(MLB)が導入しているAIだと考えられる。

ただ、一流選手の素晴らしいプレイを堪能したいファンからすれば、アルゴリズム同士が戦うことで意外性がどんどん希薄になっていくゲームは、つまらないものになっていく可能性が高い。「データ駆動型社会」は「確実だけど面白くない社会で構わない大企業」にはうってつけのバズワード、と言えるのかもしれない。

以上、データサイエンティストでもなんでもない筆者によるいい加減な論考はこのあたりにして、専門家による本格的な論考を「Modern Times」で堪能いただければ幸いである。

「本当のDX」を考えるウェブメディア『Modern Times』創刊「本当のDX」を考えるウェブメディア『Modern Times

WirelessWire Weekly

おすすめ記事と編集部のお知らせをお送りします。(毎週月曜日配信)

登録はこちら

竹田 茂 (たけだ・しげる)

日経BP社の全ての初期ウェブメディアのプロデュース業務・統括業務を経て、2004年にスタイル株式会社を設立。WirelessWire NewsModern Timeslocalknowledgeなどのウェブメディアの発行人兼プロデューサ。理工系大学や国立研究開発法人など、研究開発にフォーカスした団体のウエブサイトの開発・運営も得意とする。早稲田大学大学院国際情報通信研究科非常勤講師(1997-2003年)、情報処理推進機構(IPA)Ai社会実装推進委員、著書に『会社をつくれば自由になれる』(インプレス、2018年) など。