ビッグデータの不都合な真実

yomoyomo yomoyomo

雑文書き／翻訳者。1973年生まれ。著書に『情報共有の未来』（達人出版会）、訳書に『デジタル音楽の行方』（翔泳社）、『Wiki Way』（ソフトバンククリエイティブ）、『ウェブログ・ハンドブック』（毎日コミュニケーションズ）がある。ネットを中心にコラムから翻訳まで横断的に執筆活動を続ける。

(cc) Image by Vivi Portela

もはや旧聞に属しますが、6月21日に「The Data Journalism Handbook」翻訳&勉強の会が開催されました。

これは元々2011年にロンドンで開かれたオープンソース系のイベントにおいて Open Knowledge Foundation などが音頭をとり、気鋭のジャーナリストたちが加わったワークショップの成果をもとにして2012年に刊行された『The Data Journalism Handbook』を翻訳しようというものです。

これはこの本がウェブ上で全文公開されており、クリエイティブコモンズの CC BY-SA 3.0 ライセンスの元で自由に利用できるからこそ可能なのですが、翻訳プロジェクト自体は2013年には立ち上がっていたものの、長らく停滞状態でした。もっともワタシ自身いくつか翻訳を手がけているわけで他人事のように書いてはいけないのですが、ともかく今回の翻訳＆勉強の会はその状況の打破にあり、聞くところある程度その見通しは立ったようです。

刊行から2年近く経ちますが、『The Data Journalism Handbook』は未だ「データジャーナリズム」という言葉を書名に冠したほぼ唯一の書籍です。データを入手して前処理を行い、データから文脈を見出し、複数のデータをマッシュアップし、記事内容を読者に分かりやすいよう視覚化し、記事を効果的に配信するデータジャーナリズム手法の具体的な事例を基にした解説は、未だ価値を失っていないので、これがよい契機になってほしいと願っています。

さて、今回はデータジャーナリズムそのものではありませんが、「ビッグデータ」について論じた二つの文章を紹介したいと思います。

ビッグデータにおける隠れたバイアス

まず、マイクロソフトリサーチの主席研究者にして MIT の市民メディアセンターの客員教授も務めるケイト・クロフォードの「The Hidden Biases in Big Data（ビッグデータにおける隠れたバイアス）」です。

この文章自体は一年以上前に書かれたものですが、O’Reilly Radar や Boing Boing などワタシが読んでる複数のブログでなぜか先月になって取り上げられて知った文章で、現在も有効性を失っていない文章ということでしょう。

この文章は、2013年はビッグデータを巡るハイプ（誇大広告）がピークを迎えているという認識を示すところから始まります。確かにガートナーの先進テクノロジのハイプ・サイクル2013年版をみると、「ビッグデータ」は過度な期待のピークを迎えています（来月発表されるであろう2014年版ではどのあたりに来るのでしょうか？）。

クロフォードがいらだつのは、「十分なデータがあれば、数字がひとりでに語り出す」という Wired 前編集長のクリス・アンダーソンの発言に代表される「データ原理主義」とでも言うべき、大量のデータと予測分析で必ず客観的真実にたどり着くというデータへの過信です。

データは客観的ではなく、人間による設計の産物だ、とクロフォードは反論します。人間こそが数字に主張を与え、数字から推断を行い、その解釈を通じて数字の意味を規定しているというのです。そして、データの収集段階と解析段階の両方に隠れているバイアスにこそ大きな危険があると彼女は書きます。

クロフォードはその例として、2012年にハリケーン・サンディが猛威を奮った10月27日から11月1日の間の2000万を越える Twitter のツイートを挙げます。この大量のサンディ関連のツイートや Foursquare のチェックイン情報を基にした論文を見ると、ある程度予想通りなこと、意外に思えることなどいくつか発見がありますが、これをもってハリケーン・サンディの被害の全体像はつかめません。例えば、地理的にみるとハリケーンにまつわるツイートが一番多かったのはマンハッタンからで、これだけ見ているとマンハッタンが被害の中心にあったかのような錯覚に陥りますが、そのツイート数は単にこの地区のスマートフォンの所有率と Twitter の利用率の高さの反映でしかありません。

これが「シグナルの問題」で、データは現実社会を正確に反映していると思いがちですが、特定のコミュニティから入ってくるシグナルが足りないため、実際には両者には大きな落差が生じるわけです。

「シグナルの問題」の他の例として、クロフォードはボストンの事例を挙げます。ボストンは道路にできた穴が非常に多く、毎年およそ2万もの穴を修復しているそうですが、この問題の解決のため、ボストン市は Street Bump というスマートフォン向けアプリを公開しました。これは道路の穴ぼこを見つけたユーザが GPS データ付きの写真を撮り、それをアプリ経由でアップロードすると当局にその情報が伝わり、効率的な穴ぼこの修復につながるというもので、確かに賢い手法なのですが、利用者がスマートフォンユーザに限定される問題があります。つまり、スマートフォンユーザ所持率が低い低所得者層、高齢者層が多い地区からのシグナルが弱くなるのです。

ボストン市当局はこの「シグナルの問題」に気付いており、解決に取り組んでいるそうですが、データさえあればデータが自ら語り出すというデータ頼りの姿勢は、重要な公共資源の配分の過ちを導くおそれがあります。クロフォードは、他にも世界のインフルエンザの流行を世界規模で予測する Google インフルトレンドが、サービス開始当初はビッグデータの勝利の実例と言われたものの、その後インフルエンザの流行を大幅に多く見積もっていることが分かった例を挙げていますが、このビッグデータの「シグナルの問題」は、スマートフォンなり他のデジタル技術の利用度があがればなくなるわけでもありません。テクノロジーは常に異なるコンテキストで利用されており、次々と新しいデバイスやらソフトウェアやら文化的慣習が生まれる現在、デジタル技術のアクセスに関する格差は動く標的のようなものなのです。

以上を受けてクロフォードは、データサイエンティストと呼ばれる人たちは、自分たちが携わるデータがどこから来たものか、データを集めて解析するのにどんな手法を用いるか、データの解釈にどんな認知バイアスを持ち込んでしまうか問うべきだといいます。そして、とにかくデータがどれくらい「ビッグ」かにフォーカスする姿勢からの転換、例えばビッグデータへのアプローチとスモールなデータの研究との組み合わせ、また、より立体的なデータ、奥行きのあるデータの捉え方ができるはずだと結論づけています。

ビッグデータの「匿名化」に銀の弾はまだない

もう一つの文章は、アービンド・ナラヤナンとエドワード・W・フェルテンの「No silver bullet: De-identification still doesn’t work（銀の弾はない：匿名化はまだうまくいかない）」なのですが、これについては少し文脈を説明する必要があります。

この文章は、アン・カブキアン博士とダニエル・カストロによる「Big Data and Innovation, Setting the Record Straight: De-identification Does Work」への反論として書かれたものです。アン・カブキアンはカナダのオンタリオ州の情報プライバシーコミッショナーを務めていた人物であり、『プライバシー・バイ・デザイン』の著者としても知られています（この「プライバシー・バイ・デザイン」の考え方については、Wikipedia 日本語版のページが分かりやすいでしょう。カブキアンはその提唱者です）。

そのカブキアンらが、個人情報の集積ともいえるビッグデータの産業利用の前提となる、データから個人を識別する情報を適切に取り除く「de-identification（匿名化、非特定化）」について、一部の専門家の言に反してこの技術は十分機能しており、同時に匿名化された情報から再度個人情報を特定する「再特定化（re-identification）」の危険性は誇張されたものであると主張するものです。

ナラヤナンとフェルテンの文章は、この主張に対する極めて辛辣な反論と言えます。エドワード・W・フェルテンはプリンストン大学教授で（ナラヤナンは教え子）、計算機科学、特にコンピュータセキュリティ分野を専門としており、2010年には連邦取引委員会のチーフテクノロジストに任命され、一年の任期を務めています。元々彼の個人ブログとして始まった Freedom to Tinker は、現在は（ナラヤナンを含む）彼の同僚たちとの共同執筆体制でセキュリティやプライバシーに関する問題を扱い続けています。

ナラヤナンとフェルテンは、カブキアンらの文章について、以下の8つの点を批判しています。

位置情報を匿名化する既知の有効な手法は存在せず、そうした手法が有意義に達成可能であるという証拠も存在しない。
カブキアンらはNetflixユーザの情報の再特定化結果を根拠にしているが、それはカーセキュリティのシステムがハックされたが100万台の車の一台しか被害がなかったから心配に及ばないと主張するようなもので、実演のデモの結果をもとに再特定化の可能性を計算するのはバカげている。
カブキアンらは、再特定化の特定モデルに絞った話をすることで、多くの現実の脅威を無視している（ラタニヤ・スイーニー米ハーバード大学教授が2000年に著した、当時のマサチューセッツ州知事ウィリアム・ウェルドの医療記録を再特定化してみせた有名な論文についての解釈も正しくない）。
カブキアンらは、各個人を特定化する多数のデータからなる「高次元な」データには匿名化は向いていないことを認めている。しかし現在、活用したくなる面白いデータセットはたいてい高次元であり、例外的なものではない。
脆弱性が発覚したらパッチを公開するという手法（Penetrate-and-patch）は、セキュリティ分野では選択肢にならない。なのにカブキアンらは、このソフトウェアを安全化するのに不十分な手法をビッグデータの匿名化／再特定化に持ち込もうとしている。
カブキアンらは専門家の意見を軽視しているが、計算機科学の知識は今日的な意味があるものであり極めて有効である。
カブキアンらは、ビッグデータに関する技術が進歩していると言いながら、同時に進歩するはずの再特定化の技術を無視するようなダブルスタンダードを採っている。
カブキアンらの議論に頻出する再特定化の可能性の数量化は根本的に無意味だ。

以上を受けフェルテンらは、データプライバシーは難しい問題であり、データ管理者にはこの問題に対して大きく分けて三つの道があると説きます。

昔ながらの匿名化の手法にしがみつき、うまくいくよう願う
実用性と便利さの面で、ある程度トレードオフがある差分プライバシー（differential privacy）などの新興技術に頼る
センシティブなデータの流出や利用を制限する法的取り決めの活用

以上の選択肢はいずれもそれだけで満足いくものではなく、あらゆる環境でこのうちのどれかがベストということはありません。いずれにしてもビッグデータの匿名化に銀の弾はない、というのがフェルテンらの主張です。

カブキアンらの論文とそれに対するフェルテンらの批判の両方を読み、ワタシなどはうーんと唸ってしまいました。個人的にはこれまでフェルテンのセキュリティ論、プライバシー論に与することが多かったのですが、ビッグデータの産業活用の前提となる個人識別情報の匿名化自体、まだ機能してないよと言われてしまうと、それは困ったとなってしまいます。

確かに、Penetrate-and-patch 方式をよしとするなど本当に「プライバシー・バイ・デザイン」の提唱者かとカブキアンに突っ込みたくなるところはありますが、フェルテンらの文章にも専門家の意見を軽視されたことへの苛立ちがところどころに垣間見えて、その辛辣な批判をそのまま受け取ることに躊躇するところがあります。

しかし、これは我々日本人にも切実な問題です。最近のオムロンがJRの駅で撮影した乗降客映像を別の研究に無断流用していた事例などもそうですが、山本一郎氏も指摘するように、企業によっては「個人に関する情報」を利用者に無断で集積し、「匿名化」が不十分なまま売買しているケースが現にあります。

SF 作家にして電子フロンティア財団関係の活動でも知られるコリイ・ドクトロウは、フェルテンら側の立場に立った文章の中で、EU のデータ保護規則がこのデータの匿名化に関して（彼から見て）最悪なプライバシー法になってしまった事例を挙げ、技術に関する法案を決めるのにその筋の専門家を重用する意義を説いていますが、総務省の「緊急時等における位置情報の取扱いに関する検討会」におけるYahoo! JAPAN のパブコメとそれに対する総務省のコメントをみると、ビッグデータのプライバシー問題を軽視する無定見な企業によるゴリ押しの危険性を実感できるように思います。

ビッグデータの不都合な真実

ビッグデータにおける隠れたバイアス

ビッグデータの「匿名化」に銀の弾はまだない

Newsletter

Related Articles