「完璧な匿名化は存在しない（2）」NTTセキュアプラットフォーム研究所高橋克巳氏

特集：プライバシーとパーソナルデータ特集：プライバシーとパーソナルデータ

情報通信技術の発展により、生活のあらゆる場面で我々の行動を記録した「パーソナルデータ」をさまざまな事業者が自動的に取得し、蓄積する時代となっています。利用者のプライバシーの確保と、パーソナルデータの特性を生かした「利用者にメリットがある」「公益に資する」有用なアプリケーション・サービスの提供を両立するためのヒントを探ります。（本特集はWirelessWire News編集部と一般財団法人日本情報経済社会推進協会（JIPDEC）の共同企画です）

「完璧な匿名化は存在しない（1）」では、NTTセキュアプラットフォーム研究所のプロジェクトマネージャ高橋克巳氏に、パーソナルデータに関する検討会・技術検討ワーキンググループ（以下技術WG）で「匿名化」がどのように検討されたかを伺った。匿名化が属性情報の削除や加工の技術であり、ビッグデータの時代には、データの組合せによって予期せぬ個人の特定があり得ること、匿名・非匿名という単純な仕分けは不適当であり、匿名性の解像度をあげよう、という議論に至った。（聞き手:JIPDEC）

＜特定＞と＜識別＞によって匿名性の解像度を上げる

──匿名性の解像度を上げるというのはどういうことでしょうか？

高橋　実際にどうしたかというと特定と識別という言葉を使うことにしました。定義は簡単にすると次の通りです。

特定　:その情報が誰だか分かってしまうこと
非特定:その情報が誰だか分からないこと
識別　:誰か一人の情報であることがわかるが、その一人が誰であるかまではわからないこと
非識別:誰の情報であるかがわからず、さらにそれが誰か一人の情報であることも分からないこと

──特定されるデータというのは現行法上の個人情報（個人データ）と同じでしょうか？

高橋　そのとおり、現行法の個人情報と同じ定義です。

──では識別情報が新しい定義なのですね？

高橋　技術WGの報告書に記載した用語の関係図を使用して説明します。
図の下から順に、
〈識別特定情報〉は、その人が誰だか分かり、かつ1人の個人を指すので、個人情報ですね。
〈識別非特定情報〉は、その人が誰かは分からないが、1人の個人のデータであるものです。ここが「データの組合せによる個人の特定の可能性がある情報」の典型的な例となります。
〈非識別非特定情報〉は、その情報が誰か一人の情報であることもわからないので、個人が特定されるリスクが下がります。情報の加工を進めていって識別の困難性を高くしたデータはいわゆる統計情報と同じような性質を持ちます。

▼図1. 匿名化に関する本WGで定義した用語の関係性

（技術WG報告書p12から図を引用）

===

ひとつの仕組みにも「3つの個人」が登場してしまう

──ECサイトでオススメ（レコメンデーション）の商品を提案されるというケースで考えてみたいと思います。ECサイトによってデータの取り扱い方法に違いがあるのですが、たとえばとある最大手事業者の場合、（1）レコメンデーション自体は個人ではなく「○○という商品を買ったクラスタ」を対象にしている、（2）レコメンデーションされた情報をデリバリするためにアクセス手段として電子メールを利用する（からメールアドレスが必要となる）、という扱いをしているようです。この場合は〈識別非特定情報〉の中に入りそうな気がします。

高橋　サイト毎に取組みが異なるとは思いますが、レコメンデーションの仕組みには3つの個人が出てくると思います。

1つめは情報のデリバリ先の個人ですね。これは実際の配送先の登録先等も伴うので〈識別特定〉の個人情報でしょう。

2つめにレコメンドのためのクラスタ（趣味・趣向の似た属性の集合）があります。ここはクラスタリングの粒度に依存しますが、〈非識別非特定〉で統計的に扱うのだろうと思います。

3つめは、その個人がどの属性に属するかという問い合わせベクトルです。おそらくここでは〈識別非特定情報〉レベルに加工された情報がどのクラスタに入るかのマッチングに使われているのではないでしょうか。

──やはり識別非特定情報があるのですね。2つめの非識別非特定情報は完全に匿名なデータといえるのでしょうか？

高橋　レコメンデーションの技術は、統計的に有意なものを残し、そうでないものを削除するのがオーソドックスな手法です。削除を強い度合いで行えば統計有意なものしか残らないので「個」の情報はほとんど残りません。

しかし、粒度を細かくすると、あるタイミングで「個」に戻ってしまいます。同じ買い物履歴をもつ人物は自分しかいないため、　n=1　になります。こうなると、いわゆるレコメンデーションというよりは、自分に似た他人の履歴を参考にさせてもらう、に近いでしょうね。

──つまりツマミをひねるように粒度の調整が出来てしまう、ということですよね。そのような調整ができないと個人に便益のあるレコメンドができないということでもありますね。

高橋　そのとおりです。その意味では世の中の情報（趣味）の多様化・細分化が進んだ結果として、こうした技術が要されるようになったとも言えますね。たとえばテレビ放送のように、選択肢の少ない（粒度の粗い）状況下では、シンプルな分析で足りるので、ビッグデータはなくてもビジネスができていました。

このような議論を経て、技術WGでは個人情報か匿名情報かというゼロイチの話はやめようという話は総意となりました。しかし、識別と特定に仕分けただけでは、匿名化（再識別化、再特定化の可能性）の幅までは扱えないため、ここはまだ技術的なゴールではないとも言えます。

===

識別非特定情報は〈グレーゾーン〉なのか？

──幅がある、ということを示したのは大事なことですよね。幅の両端には、個人情報とそうでない情報がある。そしてその間にも整理や解釈が必要な領域がある。これが明確化された意義は大きいように思えます。

高橋　「明らかな個人情報」や「明らかに個人情報でない情報」の扱いは、現行法制度でもそれぞれどう扱うべきかはっきりしていると思います。後者に関しては「本当に安全な統計情報は何か」という議論も行い、理解も深まったと思います。そして、その上でどちらでもない情報が間にあるということにも共通認識が持てました。それをさらにどう分け、位置づけていくのか、今後はその議論が必要です。

ここから先は私見ですが、今後の可能性の話として、消費者自身が自分のパーソナルデータを、「どちらでもない情報」として扱われているということを理解した上で、サービスの利用の是非を判断する消費者もいるかもしれないと私は思っています。

──消費者があえて〈グレー〉である状態を理解して、その取り扱いを判断する、ということですか？

高橋　完全に統計情報と見なせるデータでなければ「確実に安全」と言えないのだとしたら、事業者側の物言いにだまされることなく、「一定の保護のための加工はしているがリスクは残っている」ということを予め承知した上で、信用出来る事業者にはデータを預けることができるという選択肢があってもいいのかもしれません。

これは私自身も明確な答えを持っている訳ではなく、まだこれから議論を要する話です。しかし、新たな立法措置に関する検討は、信用出来る相手にはデータを渡してもよいのでは、と考える仮説と言えます。

そのリスクについて個人の理解を得た上で信頼できるネットワークで情報が流通するということを考えるために米国のFTCの3要件の話が出てきました。それが日本で機能するかは、まだ課題の状態ですが。

===

「プライバシー・バイ・デザイン」がいまこそ有効である

──これから半年の議論はそこになるのでしょうね。データを預ける先が、「信用に足る」情報とは何か、例えば現行法の概念で言えば、目的の明確化・同意取得・管理体制・トランスペアレンシーといった話でしょうか。

高橋　それらに加えて、プライバシー・バイ・デザインの考え方も役に立つでしょう。こつこついろいろな段階で考え続けるということが、この分野では重要です。

個人情報、匿名情報というゼロイチではなく、解像度を上げて分類し直すことで、グレーがあるということが分かったことは、大きなメリットです。プライバシーのことを考え続ける状態でデータを取り扱うこと、それが消費者の信頼を獲得できる最良の方法ということが、はっきりしたからです。

大変だという話にもなりますが、何が出来て、何が出来ないのかの議論が少しは前に進んで行くのではないでしょうか。

【参照資料】
技術検討ワーキンググループ報告書

「完璧な匿名化は存在しない（2）」NTTセキュアプラットフォーム研究所高橋克巳氏

＜特定＞と＜識別＞によって匿名性の解像度を上げる

ひとつの仕組みにも「3つの個人」が登場してしまう

識別非特定情報は〈グレーゾーン〉なのか？

「プライバシー・バイ・デザイン」がいまこそ有効である

Newsletter

Related Articles