NTTは、ビッグデータ分析に用いられる、購買履歴や移動履歴などの個人に関する情報(パーソナルデータ)の新しい匿名化システムを開発した。開発したシステムでは、パーソナルデータから個人が直接特定できる情報を取り除いたうえで、さらにそのデータから誰か一人に絞り込めないようにデータを加工することで高度なプライバシー保護対策をする。分析データの利用価値を高く保持したまま、高度なプライバシー保護を両立する。
▼匿名化システムの処理イメージ(報道発表資料より)
加工方法は、匿名性の代表的な指標である「k-匿名性」を満たす匿名化を実装するための手法として、従来から知られている希少な人のデータを取り除く「削除」、項目の値をより粗くする「一般化」に加え、NTTが独自に開発した手法である「Pk-匿名化」をパーソナルデータの種類や分析目的にあわせて柔軟に選択できる。高度なプライバシー保護対策を行うほどデータの利用価値は低下するが、今回のシステムにより、利用価値の低下を実用的なレベルで押さえた分析用データを作成することが可能になった。本システムをビッグデータ分析のプロセスに取り入れることにより、高度なプライバシー保護対策と安全管理措置を施した分析業務が可能になるとしている。
k-匿名性とは、データから個人の識別が困難であることを示す安全性の代表的な指標で、"複数の項目で同じ値の組みあわせが少なくともk個存在すること"を表す。k-匿名性をパーソナルデータに完全に適用すると、そのデータからは誰の情報なのかk人未満に絞り込むことができない。
匿名性を高めるためには、データを粗く加工する必要があるが、データを粗くすると元データとかけ離れ利用価値が低下する「匿名性と有用性のトレードオフ」が生じる。また同じく匿名性を高めるためにはデータのより多くの項目を加工対象にする必要があるが、データの加工対象の項目を増やすと利用価値が低下する「ビッグデータ匿名化のジレンマ」が生じる。
匿名化システムは、パーソナルデータを保有する事業者向けのソフトウェアで、匿名化処理方法、分析に用いるパーソナルデータの項目、匿名性のパラメータ(kの値)の3つを決定することで、k-匿名性を満たしかつデータの有用性の高い匿名化データが出力される。
新たに開発した匿名化処理方法「Pk-匿名化」は「ランダム化」の一種で、個々のデータを確率的に変化させる処理と「ベイズ推定」と呼ばれる機械学習の手法により元の状態を推定する処理を行い、k-匿名性を満たした利用価値の高いデータを作成する。
▼Pk-匿名化の加工イメージ(報道発表資料より)
これまでランダム化したデータの匿名性指標は明らかになっていなかったが、NTTは世界で初めてk-匿名性と等価な安全性を持つランダム化法を開発した。多数の項目を持つパーソナルデータを匿名化する場合に有効で、従来の削除と一般化によるものと比べ、理論的に同等のk-匿名性を持った上で、十分に実用的な分析が行えることが実験的に明らかになっている。
今回開発した匿名化システムは、NTTグループを通じて今後半年以内を目途に、パーソナルデータを保有する事業者向けに、ビッグデータ分析支援のソリューションの一環として提供する予定。
【報道発表資料】
・ビッグデータ時代における新たなパーソナルデータ匿名化システムを開発
おすすめ記事と編集部のお知らせをお送りします。(毎週月曜日配信)
登録はこちらWirelessWire News編集委員。独立系SIerにてシステムコンサルティングに従事した後、1995年から情報通信分野を中心にフリーで執筆活動を行う。2010年4月から2017年9月までWirelessWire News編集長。「人と組織と社会の関係を創造的に破壊し、再構築する」ヒト・モノ・コトをつなぐために、自身のメディアOrgannova (https://organnova.jp)を立ち上げる。