DISCLAIMER: 私はプライバシー分野はもちろん一応の勉強はしていますが、必ずしもコアな専門領域というわけではないのでBest Effortベースで書いています。もっと詳しい方からのコメントを期待します。
IBMの「ビッグデータ」担当の人が日経ITProのインタビュー記事で「ビッグデータ」の応用として通話履歴(CDR)を使ってソーシャルグラフを作るというような事例を挙げたのに対して「それは通信の秘密に反する違法行為ではないか」ということで、twitter界隈を中心にプチ炎上的な状況になっています(参考togetter)。
そもそも、「ビッグデータ」と言う言葉が出る前から通話履歴情報の分析はデータウェアハウスの重要応用分野でした。通話履歴の分析がいっさいできないということであれば容量計画もできないですし料金の設定もできません。
過去にこの手のデータウェアハウス・アプリケーションについてベンダーや通信事業者(欧米)の人の話を聞いた時にプライバシー面での話を聞いたことも何回かありますが、その時の回答は、「個人とのひも付けがされない分析であれば問題ない」というものでした。
CDRとソーシャルグラフとの関係で言えば、ソーシャルグラフのノードに個人識別情報(電話番号、名前等)が入ってると問題ですが、そうではなくて、全体的な分析、たとえばソーシャルグラフの次数(ノードにつながってる辺の数)を分析するなどであれば問題ないということだと思います。あくまでも例ですが、たとえば平均次数が5であれば「3名までならかけ放題のプランを提供しても実際にはそれ以上の通話先にかける人がxx万人はいるので十分儲かるはず」みたいな分析をすることになるでしょう(当然、現実にはもっと複雑な分析をすることになります)。ただし、ここで次数が高い人にしぼって料金プランを提案するみたいないわゆるターゲティングになってくるとちょっと微妙な線ではないかと思います(たぶん、オプトインがないとまずい気がします)。
日本の規制ということでは、総務省による「電気通信事業における個人情報保護に関するガイドライン」の平成23年度版(PDF)によれば、通話履歴については
第23条 電気通信事業者は、通信履歴(利用者が電気通信を利用した日時、当該通信の相手方その他の利用者の通信に係る情報であって通信内容以外のものをいう。以下同じ。)については、課金、料金請求、苦情対応、不正利用の防止その他の業務の遂行上必要な場合に限り、記録することができる。(以下略)
となっています。そして、解説部分で、「通信履歴は、通信の構成要素であり、電気通信事業法第4条第1項の通信の秘密として保護される」としています。その一方で、「いったん記録した通信履歴は、第10条の規定に従い、記録目的に必要な範囲で保存期間を設定することを原則とし、保存期間が経過したときは速やかに通信履歴を消去(個人情報の本人が識別できなくすることを含む。)する必要がある」とも書いてある(太字強調は栗原による)ので、本人識別ができないようにすれば、通信履歴の消去と同等に扱われるようにも読めます。
ITProの記事では
また、だれがだれに電話したというデータなので、それをグラフ化すればソーシャルグラフが描ける。そうすると、ある人が基点になって周囲に頻繁に電話している、といったこともわかる。その人を中心にしたコミュニティの存在を把握できる。周囲への影響を考えると、その人が電話会社を変えないことは重要である、といった事柄が察知できるわけだ。
こうしたことから携帯電話会社は、3カ月で通話履歴を捨てていたのは間違いだったととらえている。5年でも10年でも保存しておいて、ソーシャルグラフを活用してビジネスに活用すべきだ、と認識を改めている。通話履歴が単なる「課金用のデータ」から、「行動履歴、ソーシャルグラフ用のより重要なデータ」に変質したわけだ。
と匿名での分析かどうかが明らかになっていないので、誤解を招いてもしょうがないと言えます。また、「海外における事例を紹介するものであり、日本においても実施が可能であることを意図するものではない」と注が入っているのですが、そもそも、通話履歴からノードに個人識別情報が入っているソーシャルグラフを作ると海外(特に欧州)でも問題だと思うのですが(この辺、現在調査中です、詳しい方いたら教えてください)。
ところで、この分野での自分の知識の確認のために本をちゃんと読んでおこうかなと言うことでAmazon USで探したらそのものずばりの”Privacy and Big Data”という本(洋書)(O’Reillyです)を見つけました。Kindle版で9.9ドルです。評価を見ると「ちょっと薄いけど入門用には良い」みたいな感じだったので買いました。読み終わったら書評を書くと思います。
追加:(12/02/18 13:56)
早速、高木浩光先生からtwitterで突っ込みが入ってしまいました。「なぜ日本法で違法となるのか、ぜんぜんわかってないな。」だそうです。この分野では高木先生には教えを請いたいくらいなので批判は喜んで受けますし、私に間違いがあれば即訂正します。
「米国は日本のような「通信の秘密」の概念がない代わりに、通信についてのプライバシーという立て付けの法で保護しているが、日本法の「通信の秘密」は、プライバシーとは無関係。たとえ分析結果がプライバシーを何ら侵害しないものであっても、通信の秘密を侵してデータを使用した時点で違法。」だそうですが、さすがにそこは私もわかっております。ポイントは日本では「個人情報を抜いた通話履歴」の分析も違法なのかということです。上にも書いたように、法務省のガイドラインでは通話履歴から本人識別情報を削除すれば通話履歴自体を削除したのと同じとみなしているようなのでそこの解釈がポイントです。これについては、本当に誰か教えてください。
また、ITProの記事について「誤解を招く」と言ったのはせいいっぱい好意的に解釈しての婉曲表現です。
追記:(12/02/21 22:56)
ちょっと忙しくて情報が追加できていませんが、はてブのコメントの一部に回答しておきます。
個人情報を抜いた通話履歴なら分析してもok、ってちょっと危険に寄ってる考え方じゃないかな。差出人と宛先見なければ手紙の中身を勝手に見てもいい、って言ってるようなもんじゃないの?常識的に考えておかしい。2012/02/18
手紙の中身に相当する通話内容についてはここでは誰も議論してないです。それを盗聴するのが違法(というか犯罪)なのは当たり前。ここで議論しているのは通話履歴、特に、匿名化した通話履歴です。
オプトインで法律が拡張できるんだ〜 わ〜い2012/02/18
すみません、ちょっと何言ってるかよくわからないです。
「個人識別情報を抜けば問題ない」って、具体的にどーやるのでしょ? 顧客を、ABXX0011さん、みたく置き換えればOKってこと? 不変なIDで管理されるの? もっとも、根本的にITPro記事の主題と矛盾あると思いますが…。2012/02/18
不可逆なハッシュ演算で一意性は維持しつつ元の番号がわからないようにするだけです。原理的には2ちゃんのIDと同じです。(追記:←これは私の勘違いどうもすみません↓に追記しました)。データ管理ソフトの中にはこのような匿名化機能を備えているものもあります。ITPro記事が通話記録をそのまま使うのであれば問題だが、匿名化した分析なら大丈夫なんじゃないですか?というのがこのエントリーの主旨です。
あと、「個人が識別できないソーシャルグラフの分析にどのような意味があるのか?」という趣旨のコメントが付いていたと思いますが(今見たら消えてました)、ついでに回答しておくと、たとえば、「次数が10以上の人(それが具体的に誰かはわからない)に、グラフ上で直接つながってる人(それが具体的に誰かはわからない)の利益性まで考慮すれば、10人までかけ放題プランの料金の値引きはいくらまでなら大丈夫」というような分析ができるはずです(現実の分析はもっと複雑でしょうが)。問題はこういうプランを特定の人にお勧めするターゲット広告ですが、たとえば、モデル化は完全匿名状態で行なっておいて、ターゲティングはアンケート調査等でのプロファイリングに基づいて行なうことは可能かと思います。
追記(2012/02/23 20:05)
高木浩光先生より、「不可逆なハッシュ演算で一意性は維持しつつ元の番号がわからないようにするだけです。」 の部分に対して、以下のコメントをtwitterでいただきました。
ハッシュが元に戻せないとした時点で技術的に誤り。鍵付きハッシュでも当事者がその鍵を持っているわけで。
確かにおっしゃっるとおりですし、そもそも元データが電話番号であれば定義域の要素数は限られているので、不可逆な演算であってもブルートフォースで計算すれば元データがわかってしまうのであまり意味はないですね。かと言って、電話番号を完全な乱数で置き換えるとすると長期間の通話履歴に基づいたソーシャルネットは構築できないのであまり分析の意味はないかもしれません。それでも、「月の通話料x円以上の人のソーシャルグラフにおける平均次数はy個で、その人の直接の通話先の平均通話料はz円である」というような、個人を識別できる情報を使わない統計的な分析は可能ではないかと思います(これが「通信の秘密」の規定に基づき違法なのかどうかはわかりませんが)。
なお、海外では通話履歴を使ったSocial Netwrok Analysisの事例は普通にあるようです(たとえばこのSlideshareのエントリー)。もちろん、だから日本でもOKにせよと言っているわけではありません。
追記(2012/02/24 11:20)
上記のはてブコメンターのsnwrさんがtwitterにて「利用状況に応じた料金プランの提案」が電気通信役務に含まれないのであれば、そのための通信履歴の解析は通信の秘密の侵害にあたる。違法な行為がオプトインで合法に化けるのなら、極端な話、殺したい相手から「自分を殺しても良い」という証文を取れば殺しても罪に問われないことになる」とおっしゃっています。
敢えて説明するまでもないですが、法律(ルール)には個人の同意(や当事者間の合意)でオーバーライドできるものとできないものがあります。殺人はできないものの代表例。一方、本文にも挙げた総務省の「電気通信事業における個人情報保護に関するガイドライン(H23)」の6条1項では、
第6条 電気通信事業者は、あらかじめ本人の同意を得ないで、前条の規定により特定された利用目的の達成に必要な範囲を超えて、個人情報を取り扱わないものとする。
となっており(太字強調は栗原)、反対解釈により本人の同意(オプトイン)があれば広告のために個人情報(総務省のこの文書では個人の「通信の秘密」に関する情報は個人情報に含まれる扱いとなっています)を使ってもよいように見えます。(契約書等の文面に小さく書いてあるだけでは同意したとは言えないんじゃないかという議論もありますが別論)。
さらに追記(2012/02/24 11:50)
上記の総務省ガイドラインの23条2項(通信履歴)については以下の規定があります(太線強調は栗原)。
23条2項 電気通信事業者は、利用者の同意がある場合、裁判官の発付した令状に従う場合、正当防衛又は緊急避難に該当する場合その他の違法性阻却事由がある場合を除いては、通信履歴を他人に提供しないものとする。
ということで、オプトインしてくれた利用者の通信履歴を外部の分析業者に渡して分析してもらうことは法務省のガイドライン的にはOKと言えるように見えます。ということはIBMがインタビュー記事で言っているソーシャルグラフ分析も利用者のオプトインがあれば日本でも実現可能に思えます(総務省が何を言ってようがけしからんという意見はあるかもしれませんが別論)。なお、このようなケースでは電話番号をハッシュ化して外部の分析業者に生の電話番号を知られないようにすることは有効と思われます。