ビッグデータとプライバシーについて

DISCLAIMER: 私はプライバシー分野はもちろん一応の勉強はしていますが、必ずしもコアな専門領域というわけではないのでBest Effortベースで書いています。もっと詳しい方からのコメントを期待します。

IBMの「ビッグデータ」担当の人が日経ITProのインタビュー記事で「ビッグデータ」の応用として通話履歴(CDR)を使ってソーシャルグラフを作るというような事例を挙げたのに対して「それは通信の秘密に反する違法行為ではないか」ということで、twitter界隈を中心にプチ炎上的な状況になっています(参考togetter)。

そもそも、「ビッグデータ」と言う言葉が出る前から通話履歴情報の分析はデータウェアハウスの重要応用分野でした。通話履歴の分析がいっさいできないということであれば容量計画もできないですし料金の設定もできません。

過去にこの手のデータウェアハウス・アプリケーションについてベンダーや通信事業者(欧米)の人の話を聞いた時にプライバシー面での話を聞いたことも何回かありますが、その時の回答は、「個人とのひも付けがされない分析であれば問題ない」というものでした。

CDRとソーシャルグラフとの関係で言えば、ソーシャルグラフのノードに個人識別情報(電話番号、名前等)が入ってると問題ですが、そうではなくて、全体的な分析、たとえばソーシャルグラフの次数(ノードにつながってる辺の数)を分析するなどであれば問題ないということだと思います。あくまでも例ですが、たとえば平均次数が5であれば「3名までならかけ放題のプランを提供しても実際にはそれ以上の通話先にかける人がxx万人はいるので十分儲かるはず」みたいな分析をすることになるでしょう(当然、現実にはもっと複雑な分析をすることになります)。ただし、ここで次数が高い人にしぼって料金プランを提案するみたいないわゆるターゲティングになってくるとちょっと微妙な線ではないかと思います(たぶん、オプトインがないとまずい気がします)。

日本の規制ということでは、総務省による「電気通信事業における個人情報保護に関するガイドライン」の平成23年度版(PDF)によれば、通話履歴については

第23条 電気通信事業者は、通信履歴(利用者が電気通信を利用した日時、当該通信の相手方その他の利用者の通信に係る情報であって通信内容以外のものをいう。以下同じ。)については、課金、料金請求、苦情対応、不正利用の防止その他の業務の遂行上必要な場合に限り、記録することができる。(以下略)

となっています。そして、解説部分で、「通信履歴は、通信の構成要素であり、電気通信事業法第4条第1項の通信の秘密として保護される」としています。その一方で、「いったん記録した通信履歴は、第10条の規定に従い、記録目的に必要な範囲で保存期間を設定することを原則とし、保存期間が経過したときは速やかに通信履歴を消去(個人情報の本人が識別できなくすることを含む。)する必要がある」とも書いてある(太字強調は栗原による)ので、本人識別ができないようにすれば、通信履歴の消去と同等に扱われるようにも読めます。

ITProの記事では

また、だれがだれに電話したというデータなので、それをグラフ化すればソーシャルグラフが描ける。そうすると、ある人が基点になって周囲に頻繁に電話している、といったこともわかる。その人を中心にしたコミュニティの存在を把握できる。周囲への影響を考えると、その人が電話会社を変えないことは重要である、といった事柄が察知できるわけだ。

こうしたことから携帯電話会社は、3カ月で通話履歴を捨てていたのは間違いだったととらえている。5年でも10年でも保存しておいて、ソーシャルグラフを活用してビジネスに活用すべきだ、と認識を改めている。通話履歴が単なる「課金用のデータ」から、「行動履歴、ソーシャルグラフ用のより重要なデータ」に変質したわけだ。

と匿名での分析かどうかが明らかになっていないので、誤解を招いてもしょうがないと言えます。また、「海外における事例を紹介するものであり、日本においても実施が可能であることを意図するものではない」と注が入っているのですが、そもそも、通話履歴からノードに個人識別情報が入っているソーシャルグラフを作ると海外(特に欧州)でも問題だと思うのですが(この辺、現在調査中です、詳しい方いたら教えてください)。

ところで、この分野での自分の知識の確認のために本をちゃんと読んでおこうかなと言うことでAmazon USで探したらそのものずばりの”Privacy and Big Data”という本(洋書)(O’Reillyです)を見つけました。Kindle版で9.9ドルです。評価を見ると「ちょっと薄いけど入門用には良い」みたいな感じだったので買いました。読み終わったら書評を書くと思います。

追加:(12/02/18 13:56)

早速、高木浩光先生からtwitterで突っ込みが入ってしまいました。「なぜ日本法で違法となるのか、ぜんぜんわかってないな。」だそうです。この分野では高木先生には教えを請いたいくらいなので批判は喜んで受けますし、私に間違いがあれば即訂正します。

「米国は日本のような「通信の秘密」の概念がない代わりに、通信についてのプライバシーという立て付けの法で保護しているが、日本法の「通信の秘密」は、プライバシーとは無関係。たとえ分析結果がプライバシーを何ら侵害しないものであっても、通信の秘密を侵してデータを使用した時点で違法。」だそうですが、さすがにそこは私もわかっております。ポイントは日本では「個人情報を抜いた通話履歴」の分析も違法なのかということです。上にも書いたように、法務省のガイドラインでは通話履歴から本人識別情報を削除すれば通話履歴自体を削除したのと同じとみなしているようなのでそこの解釈がポイントです。これについては、本当に誰か教えてください。

また、ITProの記事について「誤解を招く」と言ったのはせいいっぱい好意的に解釈しての婉曲表現です。

追記:(12/02/21 22:56)

ちょっと忙しくて情報が追加できていませんが、はてブのコメントの一部に回答しておきます。

個人情報を抜いた通話履歴なら分析してもok、ってちょっと危険に寄ってる考え方じゃないかな。差出人と宛先見なければ手紙の中身を勝手に見てもいい、って言ってるようなもんじゃないの?常識的に考えておかしい。2012/02/18

手紙の中身に相当する通話内容についてはここでは誰も議論してないです。それを盗聴するのが違法(というか犯罪)なのは当たり前。ここで議論しているのは通話履歴、特に、匿名化した通話履歴です。

オプトインで法律が拡張できるんだ〜 わ〜い2012/02/18

すみません、ちょっと何言ってるかよくわからないです。

「個人識別情報を抜けば問題ない」って、具体的にどーやるのでしょ? 顧客を、ABXX0011さん、みたく置き換えればOKってこと? 不変なIDで管理されるの? もっとも、根本的にITPro記事の主題と矛盾あると思いますが…。2012/02/18

不可逆なハッシュ演算で一意性は維持しつつ元の番号がわからないようにするだけです。原理的には2ちゃんのIDと同じです。(追記:←これは私の勘違いどうもすみません↓に追記しました)。データ管理ソフトの中にはこのような匿名化機能を備えているものもあります。ITPro記事が通話記録をそのまま使うのであれば問題だが、匿名化した分析なら大丈夫なんじゃないですか?というのがこのエントリーの主旨です。

あと、「個人が識別できないソーシャルグラフの分析にどのような意味があるのか?」という趣旨のコメントが付いていたと思いますが(今見たら消えてました)、ついでに回答しておくと、たとえば、「次数が10以上の人(それが具体的に誰かはわからない)に、グラフ上で直接つながってる人(それが具体的に誰かはわからない)の利益性まで考慮すれば、10人までかけ放題プランの料金の値引きはいくらまでなら大丈夫」というような分析ができるはずです(現実の分析はもっと複雑でしょうが)。問題はこういうプランを特定の人にお勧めするターゲット広告ですが、たとえば、モデル化は完全匿名状態で行なっておいて、ターゲティングはアンケート調査等でのプロファイリングに基づいて行なうことは可能かと思います。

追記(2012/02/23 20:05)

高木浩光先生より、「不可逆なハッシュ演算で一意性は維持しつつ元の番号がわからないようにするだけです。」 の部分に対して、以下のコメントをtwitterでいただきました。

ハッシュが元に戻せないとした時点で技術的に誤り。鍵付きハッシュでも当事者がその鍵を持っているわけで。

確かにおっしゃっるとおりですし、そもそも元データが電話番号であれば定義域の要素数は限られているので、不可逆な演算であってもブルートフォースで計算すれば元データがわかってしまうのであまり意味はないですね。かと言って、電話番号を完全な乱数で置き換えるとすると長期間の通話履歴に基づいたソーシャルネットは構築できないのであまり分析の意味はないかもしれません。それでも、「月の通話料x円以上の人のソーシャルグラフにおける平均次数はy個で、その人の直接の通話先の平均通話料はz円である」というような、個人を識別できる情報を使わない統計的な分析は可能ではないかと思います(これが「通信の秘密」の規定に基づき違法なのかどうかはわかりませんが)。

なお、海外では通話履歴を使ったSocial Netwrok Analysisの事例は普通にあるようです(たとえばこのSlideshareのエントリー)。もちろん、だから日本でもOKにせよと言っているわけではありません。

追記(2012/02/24 11:20)

上記のはてブコメンターのsnwrさんがtwitterにて「利用状況に応じた料金プランの提案」が電気通信役務に含まれないのであれば、そのための通信履歴の解析は通信の秘密の侵害にあたる。違法な行為がオプトインで合法に化けるのなら、極端な話、殺したい相手から「自分を殺しても良い」という証文を取れば殺しても罪に問われないことになる」とおっしゃっています。

敢えて説明するまでもないですが、法律(ルール)には個人の同意(や当事者間の合意)でオーバーライドできるものとできないものがあります。殺人はできないものの代表例。一方、本文にも挙げた総務省の「電気通信事業における個人情報保護に関するガイドライン(H23)」の6条1項では、

第6条 電気通信事業者は、あらかじめ本人の同意を得ないで、前条の規定により特定された利用目的の達成に必要な範囲を超えて、個人情報を取り扱わないものとする。

となっており(太字強調は栗原)、反対解釈により本人の同意(オプトイン)があれば広告のために個人情報(総務省のこの文書では個人の「通信の秘密」に関する情報は個人情報に含まれる扱いとなっています)を使ってもよいように見えます。(契約書等の文面に小さく書いてあるだけでは同意したとは言えないんじゃないかという議論もありますが別論)。

さらに追記2012/02/24 11:50

上記の総務省ガイドラインの23条2項(通信履歴)については以下の規定があります(太線強調は栗原)。

23条2項 電気通信事業者は、利用者の同意がある場合、裁判官の発付した令状に従う場合、正当防衛又は緊急避難に該当する場合その他の違法性阻却事由がある場合を除いては、通信履歴を他人に提供しないものとする。

ということで、オプトインしてくれた利用者の通信履歴を外部の分析業者に渡して分析してもらうことは法務省のガイドライン的にはOKと言えるように見えます。ということはIBMがインタビュー記事で言っているソーシャルグラフ分析も利用者のオプトインがあれば日本でも実現可能に思えます(総務省が何を言ってようがけしからんという意見はあるかもしれませんが別論)。なお、このようなケースでは電話番号をハッシュ化して外部の分析業者に生の電話番号を知られないようにすることは有効と思われます。

カテゴリー: IT タグ: パーマリンク

12 Responses to ビッグデータとプライバシーについて

  1. 通りすがり のコメント:

    すいません言葉足らずでしたm()m
    憲法21条2項で「検閲は、これをしてはならない。通信の秘密は、これを侵してはならない。」
    とある為、”通信の秘密”に抵触するものについては、それを利用しようとした時点でアウトなのでは?と思った次第でした。

  2. Buriki_Gadget のコメント:

    要は、総務省は個人情報保護法について「通信の秘密に含まれるものの中にも個人情報があるよ!」と言いたいだけなんです。
    電気通信事業者の皆さんは、元々電気通信事業法で「通信の秘密」としてガチガチに制限されているから、プライバシーの侵害をやりようがない…と思ってるかもしれないけど、利用目的の通知とか個人情報保護法で追加される義務があるから気をつけてね!!ってだけのガイドライン。個人情報保護法はプライバシーを守る法律ではないから。

  3. Buriki_Gadget のコメント:

     繰り返しになりますが、総務省ガイドラインは電気通信事業分野の個人情報保護法の遵守を目的としていますので、ガイドラインに沿っていても電気通信事業法の「通信の秘密」を守ることには(必ずしも)なりません。
     「通信の秘密」について論じるときに、総務省の個人情報保護ガイドラインは道具が違う、ということだと考えます。

    ガイドライン解説P.5にあるとおり、
    http://www.soumu.go.jp/main_content/000134578.pdf
    …本ガイドラインは、電気通信事業者に対する個人情報保護法の適用の基準を明らかにするものである…本ガイドラインの規定を遵守すれば電気通信事業に関しては個人情報保護法の規定は遵守したこととなる。
    …通信の秘密に属する事項については、…その対象及び規律の内容について、本ガイドラインの範囲を超える場合がある。

     高木さんが「この表題は”ビッグデータと通信の秘密”にすべき」という主旨のTweetをしていたと思いますが、電気通信事業法の「通信の秘密」と個人情報保護法関連ガイドラインの守備範囲の違いを言ってたんじゃないかと思います。

  4. kurikiyo のコメント:

    >通りすがりさん

    ご指摘の意図がちょっとよくわかりませんが、ガイドライン23条では通信履歴を「利用者が電気通信を利用した日時、当該通信の相手方その他の利用者の通信に係る情報であって通信内容以外のもの」と定義した上で、利用者の同意があれば、通信履歴を他人に提供できるとしています(実際には相手方の同意も必要と解釈されるとは思いますが)。いずれにせよ、双方の同意がある通話履歴だけを抽出して第三者に渡すのはガイドライン違反ではないと思います(倫理的にOKかどうかは別論)。

  5. 通りすがり のコメント:

    電気通信事業における個人情報保護に関するガイドラインでは、着信番号も通信の秘密の範囲と定義しています。
    下記url(pdf)5ページ●個人情報と通信の秘密との関係を参照されたし
    http://www.soumu.go.jp/main_content/000134578.pdf

  6. kurikiyo のコメント:

    >yatz82さん
    >違法ですよ、正当業務行為という阻却事由によって罪を問われないだけで。
    正当業務という違法性阻却事由があるのならば違法ではないのでは?

    >WindyCity18
    電話番号が入っている通話記録であればおっしゃるとおりです(というかそこは議論の対象にはなっていません)。確認ですが、総務省の「電気通信事業における個人情報保護に関するガイドライン」では、通信履歴を「利用者が電気通信を利用した日時、当該通信の相手方その他の利用者の通信に係る情報であって通信内容以外のものをいう」と定義していますが、電話番号を匿名化して個人が識別できないようにした情報でもこの通信履歴に相当するというお考えでしょうか?

  7. yatz82 のコメント:

    違法ですよ、正当業務行為という阻却事由によって罪を問われないだけで。

  8. WindyCity18 のコメント:

    高木先生のTwitter、栗原先生の記事を参考にブログを書きました。もし、お時間があれば、ご覧頂ければと存じます。

    ポイントは、そもそも通信記録の記録は原則違法であって、正当な業務目的においてのみ可能だという所です。したがって、検討すべきは、当該記録およびその分析が、正当な業務目的においてされているです。

    総務省ガイドライン解説においては、正当業務行為として、「課金、料金請求、苦情対応、自己の管理するシステムの安全性の確保」が例示されていますから、例えばトラフィック対応のための分析が「自己の管理するシステムの安全性の確保」といえるのであれば、正当業務行為として違法性阻却される可能性があると思います。

    他方で、たとえ同内容のトラフィック分析であっても、それが上記に例示したような正当業務目的といえないような場合(広告利用目的はここに含まれると思います。マーケティング目的も難しいのではと個人的には思っています。)には、さかのぼって記録段階から違法性が阻却されないということになってしまうことが多いかと思います。

    なお、ご指摘の通信履歴消去の括弧書は、上記正当業務目的に基づいて記録された情報の削除方法について、実務上の作業の負担の配慮から記載された趣旨に限られると解釈するのが穏当かと思います。

  9. Buriki_Gadget のコメント:

    「通信の秘密」は個人情報保護と切り離して考えたほうがよいと思います。
    電気通信番号(電話番号など)を含む通信記録を流用するのは電気通信事業法に触れるためNGです。
    ではご指摘の、統計情報として扱えないのか?そのためにはどうすれば良いのだ?という部分は、いわゆるトラヒック分析として実際にやられていると思います。
    設備投資計画や、マーケティングの両面で重要なデータになると思います。

    ここからは根拠を調べておらず推測になりますが、通信履歴の「電気通信番号」を無意味な記号に置き換えて統計データとして分析することは通信の秘密を侵害しないのではないかと考えます。
    通信記録を「03-1111-2222→A」「03-1111-3333→B」などに置き換えた上で、統計データとして分析する部門に渡すことで、通信の秘密は守っていると主張できるような気もします。が、実際のオペレーションとして、どのような取り扱い(部門間の受け渡しなど)をすれば、「実は電気通信番号を使ってるんでないの?」という疑念に対して説明責任を果たせるかは不明です。

  10. kurikiyo のコメント:

    ということは(個人情報を抜いた)通話履歴を分析して「当社の加入者の平均通話時間はx分であるが週末にはy分になる」ことを知るのも違法ということでしょうか?

  11. Buriki_Gadget のコメント:

    あ、URL貼り付けただけでpostしちゃいました。すみません。書きたかったのは以下です。

    上記URLの文書のなかで『ここで禁止行為とされている「秘密を侵す」とは、上に述べた通信の秘密の保障が及ぶ事項の秘密を侵す行為、すなわち、通信当事者以外の第三者がこれらの事実をことさら知ったり、自己又は他人のために利用したり、第三者に漏えいすることをすべて含むものです。』
    ですので、(いわゆる)電話番号から個人を特定することができるかどうかに関わらず、番号Aから番号Bへの通話履歴をデータマイニングの対象とすることは違法になるのではないかと思います。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です