ビッグデータ……という言葉が、流行り言葉のようになっている。
ITに疎い人には、「デカいデータ?」「大きいデータってなに?」なんてイメージを持たれてしまいそうだ(笑)。意味的に間違いではないが、ホットドッグを「熱い犬」とイメージするのに近い。
ビッグデータがもたらす可能性のイメージとして、海外ドラマの「パーソン・オブ・インタレスト」がおすすめ。AXNのほか、周回遅れで日テレの深夜枠でも放送されている。
パーソン・オブ・インタレスト 犯罪予知ユニット(PERSON of INTEREST)|AXN – 海外ドラマチャンネル
テロの危険性を事前に察知するため、政府によって極秘開発された犯罪予知システム、通称“マシン”。街中に張り巡らされた監視カメラや携帯電話、GPSなどから情報を得るそのシステムは、テロだけでなく、日常的に起こる凶悪犯罪も予知したが、政府はそれらを“無用の情報”として排除していた。マシンの開発者ハロルド・フィンチは、政府が無用と判断した情報を密かに入手。驚異的な戦闘技能を誇る元CIAのジョン・リースをパートナーに迎え、一般市民が巻き込まれる凶悪犯罪を未然に防ぐため、人知れず活動することを決める。ところが、マシンがはじき出すのは事件に関わる人物の社会保障番号のみ。そのターゲットが被害者か、加害者か、いつどんな事件が起こるのかも分からない中、二人は命をかけて数々の事件を阻止し、多くの人々を救ってきた。
ドラマ上の現在の設定は2012年になっているが、技術的なイメージでは10年後くらいの近未来だ。
世の中のすべての人々の個人情報や行動の履歴が集約され、コンピュータがそのデータを解析し、犯罪を予知する……というのが、基本的な設定。
つまり、これはビッグデータを高度に活用した世界だ。
今現在は、ここまでの解析はできないようだが、将来的には可能かもしれないと思わせるところがミソ。
アメリカでは2011年から放送されているが、「ビッグデータ」という概念が話題になり始めたのも2011年頃からだ。言葉としてはそれ以前からあったが、当時としては一般的ではなかった。日本で盛んに出てくるようになったのは、2012年からだと思う。
「パーソン・オブ・インタレスト」の中では、言葉として「ビッグデータ」は出てこない。時代を先取りした作品だった。
物語中では、犯罪予知システム“マシン”のハードとソフトを開発した技術者が、“マシン”を駆使してビッグデータをもとに犯罪を予測する。
街を行き交う人々を監視カメラが捉え、それぞれの個人を特定していくというイメージは、来るべき監視社会をうまく表現している。最先端の顔認識ソフトは、整形しても判別できるそうなので、顔が撮られれば個人に関する様々なデータをひも付けできる手がかりになる。
現在話題になっているビッグデータは、データそのものはデータの羅列でしかなく、そこから意味のある情報をいかにして取り出すかが重要になる。そのための理論やプログラムをいかに組み立てるか。それができなければ、ハードディスクの肥やしでしかない。
現状、データ化されている個人情報は、各所に分散されているため、すべてを網羅するようにはなっていない。たとえば、住民基本台帳、健康保険、年金、クレジットカード、ネットショップの登録情報、携帯電話の情報……といったものは、同一人物のものであっても連携はされず、それぞれに別個のデータだ。ときに情報が共有されないことが、別の問題を引き起こしたりするが、共有されていないことで部分的に個人情報が守られているということにもなっている。
ある個人の情報を参照するときに、すべての個人情報を知ることができるようになったら、それはそれで恐い世界だ。
フィクションの「パーソン・オブ・インタレスト」を彷彿とさせるような事件が起こった。
オバマ大統領、極秘情報収集プログラムについて説明──国民の安全とプライバシーはトレードオフ – ITmedia ニュース
Washington Postの6日の記事によると、米国家安全保障局(NSA)と米連邦捜査局(FBI)が、「PRISM」と名付けられた極秘プログラムを通じて「米国の9社の主要インターネット企業のセントラルサーバに直接アクセス」し、音声、動画、写真、電子メール、文書、接続履歴を含む膨大な量のデータを収集しているという。
それらの集められたデータを、どのように解析しているのかが興味深い。キーワード抽出だけなのか、推論までできるのか、どの程度の信頼性のある結果を導き出すのかはわからない。
ビッグデータの活用例として、アメリカ大統領選があった。
ワグナーさんが作ったのは「ビッグデータを活用し、有権者の投票行動を、文字どおり一人一人割り出す」というシステムです。
フェイスブックなどのデータはもちろん、“商品の購入履歴”などの情報を消費者情報の会社などから収集。
政治的な傾向を割り出すのです。ダン・ワグナー氏
「例えば、トヨタのプリウスを持つ有権者は“リベラル寄り”と分類される。」
データを分類することは比較的容易いが、無関係に思えるいろいろなデータから、ひとつの推論を導き出すのは容易ではない。アメリカでの推論方法が、そのまま日本に適用できるはずもなく、日本向けにビッグデータを活用するには、日本的な価値観や行動パターンを関連づける裏付けが必要になってくる。この裏付けが的確かどうかが、ビッグデータの価値があるかどうかの分かれ目になりそう。
「パーソン・オブ・インタレスト」では、様々な情報から、将来起こりえる犯罪を推測するのだが、該当者については社会保障番号しかわからないという制約がある。その設定も変な話で、外部から無断でシステムを使っているからだろう。
アメリカのNSAとFBIが、テロ対策としてテロを起こしそうな人物を割り出そうとしているのも、関連情報を結びつけているのだと思う。
「PRISM」といわれるブログラムは、報道によるとデータ収集だけを行っているようだ。関連づけや推測をどのように行っているのか不明だが、究極的には「パーソン・オブ・インタレスト」のレベルを目指しているのかもしれない。
そういう意味では、「パーソン・オブ・インタレスト」のようなシステムは、開発中かベータ版くらいはできていても不思議ではない。
ビッグデータの活用については、利用状況を監視するための機関が必要だともされているが、ものがデータであるだけに監視も難しい。極秘裏にデータを集めて、極秘に使用しているのを監視することは、ほぼ不可能に近い。
内部告発があって「PRISM」の存在が明るみになったが、諜報機関や警察、軍が関与すれば、極秘事項は表に出てきにくくなる。
ビッグデータ社会になると、こんなことも可能になる……というビジョンとして、「パーソン・オブ・インタレスト」は実現可能な近未来を描いたドラマとして面白い。