42
差分プライバシーは、秘密を漏らすことなく、意味のある情報をクラウドソーシングする方法

セキュリティとプライバシーの専門家であるマシュー・グリーン氏は、「iPhoneがあなたを殺すことはありません」と安心させてくれます。それは良いことです。しかし、Appleの差分プライバシーのアプローチによって、私たちのプライベートな活動の一部が隠された形でAppleに送信されるという最近の説明の中で、彼は、医療研究関連のデータ収集においてプライバシーを過度に制限すると深刻な結果が生じることを示す研究結果もあると説明しています。

AppleはiOS 10において、絵文字の置換や、これまで認識できなかった単語の予測候補表示を改善するために入力データからデータを収集し、Spotlight検索結果を改善するためにアプリ内のディープリンク(非プライベートな内部リンク先)からデータを収集することを当初提案しています。macOS Sierraでは、オートコレクト機能の強化にデータを活用します。また、どちらのOSでも、メモアプリでどの検索ヒントが選択されているかを監視し、より適切なヘルプを提供します。

例えば、「twerk(トゥワーク)」という言葉が初めて使われた当時、辞書には全く載っていませんでした。差分プライバシーがあれば、この言葉は急速に認知され、一般的に使われるようになるにつれてiOSの辞書にも追加されたかもしれません。しかし、あなたが個人的に「twerk」という言葉を使ったかどうかは誰にもわかりません。

差分プライバシーは、適切に設定・運用されていれば、個人のプライバシーを侵害することなく、多数のユーザーの使用パターンを把握できます。個人の身元を隠蔽するために、差分プライバシーは個人の使用パターンに数学的なノイズを加え、特定の人物からアップロードされるデータはごく少量に抑えます。

Apple は、あなたのデータを匿名化するだけでなく、ノイズも混ぜます。

音楽ストリーミングアプリで同じ人気曲を聴くなど、同じパターンを共有する人が増えるにつれて、一般的なパターンが浮かび上がり始め、OSがより望ましい結果を生成できるようになる。(これは、Siriなどの集約結果でデータがランダムに生成されたID番号に紐付けられ、ユーザーがリセットできるAppleの匿名化技術とは全く異なる。)

Appleが採用しているこの技術は、デバイス上、転送中、あるいはApple、犯罪者、その他の関係者によって送信先で取得された情報であっても、ほとんどの場合、再構成して正確な回答を得ることができない形で、有意義な情報を収集できるはずです。表面上は、悪意のある、あるいは望ましくないエージェントが、ユーザーから収集したAppleのあらゆる詳細情報にアクセスできたとしても、個人のプロフィールどころか、たった一つのデータさえも再構成して再接続することはできない可能性があります。

プライバシー予算のバランスをとる

差分プライバシーは、数十年前からある調査手法を基盤とする、比較的新しいデータ収集手法です。プライバシーという概念を分離しようと試みる手法です。つまり、人々の意思決定に関する十分な情報を提供することで、回答を群衆の知恵を結集し、ディープラーニングシステムを訓練するのに役立てますが、それらの行動や回答を個人と結び付けるほどの情報を提供しないようにします。

1960年代に開発された古典的なランダム化回答法では、コイン投げによってランダム性が付加されます。例えば、研究者が当時としては難しい質問だった「あなたは共産党員ですか?」をするとします。被験者は研究者の視界から外れた場所でコインを投げます。表が出れば必ず「はい」と答え、裏が出れば正直に答えます。これにより、研究者も他の関係者も実際の回答が真実かどうかわからないため、被験者は否認の余地が生まれ、より良い調査結果につながります。十分な回答があれば、ランダム性によるノイズを計算し、差し引くことで、比較的正確な分布を算出できます。

iPhoneのロックアップアプリのPR印刷

Apple の「プライバシー予算」によって、1 つのデバイスからどれだけのデータが収集されるかが決まります。 

差分プライバシーは、実質的に同じアイデアの現代的でより複雑な反復です。コインを投げる代わりに、システムはより洗練されたランダムな値を追加することで、リバースエンジニアリングできない結果を生成します。1回のコイン投げで1つの答えが得られる代わりに、多数の、時には数十の答えが得られる可能性があります。

しかし、差分プライバシーには、元のデータの回復を可能にする可能性のある 4 つの関連する問題があります。

  • 個々の当事者からどれだけのデータが収集されるか。
  • 送信前および受信時に情報がどのように隠されるか。
  • 十分に類似した質問がいくつありますか。
  • 一定期間内に個人に同じ質問または類似の質問が何回尋ねられるか。

第一に、Appleは収集したデータの一部のみを送信する予定です。膨大な数のユーザーを抱えているため、比較的少数のデータポイントでも、膨大な数のデータポイントとほぼ同等の信頼性が得られます。

2つ目については、Appleは収集したデータをiPhoneやmacOSに保存する前に、ノイズを追加する計画のようです。ジョンズ・ホプキンス大学のグリーン教授はインタビューで、Appleはデータの一部は破棄され、一部は毎日アップロードされると説明を受けたと述べています。「たとえ誰かがあなたの携帯電話に侵入し、パスコードロックを突破したとしても、大量のノイズが含まれた巨大なデータベースが手に入るでしょう」とグリーン教授は言います。

ユーザーはデータを一切送信しないことも選択できると同氏は述べ、さらにアップルは、ノイズの多いデータであってもその発信元と関連付けることを避けるため、情報を保存する前にIPアドレスを破棄すると述べた。(グリーン氏が説明を受けた点について、アップルは確認の要請には応じなかった。)

グリーン氏は、3つ目の点について、似たような質問をしすぎると、事態がより微妙になる点を指摘しています。共産党員かどうかを尋ね、次にヨシフ・スターリンを尊敬しているか尋ね、さらに理想的な経済・政治体制について尋ねる、といった具合に、外部の観察者が最終的にノイズを突き抜け、特定のトピックに対する態度を決定づけてしまう可能性があります。そのため、関連する質問を関連付けるシステム設計が必要です。

最後に、時間をかけて質問するという点について、Appleは「プライバシー予算」を設定し、一定期間内、あるいはデバイスから同一または関連する事柄に関するデータの送信量を制限します。質問への回答は時間の経過とともに変わることが多く、同じ回答を複数回提供することで、真実の回答を判別できるようになります。

「今日うんちの絵文字を使ったら、おそらく明日も使うだろう」とグリーン氏は指摘する。あるいは、今日スターバックスに行ったら、明日もまた同じ絵文字を入力するかもしれない。「今日彼らがやっていることは、どれも重要ではないようだ」と彼は言うが、アップルがこの技術に自信を深めるにつれて、状況は変わっていくだろう。

差分プライバシーが重要な理由

差分プライバシーに関する学術研究は、主に10年ほど前に遡ります。Appleの導入は、これまで公表されている中で最大規模のテストと言えるでしょう。Googleは2014年にその研究について説明しましたが、いくつかの例を挙げただけで、同社がそれをどの程度広範囲に活用しているかは明らかではありません。

グリーン氏がブログで挙げた抗凝固薬の投与量に関する研究では、プライバシー予算が非常に制限されていたため、個人の特性が適切な医療アプローチに大きく影響する個別化医療において誤った指針となる情報が提供されました。間違った絵文字を提案しても誰かを傷つけることはありません。しかし、Appleの当初の限定的なアプローチから、人生を変える(あるいは人生を終わらせる)結果に至るまでには、連続性があります。

Appleは、人工知能処理のメリットを享受するために、あらゆる行動を追跡したり、自社の規模で生データを収集したりする必要はないことを、実際に実証しようとしている。Appleは適切な選択を行い、どれだけの真実を追跡できるかについて社内で独自の分析を行う必要がある。しかし、これは改善と匿名性のバランスをとった賢明なアプローチだ。