AppleのSiri「採点」プログラムにおいて、人間が私的な違法行為を聞き取っていたとガーディアン紙が報じてから1週間後、Appleは調査のため同プログラムを一時停止した。また、ユーザーがオプトアウト(あるいはオプトイン)できるようにするためのソフトウェアアップデートも開発中だ。
Appleは簡潔な声明を発表しました。「私たちは、ユーザーのプライバシーを保護しながら、優れたSiri体験を提供することに尽力しています。徹底的なレビューを実施している間、Siriのグレーディングを全世界で一時停止します。さらに、今後のソフトウェアアップデートで、ユーザーがグレーディングへの参加を選択できるようになります。」
それは正しい行いですが、今後の方向性がどうなるのか疑問に思います。ほとんどの人が気づいていないかもしれませんが、機械学習(ML)とAIは人間の「採点」を基盤としており、他に良い代替手段は見当たりません。Siriは競合他社より1、2年遅れていると頻繁に批判されているため、Appleが私たちのプライバシーを守りながら追いつくのは容易ではないでしょう。
誰もがそうする
このSiriの採点プログラムとは一体何なのでしょうか?簡単に言うと、「Hey Siri…」と発声するたびに、発したコマンドはデバイス上で処理されるだけでなく、半匿名化されてクラウドに送信されます。このデータの一部は、Siri(およびAppleの音声入力機能)がユーザーの発話内容を正確に理解できるように、ニューラルネットワークのトレーニングに活用されます。世界のどこかで誰かが「Hey Siri…」のコマンドをいくつか聞いて、Siriが正しく理解したかどうかを記録しているのです。
その後、機械学習ネットワークは数百万通りの組み合わせを通して調整され、さらに調整され、さらに調整されます。変更はこれらの「グレード分けされた」サンプルに対して自動的にテストされ、新しい機械学習アルゴリズムがより正確な結果を生み出すまで続きます。そして、その ニューラルネットワークが新たなベースラインとなり、このプロセスが繰り返されます。
音声認識や写真認識、あるいは防犯カメラが人を捉えたのか車を捉えたのかを判断するような機械学習アルゴリズムを、人間による訓練なしに学習させるのは不可能です。もしAIが正しいのか間違っているのかを常に正確に判断できるコンピューターアルゴリズムがあるとすれば、それはAIアルゴリズムでしょう!
Apple、Google、Amazon、Microsoft、そして機械学習アルゴリズムを使って音声認識や写真や動画内の物体検出など、あらゆるAIアシスタントを開発している企業は、まさにこれを実現しています。彼らはあなたのアシスタントへの質問を盗聴し、あなたの写真を閲覧し、あなたの防犯カメラを監視しています。
そうですね。
(実際、ドイツの調査で請負業者が機密情報を報道機関に漏らしていたことが明らかになったため、Google は言語録音のレビューを一時停止したばかりです。おっと。)
確かに、市販のライセンスを取得して購入した大量の写真、動画、音声サンプルを使って機械学習アルゴリズムを学習させることは可能です。多くの企業がそうしていますが、それだけでは限界があります。AIを真に信頼できるものにするには、会社のデバイスで撮影されたのと同じ品質の写真、動画、録音が必要です。風切り音と芝刈り機の音が聞こえる中で、6フィート離れた場所から、スマートフォンのマイクを使って、訛りのきつい、乱れた音声を聞かせる必要があります。
AIを人間が訓練することは珍しいことではなく、むしろ一般的な慣行です。テスラの自動運転機能は、顧客の車のカメラデータから標識、車線、他の車、自転車、歩行者などを識別し、人間がニューラルネットワークを訓練することで構築されています。人間によるデータの確認なしに、高品質な機械学習アルゴリズムを訓練することは不可能です。
匿名だが、完全には
何百万人もの人々が利用することを想定した高品質なAIアルゴリズムを、人間のレビューなしに訓練することは不可能であるため、ほとんどの企業は少なくとも半匿名化を図っています。録音は人間が聞く前に、ユーザーを特定できるデータはすべて削除されています。少なくとも、企業はそうしていると主張しています。
りんごFacebook の使用状況が何らかの指標となるならば、ほとんどの人は自分のデータが AI アルゴリズムのトレーニングに使用されることに問題がないだろう。
しかし、実際の音声録音や写真/ビデオ以外にも、一定量のデータが必要になることが多いため、完全に匿名にすることはできません。
例えば、「Hey Siri、グリーンバック・レーンのUPSストアは何時に閉まりますか?」と尋ねたのに、Siriが「グレン・ブルック・レーンのUPSストアは何時に閉まりますか?」と聞いたと認識した場合、間違った結果が返されます。私の近くにグレン・ブルック・レーンは存在しませんし、UPSストアももちろんありません。しかし、自動システムがその書き起こしが間違っていると認識する方法はありません。なぜなら、人間がそのようなことを言う可能性は十分にあるからです。
ですから、人間がこれらの情報を確認する必要があり、リクエストを送信した時の私の位置を大まかに把握している必要があります。これらの人間の「採点者」は、私の近くにGlenn Brook Laneがないと判断できるだけの十分な位置情報がなければ、Glenn Brook Laneが間違っていることに気付くはずがありませんよね?
同様に、Ring のビデオ映像を確認して動いている車と人を区別する人は、見ている映像が屋外カメラ(多くの車が映っている)の映像なのか、屋内カメラ(窓越しに車しか映っていない)の映像なのかを知る必要があるかもしれません。
完全な開示が鍵
AIアルゴリズムの学習にデータが利用される仕組みや、プライバシー保護のために何が行われているのかを消費者が正確に理解していた場合、消費者がどのような反応を示すかは分かりません。しかし、ほとんどの人は受け入れるだろうと思います(もし人々が個人情報やプライバシーをそれほど気にしているなら、Facebookは12億人もの人々に利用されていないでしょう)。
しかし、彼らはそれを知らず、関係する企業はどれも説明に関心がないようです。テクノロジー系メディア向けの短い声明文と、何億人ものユーザーに情報を伝えることは同じではありません。4,000語もの長文の利用規約の奥深くに、許容的な文言を隠しても意味がありません。この情報開示の欠如は、重大な失敗です。
最大の問題の一つは、バーチャルアシスタントが本来録音すべきでないものを録音してしまうことです。Siri、Alexa、Googleアシスタントは基本的に常に録音を行っています。デバイス上のバッファを常にループさせ、数秒ずつデータを聞き取ります。「Hey Siri」「Alexa」「OK Google」「Hey Google」といった起動フレーズを聞くまでは、どこにも情報を送信しません。起動フレーズを聞いて初めて、ネットワーク接続が確立され、データがクラウドに送信されます。
ご存知の通り、こうしたウェイクフレーズは効果がないこともありますし、誰も言っていないのに作動してしまうこともあります。こうした誤ったトリガーが、人間の「採点者」が私的な会話、麻薬取引、性行為などの断片を聞き取ってしまう原因となっているのです。
繰り返しますが、簡単な解決策はありません。人間が実際に間違えた時にそれを伝えない限り、これらのアシスタントはウェイクアップフレーズを完璧に聞き取ることはできないでしょう。
自分たちで作業する
だからといって、必ずしもデータを他人に渡さなければならないわけではありません。トレーニングと採点を自分たちで行うことも可能です。AppleはiPhoneを改良し、Siriを呼び出すたびに「正解」か「不正解」のシンプルなボタンが表示されるようにすればいいのです。ユーザーが不正解をマークした場合、正しいフレーズや、返ってきた答えが期待通りでなかった理由など、より詳しい情報を提供できるかもしれません。
スマート スピーカーにキーフレーズを与えれば、音声で同じ操作を実行でき、リンクされた電話を使用して修正を加えることも可能になります。
その後、調整されたアルゴリズム(ただし、個人データは含まれない)は親会社に送り返され、他のすべてのアルゴリズムと統合されて、次のソフトウェアリリースに組み込まれます。一部の企業では、キーボードのスマート予測入力(その性質上、誰もが間違いを修正する)など、特定の種類の機械学習アルゴリズムにすでにこの手法を採用しています。
もちろん、大多数のユーザーはバーチャルアシスタントの採点や修正に手間をかけることはないでしょう。バーチャルアシスタントの目的は、こうした面倒な作業を避けることであり、スマートセキュリティカメラの誤判定された動作トリガーや、AI搭載のフォトアルバムで誤ってラベル付けされた写真をすべて確認したい人がいるでしょうか?それは仕事です。AIの本来の目的とは正反対です。
しかし、十分な数のユーザーがいるとすれば、そしてAppleは10億台以上のデバイスが利用されていると確信している。たとえアクティブユーザーのほんの一部がデバイスをトレーニングするだけでも、膨大なサンプル数になるだろう。Siriを優れたAIアシスタントにするのに十分な規模になるかもしれないが、現状では明らかにそうではない。
Appleのような企業が、そこまでの努力をするでしょうか?洗練されたデザインと「とにかく使える」という印象を、アクセスしやすいインターフェースで損なうのでしょうか?そのインターフェースの存在自体が、何かが十分に機能していないことを暗示するのでしょうか?おそらく無理でしょう。Appleはおそらく、グレーディングプログラムの見直しを速やかに完了し、プライバシー設定でオプトアウトできるスイッチを設けて、グレーディングプログラムを復活させるでしょう。簡単なことですが、数億人のSiriユーザーのうち、少なくともごく一部をSiriの積極的な改善活動家に変える機会を逃していることになります。