iPhone 4S を所有する Macworld の読者の 30% のように、Siri は役に立たないと思っているなら、業界の専門家が、数年後には私たち全員がエレベーターやステレオ システムに話しかけ、それらが反応しないと困惑するようになるだろうと予測しているのを聞けば、驚くかもしれない。
Asymcoのアナリスト、ホレス・デディウ氏は、次の新しい入力方法はタッチスクリーンではなく「音声」になると考えており、Siriはまだ初期段階だが、この技術は業界に混乱をもたらす可能性があると示唆している。
当然のことながら、ケンブリッジを拠点とする起業家で実業家のウィリアム・タンストール=ペドー氏も同意見だ。彼はSiriの競合企業Eviを創業した人物だ。「将来は絶対にあらゆるものが音声で操作されるようになるでしょう」と彼はMacworld UKで語った。「将来、テレビに話しかけても何も反応しないことに驚くでしょう。あらゆるものが音声で操作されるようになるのです。」
「今、子どもたちが写真のフレームをスワイプしようとして、なぜ動かないのか不思議がっているのを目にします。将来、私たちがテクノロジーの前に立って何かをするように指示しても反応しないことに、人々は驚くようになるでしょう。それは奇妙なことだと思います」と彼は付け加えた。

「未来は常に音声に関するものでした。音声は自然なコミュニケーション手段です。情報を尋ね、情報を伝え、そして物事を実現する、人間にとって全く自然な方法です」と彼は続けた。
画期的な音声通訳技術
音声を使ってコンピューターとコミュニケーションをとるようになるのは時間の問題でした。それを阻んでいたのは、音声認識技術が私たちの意図を理解できるようになったことだけでした。しかし、今となってはそうはいきません。タンストール=ペドー氏は、コンピューターとの自然な会話を可能にする技術が「実用的かつ有用」という点で大きな転換期を迎えている、エキサイティングな時代が来ていると明らかにしました。
タンストール=ペドー氏はこう説明した。「コンピューターが音声で制御されない唯一の理由は、ごく最近まで技術が十分ではなかったからです。それが唯一の理由です。ここ数年で、音声認識(音声をテキストに変換する技術)が向上し、さらに自然言語理解(テキストを読み取って意味を理解し、質問に答える技術)も登場しました(これはSiriや私たちの会社Eviが使用している技術です)。」
EviもSiriもNuanceの音声認識技術を採用していますが、画期的なのはユーザーの発言の意味を理解する技術です。タンストール=ペドー氏は次のように述べています。「私たちの技術は、世界を理解し、ユーザーの意図を理解し、それを解釈し、直接応答することです。質問には、何百万通りもの言い回しがあります。どのような言い回しであれ、質問の意味を直感的に理解する必要があります。コンピューターにそれをさせるのは非常に困難です。同様に、私たちも脳内に膨大な知識、つまり世界に関する常識的な知識を蓄えており、その知識を活用することができます。しかし、これはコンピューターにとって非常に困難なことです。コンピューターは通常、知識を処理・理解できる形で保存しないからです。」
エヴィの技術は「知識を蓄積し、質問に直接答えることができる」とタンストール=ペドー氏は説明した。エヴィは「常に進化している」と彼は付け加えた。「サーバー、つまり彼女が知っていること、彼女の頭の中にあることは、日々進化しています。つまり、彼女は常に進化し続けているのです。彼女は常により多くのことを学び、より多くのことができるようになっているのです」と彼は主張した。
「Eviのコアテクノロジーは、ユーザーが何を言いたいのかを非常に高いレベルで理解し、多くの場合、直接的に答えることに大きく依存しています」とタンストール=ペドー氏は説明します。「Eviは7億もの事実を記憶しており、その知識を使って直接的に答え、ユーザーに答えを返したり、ユーザーと会話したりすることができます。さらに、事実を組み合わせて答えを生成することもできます。」
Siri対Evi
では、AppleのSiriとどう違うのかと疑問に思いました。大きな違いの一つは、Eviのユーザーが親指を立てたり下げたりすることでフィードバックを提供できることです。タンストール=ペドー氏は、これによりユーザーはEviに直接フィードバックを送ることができると指摘しました。
Eviは、Siriと同じように、ユーザーが使うにつれて学習し、データベースを構築していきます。ユーザーからの入力は「Eviの学習と成長に非常に役立っています」とタンストール=ペドー氏は説明します。
EviとSiriのもう一つの大きな違いは、「EviはすべてのiPhone、すべてのiPad、そしてすべてのAndroid携帯で利用できる」という点だとタンストール・ペドー氏は指摘する。一方、Siriは現在iPhone 4Sでのみ利用可能だが、iOS 6では新しいiPadでも利用可能になる。「SiriはApple製品なので、Apple製品以外で利用することは決してなく、しかも最上位のApple製品でしか利用できないだろう」とタンストール・ペドー氏は推測する。
これによってSiriデータベースの学習能力が制限されるのかと尋ねたところ、「それについてはよく分かりません」とタンストール=ペドー氏は答えた。「しかし、それが2つの製品の違いです。」
タンストール=ペドー氏によると、もう一つの、はるかに重要な違いは「両製品の原動力となるもの」だ。彼はこう説明した。「Siriは、呼び出すべき外部サービスを見つけることに大きく貢献しています。Siriには様々な機能があり、それぞれAppleのパートナーと協力して実現しています。天気予報、株価情報、ローカル検索など、これらはSiriが実現できる分野です。」
「もちろん、外部APIや外部パートナーも活用しています。しかし、私たちのコアテクノロジーは異なっており、両方の製品を使っていただければその違いがお分かりいただけると思います。Eviは質問の意図を理解しているので、より理解しているという実感が得られます。製品の個性や感触は、基盤となる技術の違いによって生まれるのです」とタンストール=ペドー氏は主張しました。
AppleがAPIを公開し、開発者がSiriを使えるようにしたらどうなるだろうか?と私たちは尋ねた。Siriは改善されるが、Eviには制約となるだろうか?「AppleがSiriで開発者に何をするかについては、もちろん憶測が飛び交っていますが、もちろんそれは確認されていません。しかし、それがSiriのコアテクノロジーを変えることはありません。開発者がアプリをSiriに組み込めるようにしても、コアテクノロジーの仕組みが変わることはありません」というのがタンストール=ペドー氏の答えだった。
Siriはほとんどの場合、質問に答えられずGoogleに誘導することに気づきました。「その通りです。Siriは『私にはできないから、検索してみてはどうですか?』と言っているんです」と彼は答えました。
Siriのリリースは時期尚早だったという意見もあるが、データバンクを構築するためにベータ版でリリースする必要があったのではないかと我々は推測した。「全くその通りだと思います」とタンストール=ペドー氏は答えた。
しかし、iPhone 4Sに搭載されたSiriのバージョンは、Appleが買収したオリジナルのSiriアプリほど優れていなかったという憶測があります。実際、Appleの共同創業者であるスティーブ・ウォズニアックは、Appleが買収して以来、Siriは以前ほど優れていないと批判しています。
ウォズニアック氏は、AppleがSiriを買収する前は、Siriが役に立つ結果を返していたと主張し、「それは本当に驚くべきことだった」と語った。「これが未来だった。普通に話せば、まるで人間と話しているような感覚になり、Siriは最高のプログラムだった」とウォズニアック氏は語った。
タンストール=ペドー氏は背景を次のように説明した。「スタートアップ企業Siriが持っていたSiriアプリは、iPhoneに搭載されているSiriとは異なる製品です。多くの点で機能が制限されていますが、OSに組み込まれています。つまり、現在皆さんが目にするSiriはiOSの一部ですが、Siri Inc.が持っていたスタートアップ企業は、他のアプリと同じように、実際にはより多くの機能を備えていました。Appleが買収したことで、実質的には最初からやり直したことになります。その理由についてAppleに代わってコメントすることはできませんが、ある程度の真実はあります。テクノロジー自体は変わっていません」と彼は付け加えた。
クラウドセキュリティと音声認識
もう一つの懸念事項は、音声通訳という新しい世界において、音声リクエストを通訳のためにクラウド上のサーバーに送信する必要があることに伴うセキュリティリスクの有無です。F-Secureは6月に、音声が通訳のためにサーバーに送信されることで、フィッシング詐欺やセキュリティ侵害の危険にさらされる可能性があると警告しました。IBMはまさにこの理由から、既に社員によるSiriの使用を禁止しています。
なぜこれが問題なのかと尋ねたところ、タンストール=ペドー氏はこう説明しました。「現時点では音声認識はクラウド上で行う必要があり、処理には大型のコンピューターが必要です。Siriの場合は、音声がクラウドに送信されて処理されます。そのため、セキュリティを非常に重視するのであれば、それを社内に留めておくことは不可能です。IBMの懸念の背景には、この点があるのではないかと私は考えています。」
「しかし、これはクラウド全般に共通する問題です」と彼は付け加えた。「Googleが保有する情報量を考えてみて下さい。検索の詳細、IPアドレス、メールアドレスなど、すべてがGoogleのサーバーに保存されています。これはクラウドの根本的な問題です。どんなクラウドサービスを使っても、データはクラウドに送信され、サービスが機能するためにそこに記録されます。」
「Googleは膨大な量の個人情報を保有しています」とタンストール=ペドー氏は付け加えた。「彼らはあなたよりも多くのことを知っています。Facebookも同じです。GmailのGoogleサーバーにどれだけの情報が保存されているか考えてみてください。安心できるのは、彼らの評判は信頼を損なわないことにかかっているということです。もしスキャンダルが起これば、彼らにとって壊滅的な打撃となるでしょう。だからこそ、彼らはユーザーの信頼を維持しようとあらゆる努力をしているのです。」
しかし、タンストール=ペドー氏も同意した。「事実として、私たちは解決策を見つけなければなりません。サービスプロバイダーからデータを分離しておく必要があるかどうかはさておき、サービスプロバイダーはサービスを提供するためにデータを必要としています。これはSiriに特有の問題ではなく、クラウドコンピューティングの問題なのです。」
TwitterでKaren Haslamをフォロー / TwitterでMacworldUKをフォロー
関連している:
Siriはフィッシング詐欺やセキュリティ侵害を「許す可能性がある」
アナリストのジーン・マンスター氏は、AppleのSiriの精度にD評価を与えた。
アップル創業者スティーブ・ウォズニアック氏、Siriを批判
Siriは「問題なく動作する」と開発者が主張