26
iPhone のオートコレクト機能はなぜいまだにこんなにひどいのでしょうか?

誰にでも経験があるでしょう。「今日のランチは何がいい?」みたいな簡単なフレーズを入力したつもりが、「ランチは何がいい?」と間違えられてしまうなんて。オートコレクトミスはあまりにも当たり前で、しかも長年そうだったため、意図せず笑えるようなミスでない限り、ほとんど気づかないほどです。

なぜでしょうか?タッチキーボード入力の先駆者であり普及させたデバイスであるiPhoneが発売されてから、もうすぐ15年になります。そして、オートコレクト機能は、Wordが誤ってCapsLockキーを押したり、よくあるスペルミスを自動的に修正していた1990年代から、何らかの形で私たちの生活に浸透してきました。

数十年、数十億台ものデバイスが販売され、機械学習とAIが急速に発展したにもかかわらず、オートコレクト機能は相変わらず役立たずだと感じます。ある意味、退化しているようにさえ感じます。単純な文字の入れ替えで正しい単語が生成されるにもかかわらず、意味不明な置き換えをしてしまうのです。オートコレクトは本当に難しいのでしょうか?それとも、必要な機能を果たすことすら試みていないのでしょうか?もはや優先事項ではないのでしょうか?

自動修正
「今日のランチは何がいい?」という質問でキーをいくつか間違えると、こんなひどい結果になります。

IDG

9の行進

「マーチ・オブ・ナイン」という概念を初めて知ったのは、約20年前です(もっとも、この用語の起源はよく分かりません)。当時は最新の音声ディクテーションソフトウェアについて調査し、記事を書いていました。当時は、コンピューターユーザーがマシンに話しかけるには、Dragon Dictateのようなソフトウェアを購入する必要がありました。

90%の精度を誇るディクテーションソフトウェアは魅力的に聞こえるかもしれませんが、実際には役に立ちません。10語のうち1語を修正するだけで済むようでは、実際にはそれほど時間の節約にはなりません。99%の精度でも十分とは言えません。99.9%になると話が別です。1,000語をコンピューターにディクテーションして、そのうち1語だけを修正するだけで済むなら、それは大きな時間節約になります(そして、素晴らしいアクセシビリティツールであることは言うまでもありません)。

しかし、99%の精度は、90%より9%優れているというだけではありません。実際には1,000%、つまり10倍の改善です。なぜなら、エラー率は10語中1つのエラーから100語中1つのエラーに減少しているからです。

自動化プロセスの精度に「9」を積み重ねるごとに、人間にとってはわずかに精度が向上する程度にしか感じられませんが、そこに到達するには10倍の改善が必要です。つまり、ユーザーにとっては99.9999%は99.999%とそれほど変わらないように感じますが、コンピューターにとってはそれでも10倍難しいのです。

オートコレクト機能は「9の行進」の泥沼にはまっているのでしょうか?それとも、私たちには微々たる小さな進歩にしか見えない、密かに大きな進歩を遂げているのでしょうか?私はそうは思いません。オートコレクト機能のエラー率は依然として高いのに、利用可能な計算能力(特に機械学習タスク向け)は10年前の数百倍にも達しています。そろそろ別の方法に目を向けるべき時だと思います。

自然言語処理ではない

SiriやAlexaなどの音声アシスタント、音声ディクテーション、オートコレクト機能などについて話している場合でも、テクノロジー企業は「自然言語処理」を採用しているとよく言います。

しかし、真の自然言語処理は、これらの消費者向けシステムのいずれにも未だ及ばない。残されているのは、機械学習を活用した、意味をほとんど欠いた品詞の統計分析だけだ。

次のことを考えてみてください。「角の店に行ってバターを一本買ってきてください。無塩バターにしてください。」

もし私が誰かに「それ」が何を指すのか尋ねたら、文法的には「それ」は店を指しているのに、誰もがすぐに私がバターを指していると分かるでしょう。しかし、無塩の店なんて聞いたことがあるでしょうか? 2番目の文を「今日開いているか確認してください」と書き換えれば、「それ」が店を指していることがわかります。

これは人間にとってはごく些細なことですが、コンピュータにとってはこれが非常に苦手です。言語システムは、単語が実際に何を意味するかを理解せずに、単語の種類と綴りだけを理解して構築されているからです。

こうした言語ベースのシステム(音声アシスタント、ディクテーション、オートコレクト)はすべて、膨大な数の低賃金の請負業者に音声サンプルやテキスト文章を採取させ、名詞、動詞、形容詞、副詞、汚い言葉、固有名詞などに細心の注意を払ってタグ付けさせています。コンピューター言語システムは、「taste this soop I just made(今作ったスープを味見して)」と入力した場合、スペルミスの単語は「soup」であるべきだと認識するかもしれません。なぜなら、それは名詞であるはずで、あなたが入力した「my accident(私の事故)」という非単語とほとんど同じ文字だからです。しかし、soupが実際には何なのかは認識していません。また、文章中の他の単語、例えば「taste」made「just」なども認識していません。

オートコレクトがこれほどまでにダメなのは、まさにこのせいだと思います。どんなに高度な機械学習や膨大なトレーニングデータを使っていても、言葉の意味が表面的にでも分からなければ意味がありません。

iPhoneの自動修正
私の iPhone は、Macworld を認識するように指示した場合のみ Macworld を認識します。

IDG

GoogleはGmailでフレーズ全体を自動予測しますが、これは非常に高度な統計分析に過ぎません。特定のキーワードとフレーズの分布を持つメールに返信する際に、機械学習を用いて、直前に使用した単語に続く最も一般的なフレーズを特定します。それでも、Googleはそれらの意味を全く理解していません。

先ほどの例で言うと、オートコレクト機能は「What do you it want for launch tidy(タイディを起動するには何が必要ですか)」という単語を提案しましたが、これは意味不明な文だと認識できないからです。もしiPhoneがこれらの単語の文法的な役割だけでなく、実際の意味も理解していれば、オートコレクト機能は人間の言語として可能な範囲の候補だけを提案するのは簡単でしょう。(もちろん、あり得ない文法の寄せ集めであることは、オートコレクト機能がいかに劣悪なままであるかを物語っています。)

自動修正はもはや優先事項ではないようだ

実のところ、オートコレクト機能はかつてほど重要視されなくなっています。AppleがiOSのマーケティングでオートコレクト精度の飛躍的な向上を宣伝していたのを最後に見たのはいつでしょうか?

スマートフォンの黎明期、小さなタッチスクリーンに大きな親指で入力することに慣れ始めた頃、太い指による入力ミスを修正できる機能は大きなセールスポイントでした。それは、デバイスの洗練された使いやすいソフトウェアを示す中核的な機能でした。

オートコレクト機能は、欠点はあれど、もはや時代遅れで退屈だ。私たちはその欠点を長年我慢してきたため、市場はそれをユーザビリティの証として捉えていない。私たちは、洗練されたカメラ機能や通知機能といった他の課題に目を向けてしまっている。AppleやGoogleには、賢く勤勉なエンジニアたちがオートコレクト機能の開発に尽力しているだろう。しかし、わずかに良い写真を撮るチームに比べれば、オートコレクト機能に割り当てられるリソースはほんのわずかだろう。なぜなら、わずかに良い写真はスマートフォンを売ることができるが、わずかに良いオートコレクト機能は売れないからだ。

スマートフォンが単語の意味をある程度理解できるようになるには、AIモデリングとAIパワーの飛躍的な向上が必要になるでしょう。しかし、今からでも、意味不明な文章や、意味不明な駄文を生み出す不要な自動修正候補をフィルタリングするために、できることはまだまだたくさんあります。

とにかく改善してほしい。ローンチ当初からオートコレクト機能が陥っていたマンネリを打破してくれるような、どんなことでも。