OS X Mavericks で私が最も期待していた機能の 1 つは、オフライン ディクテーションでした。
OS X Mountain Lion で、Apple はシステム全体に音声入力ツールを追加しました。これは iOS の Siri に似ています。キーの組み合わせ(デフォルトでは Fn キーを 2 回)を押して Mac に話しかけると、Mac が発話内容を録音して文字起こしします。ただし、この機能はインターネット接続が必要で、Mac が音声の認識を中止し、Apple のサーバーに送信して文字起こしを行うまで、わずか 30 秒ほどしか動作しませんでした。
この実装に関して私が最も不満に感じたのは、書き起こしされたテキストがMacに返されるまで、口述に関するフィードバックが全く得られなかったことです。何か問題が発生した場合、(a) 話し終え、(b) OS Xが書き起こしを終えるまで、全く気付かなかったのです。
OS X トランスクリプション 2.0
しかし、もうそんなことはありません。OS X Mavericksでは、オフライン音声入力に対応したファイルをダウンロードするオプションが追加されました。設定するには、システム環境設定の「音声入力と読み上げ」パネルで「拡張音声入力を使用」にチェックを入れます。するとファイルがダウンロードされます。(注:ファイルサイズは785MBとかなり大きいです。)
この文字起こしサポートファイルをMacにインストールしておくと、OS X内蔵のディクテーション機能の機能が劇的に向上します。Fnキーを2回押して話し始めると、話した内容が画面に表示されます。この機能はMacでテキスト入力できる場所ならどこでも使え、特別なトレーニングやカスタマイズは必要ありません。キーを押して話し始めるだけです。実際、このテキストもまさにこの方法で入力しています。
全体的に、この機能は本当に気に入っています。Retina MacBook Proでは、2つのマイクが非常に優れているため、ヘッドセットマイクを装着しなくても(従来はディクテーションに必須でしたが)ディクテーションできます。OS全体でこの機能を使用しているだけでなく、オンラインフォームやPDFファイルへの注釈など、これまでディクテーションを使うとは思わなかったような場面でも使っています。本当に素晴らしいです。
しかし、Macのディクテーション機能はMavericksにとって新しいものではありません。私は長年コンピューターにディクテーションしてきました。(ディクテーションを始めた頃は、単語と単語の間にスペースを入れて、このように話す必要がありました。)私が普段使っているのはMac版Dragon Dictateです。ですから、AppleがOS Xのディクテーションツールを改良すると聞いたとき、まず疑問に思ったのは、「Dragonと比べてどうなの?」でした。
(なお、Apple は Siri ディクテーションの技術をどこから入手したかを公に述べたことはありませんが、Dragon Dictate を発行している Nuance 社ではないかと私は強く疑っています。)
そこで、2つのディクテーションシステムを試してみることにしました。まずテキストの一節をMacで読み上げました。最初はMavericksの内蔵ディクテーションツール、次にDragonのディクテーションツールを使ってみました。その違いは際立っていました。
それらをテストする
2つの製品を使うだけでも、全く違う体験になります。ディクテーションソフトウェアは人間と同じように音声を理解しません。私たちは耳に届く言葉を、文脈に基づいて常に瞬時に解釈しています。それが「アイスクリーム」と「叫ぶ」の違いを認識する方法です。コンピューターもほぼ同じことを行いますが、それほど得意ではありません。
つまり、MavericksのDictationシステムでは、私が話すと画面に単語が表示されますが、システムが私の言っていることを理解しようとするため、表示が途切れ途切れです。文章を読み進めていくと、単語自体とその順序が変わり、画面が頻繁に切り替わります。画面がぎくしゃくして、気が散ってしまうこともあります。Dragon DictateはMavericksのDictationほど速く単語を画面に表示しませんが、表示される単語は通常、Dictationよりも最終的な書き起こしに近いです。
しかし、真のテストは正確性です。それを評価するために、MavericksのディクテーションツールとDragon Dictateの両方を使って、4段落、268語の文章を書き起こしました。Mavericksでは文章を3回読み直して問題点を指摘し、Dragon Dictateでは1回だけ読み直しました。公平を期すため、Dragon Dictateでは既存のユーザープロファイルを使用しませんでした。

結果はどうだったでしょうか?どちらのプログラムも間違いを犯しました。しかし、Mavericks Dictationの間違いはより頻繁で、より滑稽でした。例えば、「detail」と発音したところ、「D tell」と発音され、「expository」と発音したところ、「Expo is a Tory」と発音されました。特に「Students must be jarred out of this approach(学生はこのアプローチから外れる必要がある)」という文では問題が顕著でした。Dictationに「jarred」と「jar」を正しく発音させるのに数分かかりましたが、どちらも「John」と発音されてしまいました。また、Dictationが引用符の前にスペースを挿入しないのも奇妙でした。私のテストでは、どの場面でもスペースを挿入できませんでした。
結局、Mavericks に組み込まれたディクテーション ツールは 28 個の間違いを犯しました。
Dragon Dictateは問題は少なかったものの、それでもいくつか間違いを犯しました。「expository」でつまずいたものの、Dictationほど面白くはなく、「expositors」と書き直してしまいました。また、「class scored」を「classic lord」と書き直してしまいました。合計で9つの間違いを犯しました。

最終的な精度スコアは、Dragon Dictateが96.6%、MavericksのDictationが89.6%でした。この差は取るに足らないように思えるかもしれませんし、Mavericksは依然として非常に高いB評価を得ていますが、1万語の文章をディクテーションした場合、MavericksのDictationツールでは1000以上の誤りが含まれるのに対し、Dragon Dictateではその約3分の1にとどまります。
結論
この結果はそれほど驚くべきものではありません。Dragon Dictateは数年にわたる開発期間を経て開発された有料アプリケーションです。また、Dragon Dictateは動作させる前に時間をかけてトレーニングを行う必要があるため、ユーザーの声や話し方をより正確に認識できます。
Dragon Dictateは、精度の向上に加え、よく使う単語を学習する機能を備えており、固有名詞の認識もMavericksのディクテーションツールよりもほぼ確実に優れています。Dragon Dictateには、Mavericksのディクテーションモジュールでは利用できない、ユーザーインターフェースを制御するための追加機能もいくつかあります。
つまり、Dragon Dictateは完全に開発され、機能豊富な製品ですが、MavericksのDictationはそうではありません。ただし、Dragon Dictateは200ドルかかるのに対し、Mavericksは無料です。
私としては、MavericksのディクテーションツールはDragon Dictate Liteのようなものだと思います。とはいえ、どちらも活用できています。Mavericksツールの最大の利点は、Macのどこからでも起動してすぐにディクテーションを開始できることです。Macの様々な思いがけない場所で使っています。Dragon Dictateはどんな状況でも簡単に使えるわけではありませんが、長い文章をディクテーションする必要がある場合、その高い精度は間違いなくMavericksの選択を後押しします。