43
Vox technica: Siriの音声の仕組み

10月初旬、CNNは、AppleがiOS 7で変更するまで、Siriの声を担当していたのはベテラン声優のスーザン・ベネットだったと報じた。ベネットはインタビューで、彼女の発言が、このテクノロジー大手(およびおそらく音声合成パートナーのNuance)によって、デジタルアシスタント独自の言葉を生成させるために使用されていたと明かした。

もちろん、Appleのように高度な技術を持つ企業でさえ、ベネットさんのクローンを作成し、あらゆるiPadやiPhoneに小さなコピーを埋め込む方法を見つけ出したとは考えにくい。そうなると、Siriの正体よりもさらに興味深い疑問が浮かび上がる。人の声は、どのようにして、どんなテキストでも合成できるソフトウェアプログラムに変換されるのだろうか?

私の声は私のパスポートです

政府が自国民をスパイする現代において奇妙にふさわしいと思われる、過小評価されている映画 『スニーカーズ』では、ロバート・レッドフォードの雑多なハッカーチームが、何も知らない従業員から録音した個々の言葉をつなぎ合わせて、高度な音声ベースのセキュリティ システムを回避します。

音声ベースのパスワードは、1992 年の「スニーカーズ」など、多くの映画で頻繁に登場します。

iOSのデジタルアシスタントに音声を付与するプロセスは、それほど変わらないかもしれませんが、はるかに徹底的です。「大規模でダイナミックな合成アプリケーションの場合、声優(1人または複数の声優)が数週間から数ヶ月間、レコーディングスタジオで作業する必要があります」と、サンフランシスコを拠点とするベテラン声優スコット・レインズ氏は言います。「彼らは最終的に数千から数万もの文章を読み上げることになるので、フレージングやイントネーションを十分にカバーして録音することができます。」

ご想像のとおり、このプロセスの複雑さは言語によって異なります。言語によっては、他の言語よりも複雑なものもあります。結局のところ、英語を間違ったイントネーションで発音すると(例えば疑問文のイントネーションを間違えるなど)、不自然な発音になりますが、必ずしも単語の意味が変わるわけではありません。

テキサス州オースティンに拠点を置くコンサルティング会社ハンサムのディレクター、アラシュ・ザファルニア氏によると、必ずしもそうではないという。「中国語では、同じ母音と子音を持つ単語を区別するために、声調とイントネーションが不可欠です」とザファルニア氏は言う。全く異なるレベルの難しさがあるのだ。そのため、質の高い音声サンプルを得るには一貫性が鍵となる。「同じ単語やフレーズを何十回も繰​​り返さなければなりません。俳優の声は全く変化してはなりません。最高の結果を生み出すには、録音期間全体を通して一貫性を保たなければなりません」とザファルニア氏は言う。

スライスして切り刻む

最初の音声データが収集されたら、それを小さな要素に分解し、それらを再構成して新しい言葉にする必要があります。これは、異なる長さのテープをカットしてつなぎ合わせるハイテク版のようなものだと考えてください。これは、デジタル編集が登場する以前、音楽プロデューサー(そしてスパイ志望者)がよく知っていたプロセスです。

高品質な出力を生成するには、個々の単語を音素に分解する必要があります。音素は、あらゆる話し言葉の構成要素です。例えば、「Macintosh 」という単語は8つの異なる音素に分解でき、これらは世界的に認められている国際音声記号(IPA)に従って分類されます。これにより、単語はIPAでm·æ·k·ɨ·n·t·ɒ·ʃという記号で表される基本音にまで簡略化されます。

国際音声記号全体のうち、音素を分類するために使用される小さな部分。

各音は分類され、複数のコピーがデータベースに保存されることで多様性が確保されています。また、一般的な音声の組み合わせもソース素材から抽出され、個々の音素と共に保存されるため、より自然な音声が生成されます。極端なケースでは、多くの一般的な表現を合成する際に最高品質の出力を生成するために、音声専門家がフレーズ全体を手作業で組み立てることもあります。

ご想像のとおり、この段階に費やされる作業量は膨大で、合成音声の最終的な音質を左右する重要な要素となります。数百、数千もの音の断片を抽出・保存する必要があるからです。「イントネーション、強勢、ピッチなどに違いが出る可能性があります」とザファルニア氏は言います。「同じ母音や子音でも、数十、数百通りのバージョンが存在する可能性があります。」

フランケンボイス

音声データベースが完成すると、最終製品と一緒に出荷され、Siri の場合のようにインターネット経由でリモートで音声合成を提供するサーバーにインストールされるか、たとえば OS X と iOS の両方に同梱されている VoiceOver ソフトウェアの場合のようにデバイスに直接インストールされます。

合成音声は、プラットフォームの初期の頃から Mac の一部となってきました。

文章を音声に変換するよう指示されると、合成エンジンはまずデータベース内の定義済みエントリを検索します。もし見つからない場合は、入力された単語の言語的構成を理解しようと試み、すべての単語に適切なイントネーションを割り当てます。次に、入力を音素の組み合わせに分解し、データベース内で最も適切な候補音を探します。

理想的なシナリオでは、エンジンのデータベースには人間の声で発声可能なあらゆる音の組み合わせが収録されているはずですが、これはほぼ不可能な目標です。その代わりに、ソフトウェアは最適な組み合わせを探し出し、それらをつなぎ合わせて最終的な音声ストリームを作成します。非標準語や外国語など、場合によってはこの作業が非常に困難になり、誤った結果につながる可能性があります。「数字やめったに使われない単語など、合成器が実際に合成しなければならないものは常に存在します」とハンサム社のザファルニア氏は言います。「前者はそれほど難しくありませんが、後者はより難しく、(人工的に)作り出さなければなりません」。そのため、発音が不自然になったり、不正確になったりすることがよくあります。

まるで本物みたい

Siriに会話をさせるには、俳優からエンジニア、音声専門家まで、様々な専門家の協力が必要です。そして、現在利用可能な最高の技術をもってしても、時折、言葉が不明瞭になったり、名前の発音が間違っていたりするのは避けられません。

合成音声は精度がますます向上しているとはいえ、本物の声の代わりにはなり得ません。「人間の声は私たちが知る限り最もダイナミックな楽器なので、特徴的な抑揚やその他の特徴が欠けていることに気づくのに、それほど注意深く耳を傾ける必要はありません」と俳優のスコット・レインズは強調し、「感情表現、観客を魅了し、説得すること、物語を語ること、あるいは売れるメッセージを伝えることが重要な場合、企業は本物、つまり生身の人間を雇うのです」と付け加えました。

太平洋標準時午後 1 時 17 分に更新され、ハンサムの位置がサンフランシスコからテキサス州オースティンに修正されました。