61
AppleのジェネレーティブAIはどのように異なる思考をし、より賢くするのか

Appleはすでに製品全体でAIを活用しており、通常は「機械学習」といった機能について言及するのみで、すべてのチップにニューラルエンジンと呼ばれるカスタムAI推論ハードウェアを搭載しています。しかし、高度なチャットボット(ChatGPT、Microsoft CoPilot、Bard)、画像ジェネレーター(Dall-E、Midjourney、Stable Diffusion)、音楽ジェネレーター(Amper、MuseNet)、コード生成(GitHub CoPilot)といった生成型AIに関しては、Appleは傍観者のように見えます。

しかし、それも長くは続きません!iOS 18ではAppleが生成AIに本格的に力を入れるという噂が複数あります。Siriによる生成AIチャット、Apple Musicで生成されるプレイリスト、さらには画像生成や写真アプリ、iMovieアプリなどのツールが登場するかもしれません。

Appleの価値観と、ソフトウェアやサービスの展開における独自のアプローチにより、AppleのAIツールは私たちが慣れ親しんだものとは少し異なるものになるだろうと予想しています。プライバシーの重視、デバイス上での処理、そして安全性と信頼性に対する同社の評判を守る必要性という切迫した必要性は、いずれもAppleのAIツールに影響を与えるでしょう。

次世代Siri

これはAppleにとって最大の課題となるでしょう。SiriはAppleのAI製品であり AppleのAIの実力が世間の注目を集める製品です。Siriは最も注目度が高く、AI分野における先駆者であり、最大のブランドの一つです。

これは、ChatGPTやBardなど、現在大流行している大規模言語モデル(LLM)AIにも最も自然にフィットします。AppleはAjaxと呼ばれる独自のLLM基盤を持っており、一部の報告によると非常に洗練されているとのことです。

iOS 17 シリ iPhone

Siri は生成 AI の導入により大幅に強化されます。

鋳造所

Appleは、こうした機能を可能な限りデバイス上で実現したいと考えているでしょう。プライバシーと安全性の観点からは非常に重要ですが、応答性、バッテリー効率、そしてインターネット接続が不安定な場合でもSiriを使えるという点でも大きなメリットとなります。

さらに、デバイス上でより多くの処理を実行できれば、Siriは自然な会話を繰り広げる能力において大きな優位性を獲得できるでしょう。Siriは、あなたが訪れた場所、写真に写っている人物や物、使用しているアプリなど、スマートフォン上のデータを活用し、まるであなたのことを「知っている」かのように「感じさせる」ことができます。Siriは、他のどの会話型AIよりも、まるで友人のように感じられるようになるでしょう。しかも、個人データを一切送信することなく。

これは非常に大きな技術的課題です。LLMの実行には大量のRAMが必要になるからです。たとえサイズが限られたLLMでもギガバイト単位のRAMが必要で、スマートフォンにはギガバイト単位の余裕がないことも珍しくありません。出力結果が優れていなければ、LLMをデバイス上で実行するという技術的な偉業に誰も関心を持たないでしょう。公平かどうかはさておき、一般ユーザーはSiriの会話能力を、大規模なサーバーファームで稼働する最新のオンラインAIチャットボットと比較するでしょう。

Appleの研究者たちは最近、「LLM in a Flash: 限られたメモリで効率的な大規模言語モデル推論」という論文を発表し、まさにこの問題に取り組んでいます。この論文では、フラッシュストレージの強みを活かしてメモリオーバーヘッドを削減し、LLMのパフォーマンスを向上させる効率的な方法について説明しています。つまり、Appleは高品質なLLMをiPhone上で完全にオンデバイスで実行できるようにするために尽力しているということです。

しかし、これはAI強化型Siriが直面する大きな課題の一つに過ぎません。ユーザーが今日のチャットボットをいとも簡単に騙し、人種差別的、性差別的、反ユダヤ的、あるいはその他の問題のある発言をさせてしまう例は数多くあります。これはすべて、Siriが学習に使用したデータによるものです。また、重要な情報についても「確信的に間違っている」可能性があります。Appleはあらゆる行動に大きな注目を浴びており、このようなパフォーマンスは、たとえ意図的でなくても、Appleの評判に深刻なダメージを与える可能性があります。

AppleのAIが事実に関する正確な結果を確実に提供できるよう、Appleは主要な報道機関からコンテンツのライセンスを取得し、AIの学習に役立てることを検討しています。これは良いアイデアです。検索エンジンのフロントエンドとして機能するAIを開発し、新しい要約を作成するのは簡単ですが、出来事に関する高品質で権威のある報道を利用することは、システムの中核にさらなる信頼性を組み込む良い方法です。

iPhone 15 USB-Cケーブル

高品質の LLM を完全に iPhone 上で実行するのは難しい作業になります。

クリス・マーティン / ファウンドリー

Appleは生成AIを可能な限りデバイス上で実行させたいと考えているのは明らかですが、Siriが現在インターネットに接続しているのと同じ情報(オフラインでも多くの処理を実行できるにもかかわらず)の多くを取得するには、インターネット接続が必要になります。現在の天気や交通情報、時事問題、ランダムな情報の検索、「うちの犬はブロッコリーを食べられますか?」など、その他多くの質問にはインターネット接続が必要であり、これは生成AIで強化された新しいSiriでも間違いなく変わりません。Appleは、私たちが尋ねた質問が匿名化され、可能な限りプライバシーが確保されていることをユーザーに知らせるために、あらゆる努力を尽くすでしょう。

クリエイティブツールにおけるGen-AI

クリエイティブ ツールで生成 AI を使用するという点も、Apple にとって大きなチャンスが目の前に広がる領域ですが、そこをうまく切り抜けるのは難しい地雷原でもあります。

Googleのマジック消しゴムは、写真からオブジェクトを識別して切り出し、その領域を生成画像で「インペインティング」することで削除します。これは便利な機能で、Appleユーザーならきっと気に入るでしょう。そして、これはまだ始まりに過ぎません。生成AIは、写真を元の領域を超えて「拡張」できる可能性があります。Appleはすでに写真ライブラリ内の特定の人物を識別できますが、名前で選んで写真に追加できたらどうなるでしょうか?

これらは素晴らしく楽しいツールになるでしょうが、カメラシステムへの信頼を損なうことになります。iPhoneの写真はすでにかなり加工されていますが、少なくとも被写体を完全に削除したり追加したりすることはありません。Appleは、このようなツールで加工された画像に、加工されたことを識別できるメタデータやその他の識別子を確実に付与する必要があります。

Googleマジック消しゴム

Google の Magic Eraser は、携帯電話上の生成 AI の良い例です。

鋳造所

ワンタップで写真を編集できる機能は、Appleが生成AIによって大きな付加価値を提供できる明らかな分野の一つですが、他にも多くの可能性があります。iMovieやFinal Cut Proで動画制作プロジェクトを完成させ、それを数語で説明するだけで、完全にオリジナルでロイヤリティフリーの音楽バッキングトラックを作成できると想像してみてください。AIは(Face IDと同様に)あなたの顔を3Dスキャンし、実際のあなたに最も近いミー文字を生成するかもしれません。

よりクリエイティブな画像生成は、Appleが関与するとは思えない分野です。Dall-EやMidjourneyのようなApple製品群は、Appleの製品ポートフォリオには合わないように思えます。しかし、こうしたツールを使って既存の人物写真からワイルドなスタイルのアバターを作成し、ノーマン・ロックウェルの絵画、ディズニープリンセス、ピクサーのキャラクターのような見た目にするアプリは数多くあります。また、背景を置き換えたり、照明を調整したりすることで、非常にクリエイティブで楽しいポートレートを作成することもできます。

Apple が、連絡先ポスター エディターや Clips アプリなどの機能に組み込まれている「フィルター」に生成 AI を使用して同様の機能を提供したり、FaceTime 会話中にリアルタイムで実行したりすることは想像に難くありません。

利便性と生産性を高める機能

Appleにとって最大のチャンスは、AIの中でも最も地味な分野、つまり利便性と生産性向上のための機能構築にあるかもしれない。MicrosoftがOfficeにAIツールを組み込んでいるように、Appleも最終的にはiWorkスイート(Pages、Numbers、Keynote)にAI機能を組み込むことになるだろう。これは見出しを飾ったりミームを作ったりするようなものではないが、非常に役立つ可能性を秘めている。静的なテンプレートの代わりに、AIに「1ページの履歴書を作成してください」と頼めば、おそらくいくつかの追加の質問に答えるだけで、すべてを自動的に作成してくれるだろう。短いプロンプトから、適切にフォーマットされたカバーレター全体を生成することも可能だ。プレゼンテーションの作成に困っているなら、AIにいくつかの主要な箇条書き、スピーチの音声録音、あるいは写真などからプレゼンテーションを作成させよう。

生成AIの最も優れた用途の一つは、論文や記事などの簡潔な要約を作成することです。Appleはそのような機能を検討していると言われており、Siriの機能かSafariの機能(あるいはその両方)として実現する可能性があります。

AIが生成するApple Musicのプレイリストが近々登場するという噂があります。特に目新しいものでもエキサイティングなものでもありませんが、Appleはこれに工夫を凝らすかもしれません。iPhoneからアクセスできるデータを活用して、ユーザーの現在のアクティビティ(運転、運動、勉強、散歩)、現在の天気と時刻、そしてApple Musicの再生履歴を判断し、デバイス上でその瞬間にぴったりのプレイリストを生成するかもしれません。

ショートカットは、AppleのAI開発における大きなターゲットとなるはずです。非常に強力なツールですが、技術に詳しくない人でショートカットを使っている人に出会ったことがありません。iPhoneユーザーのうち、ショートカットを使っている人は5%をはるかに下回り、自分でショートカットを作成している人は1%にも満たないのではないでしょうか。プログラミングではありませんが、ステップバイステップのスクリプトはシンプルですが、ほとんどのユーザーにとっては難しすぎるでしょう。やりたいことを簡単なテキストや音声で説明するだけで、ショートカットを作成してくれるAIを想像してみてください!コード生成AIよりも簡単な作業ですし、コード生成AIは既にかなり普及しています。

そういえば、Xcodeの次期メジャーバージョンにAIコード生成機能が組み込まれないのは、ほとんど狂気の沙汰と言えるでしょう(少なくともAppleがSwiftをより積極的に推進したいと考えているため)。XcodeにはAIコード生成機能を備えたソースエディタ拡張機能が既に存在しますが、Appleはおそらく、ローカルハードウェア上で完全に実行できる組み込み機能を求めているでしょう。実際、Mark Gurmanの最新のPower Onコラムでは、Appleがまさにそれを実現するだろうと示唆されています。

こうした機能は議論の余地がないため、Appleにとって容易に実現できる。問題のある画像や音声が生成されたり、ヘイトスピーチが吐き出されたりする可能性は低い。これはすべて、学習データが十分に厳選されていないためだ。しかし、こうした機能は、一般ユーザーを興奮させたり、オンラインで共有したり、何百万人ものユーザーが新しいiPhoneを購入するきっかけになったりするようなものではない。

Appleが今年、ソフトウェアにおけるAI活用で何をしようとも、世界中のChatGPT、Bing、そしてStable Diffusionsに対して、Appleには大きなアドバンテージが一つあります。それは、Appleが内蔵しているということです。Appleのツールは数十億台のiPhoneに自動的にダウンロードされ、サードパーティ製ツールと競合する場合でも、デフォルトとなるでしょう。これは大きなアドバンテージであり、チャンスでもありますが、同時に大きな責任も伴います。そのため、少なくとも当面は、サードパーティ製ツールの方が、それほど慎重になる必要がないという理由だけでも、より優れた機能を維持する可能性が高いでしょう。