OpenAIが2024年9月ついに待望の機能「Advanced Voice Mode」(高度な音声モード)を、ChatGPT PlusとChatGPT Teamの全ユーザー向けに提供し始めました。この機能は、5月の「Spring Update」イベントで発表され、多くのユーザーが期待していたものです。

新機能「高度な音声モード」の概要と提供範囲

まず、Advanced Voice Modeの特徴です。
この機能は、ユーザーはアシスタントとの会話に割り込んだり、自分の感情に合わせた応答を得たりすることができます。さらに、OpenAIは5つの新しい音声「Arbor」「Maple」「Sol」「Spruce」「Vale」を導入しました。これらは標準的な音声モードと高度な音声モードの両方で利用可能です。

次に、提供範囲についてです。ChatGPT PlusとChatGPT Teamのユーザーに段階的に提供です。一方、ChatGPT EnterpriseとChatGPT Eduのユーザーには来週から提供される予定です。ユーザーは、ChatGPTインターフェース内の音声モードオプション横のポップアップメッセージで、機能の利用可能状況を確認できます。

「高度な音声モード」の機能の改良と新たな特徴

OpenAIは7月のアルファ版リリース以降、Advanced Voice Modeに様々な改良を加えてきました。例えば、外国語のアクセントへの対応や会話のスピード、スムーズさが向上しています。また、デザインも一新され、青い球体のアニメーションが表示されるようになりました。

さらに、ユーザー体験を向上させるため、新たな機能も追加されました。「Custom Instructions」(カスタム指示)機能と「Memory」(メモリー)機能が利用可能になり、ユーザーの基準や指定に基づいた応答が生成されるようになりました。

ただし、アルファ版と同様に、マルチモーダル機能へのアクセスは制限されています。
そのため、スマートフォンの画面やカメラを通じた視覚的な情報に基づくアドバイスや応答は、現時点では不可能です。

安全性への取り組み

OpenAIは、モデルの安全性確保に力を入れています。45の言語にまたがる100人以上の外部レッドチームを活用し、音声機能のテストを実施しました。加えて、8月には「GPT-4o System Card」という詳細レポートを公開しました。このレポートには、自社の安全性評価ツール「Preparedness Framework」や外部レッドチームによるリスク評価に基づいた大規模言語モデル(LLM)の安全性説明が含まれており、Advanced Voice Modeに関する記述も盛り込まれています。

このように、OpenAIは新機能の提供と同時に、ユーザーの安全性にも十分な配慮を行っています。
今後のさらなる進化、特にマルチモーダルなカメラ入力が可能になれば再度話題になるかと思います。
今後も「Advanced Voice Mode」に、多くのユーザーが注目です。