音声AIの分野で、面白いことが起きています。OpenAIやGoogleのような巨大ラボではなく、わずか4人の研究者チームが、リアルタイム音声会話AIを世界で最初に実現してしまったんですよね。

この記事では、フランスのオープンラボKyutaiと、そこからスピンアウトしたGradiumがどうやって大手を出し抜いたのか、その背景と技術的な理由を掘り下げてみます。

Moshi:世界初のフルデュプレックス音声会話AI

2024年夏、パリのステージでKyutaiの研究者が「Moshi」をデモしました。これが何がすごいかというと、世界初のフルデュプレックス(全二重)音声会話AIだったという点です。

フルデュプレックスとは、人間同士の会話のように「相手が話している最中にも相槌を打てる」「割り込める」「同時に話せる」という機能を指します。従来の音声AIは「話す→聞く→話す」の交互方式(ハーフデュプレックス)でしたが、Moshiはまったく別物でした。

具体的な特徴を見てみましょう。

  • 応答速度は約160ms(人間の会話より速い)
  • 相槌(「うんうん」「なるほど」)を自然に打てる
  • ユーザーの割り込みに対応できる
  • 声のスタイルや音量をリクエストに応じて変更可能
  • オープンソースで公開済み、モバイルでも動作

しかもこのデモは、OpenAIがAdvanced Voice Modeをリリースする前に行われています。xAIが同様のデモを出したのはさらに1年後でした。たった4人のチームが、6ヶ月で事前学習済みモデルなしにゼロから構築してしまった。これは本当にすごいことだと感じます。

なぜ音声AIは長年「後回し」にされてきたのか

テキストAIがGPT-2以降、毎年のように劇的な進化を遂げてきた一方で、音声AIはずっと「クールじゃない」分野と見なされてきたんですよね。

いくつかの要因が絡み合っていますね。

データの希少性

テキストならWikipedia、Stack Overflow、書籍、論文から何兆トークンもスクレイピングできます。でも高品質な会話音声データを大量に集めるのは本当に難しいんですよね。日常の電話会話は「うん」「そうだね」みたいなフィラーが大半で、情報密度が低い。

文化的な問題

2015年前後のAI研究コミュニティには、暗黙のヒエラルキーが存在していました。画像分類(CNN)が最もクール、次にテキスト、音声はほぼ最下層。Siriのあまりにも残念な音声体験が、「音声AIはこの程度」という空気を作ってしまったのかもしれません。

GradiumのCEO Neil氏が2019年にGoogle Brainに入った時、音声を担当する研究者はごく少数で、経営陣は音声を「解決済みの課題」と見なしていたそうです。MetaのSeamlessやGoogleの音声プロジェクトも、論文を出した後は放置状態。リポジトリは何年も更新されていないものが多いとのこと。

小規模チームが大手に勝てる構造的な理由

ここが一番面白いところです。なぜ4人のチームが、何千人もの研究者を抱える大手ラボに勝てるのか。

「アイデアマン」と「実装者」の逆転

かつてのAI研究では、研究科学者(理論担当)がエンジニア(実装担当)より上位に位置していました。ところがディープラーニング革命でこの構図が完全にひっくり返ります。ニューラルネットワークは本質的に「汎用近似器」であり、アイデア単体の価値が相対的に低下したわけですね。

重要なのは「アイデアを自分で実装できる人」になったわけです。Google BrainのNoam Shazeerのような人物が典型で、理論的洞察と実装力の両方を持つ研究者が最も成果を出す時代に変わっています。

大企業の政治的オーバーヘッド

大手ラボでは、リソース配分の社内政治、承認プロセス、チーム間の調整といったオーバーヘッドが膨大です。小規模チームにはそれがない。思いついたアイデアをその日のうちに実装して検証できるのは大きい。

音声AIの特殊性:スケーリングだけでは解けない

テキストAIは「データとコンピュートを増やせば性能が上がる」スケーリング則が比較的よく機能する。でも音声AIはそう単純ではありません。正しいターンテイキング(会話の順番取り)、バックチャネリング(相槌)、レイテンシ管理など、ドメイン固有の専門知識が必要な「小さなエッジ」が無数にあるんですよね。

お金を投じるだけでは「そこそこ」のものしかできない。優れた音声モデルは、優れた音声研究者にしか作れない。これこそが小規模チームの本質的な強みです。

Kyutaiの技術的ブレークスルー

ニューラルオーディオコーデック:SoundStream

Neil氏がGoogle Brainで最初に取り組んだのが音声圧縮で、世界初のニューラルオーディオコーデック「SoundStream」を開発しています。この圧縮技術が、次のブレークスルーへの布石となっていきます。

圧縮されたトークンを予測することで音声を生成する最初のモデルを構築した際、思わぬ発見が待っていました。3秒間の自分の声をモデルに入力したところ、モデルがその声で話し続けたのです。つまり、偶然にもボイスクローニングを発明してしまった。このフレームワークはGoogle Brainの全音声プロジェクトに採用され、Gemini Liveの基盤にもなっています。

Hibiki:リアルタイム音声翻訳

Kyutaiの2つ目の主要リリースが「Hibiki」(響)です。話者の声を保ったまま、リアルタイムで別の言語に翻訳する音声対音声モデル。Appleが同様の機能を出す何ヶ月も前に、すでにデバイス上で動作していたそうです。

音声AIモデルの訓練はテキストとどう違うのか

アーキテクチャ自体はテキストLLMと似ています。Transformerベースで、RLHFや蒸留といったテキストAIの進歩を活用できる点は同じですね。

大きく異なるのはデータと評価方法の2点です。

  • Moshiのパラメータ数は7B、訓練トークン数は2.1T(テキストLLMと比べるとかなり小さい)
  • 事前訓練:700万時間の音声(トランスクリプト付き)
  • ポストトレーニング:Fisher データセット(2000時間の電話会話)
  • 指示微調整:2万時間以上の合成対話

特に難しいのが評価です。「良い会話」は完全に主観的なので、Kyutaiチームは定量的な指標を諦め、ひたすら人間によるブラインドテストを実施したとのこと。結局、人間の耳が最終ジャッジということですね。

Gradium:研究から製品への「ラストマイル」

2023年に設立されたKyutaiは、オープンな音声研究ラボとして多くの成果を出しました。しかし研究プロトタイプと実用的なプロダクトの間には大きなギャップが存在します。

そこでKyutaiチームの一部がGradiumを設立し、7000万ドルを調達しました。Kyutaiの基礎研究を製品グレードに仕上げる「ラストマイル」を担う存在ですね。設立からわずか数ヶ月で、最先端と競合する多言語モデルを構築・リリースしました。

NVIDIAのPersonaPlexやAlibaba/QwenのQwen3-TTSの基盤にもKyutaiのモデルが使われており、影響力は着実に広がりを見せている状況です。

音声AIが「次の主要モダリティ」になる可能性

多くの研究者が、音声がAIの最大のモダリティになると予測しています。考えてみれば、人間のコミュニケーションの大部分は音声です。テキスト入力より自然で、ハンズフリーで使える。

Google NotebookLMの音声クローン訴訟が示すように、音声AI技術は法的・倫理的な課題も抱えていますが、技術的なポテンシャルは計り知れません。

OpenAIのAdvanced Voice Modeが注目を集めましたが、その裏で小規模チームがずっと先を走っていたというのは、AI業界の構造を考える上で非常に示唆に富んだ話だと思います。

まとめ

音声AIは、AIの世界で最も「大きさが物を言わない」分野かもしれません。ドメイン専門知識、機動力、そしてオープンな研究姿勢が、莫大な資金とコンピュートリソースを上回った稀有なケースと言えるでしょう。

Gradium/Kyutaiの事例は、「スケーリング一辺倒」のAI開発に対する重要なカウンターナラティブになっています。全ての問題がデータとGPUの量で解けるわけではなく、深い専門性を持つ少数精鋭のチームが、特定の領域では大手を圧倒できる。これはAIに限らず、テック業界全体に当てはまる教訓だと感じました。

音声AIの進化はまだ序章に過ぎません。今後、どんなブレークスルーが出てくるのか、個人的にも注目し続けたい分野です。