Google DeepMindが開発したProject Genieは、画像やテキストから3Dのインタラクティブな世界を生成するAIです。しかし単なる画像生成とは根本的に異なります。ユーザーが自由に歩き回れるリアルタイムの仮想空間を作り出すのです。そこで今回は、Project Genieの仕組みと将来の可能性を詳しく解説します。

Project Genieの基本的な仕組み

Genieは「ワールドモデル」と呼ばれるAIです。具体的には、画像を3D環境に変換してリアルタイムに描画します。つまり、移動するたびにAIが前方の景色を新たに生成するのです。

写真やスケッチ、テキストプロンプトを入力として使えます。さらにGenie 3では24fpsの滑らかな描画が可能です。したがって、ビデオゲームのようなスムーズな探索体験を得られます。

また、解像度は720pに対応しています。視覚的な記憶は約1分間維持されます。そのため、振り返ったときにも整合性のある風景が表示されるのです。

物理シミュレーションの実現方法

特に注目すべきは物理法則の再現です。Genieは大量の動画データから重力や運動量を暗黙的に学習しています。たとえばボールを投げれば放物線を描きます。物体同士の衝突も自然に表現されます。

さらに「プロンプタブルワールドイベント」という機能も搭載しています。具体的には「雨を降らせて」とテキストで指示すると、世界がリアルタイムに変化します。一方で、物理演算は常に完璧ではありません。それでも従来のAI生成とは段違いの精度を実現しています。

Genie 2からGenie 3への進化

2024年12月にGenie 2が発表されました。これが大規模基盤ワールドモデルの先駆けです。その後、2026年1月にGenie 3が登場しました。

Genie 3ではインタラクティブ性が大幅に向上しています。また、キャラクターアニメーションやエージェント行動予測も強化されました。加えて、一人称視点とアイソメトリック視点の切り替えにも対応しています。

現在はGoogle DeepMind Ultraサブスクライバー向けにリサーチプレビューとして提供中です。つまり、まだ一般公開には至っていません。

SoraやRunwayとの違い

動画生成AIとしてはSoraやRunway Gen-3が有名です。しかしGenieとは根本的に異なります。SoraやRunwayは受動的な動画を生成します。一方Genieはインタラクティブな体験を提供するのです。

つまり、Soraはストーリーテリング向けです。それに対してGenieは探索やシミュレーション向けです。実際にユーザーの入力にリアルタイムで反応する点が最大の差別化要因です。

活用が期待される分野

まずAIエージェントの訓練環境として有望です。たとえばロボティクスの学習を、現実世界のリスクなしに実施できます。さらにゲーム開発でのラピッドプロトタイピングにも使えます。

また教育分野では没入型学習が可能になります。具体的には古代都市の探索や宇宙旅行を仮想体験できます。科学研究でも制御されたシミュレーション環境として活用できます。

加えてVRやAR体験の基盤技術としても期待されています。したがって、エンターテインメントから産業用途まで幅広い応用が見込めるのです。

現時点での課題と今後の展望

もちろん課題もあります。生成された世界は完全にリアルとは言えません。また、キャラクターの制御性にも改善の余地があります。さらに操作レイテンシーが高い場面も報告されています。

しかしワールドモデル技術は急速に発展しています。特にWorld LabsやAMI Labsなど競合も台頭しています。そのため、今後数年でゲームチェンジャーとなる可能性は十分にあります。Project Genieは3D生成AIの新たな章を開いたと言えるでしょう。