MetaがリリースしたLlama 4がオープンソースAIの常識を変えました。MoEアーキテクチャの採用が最大の特徴です。しかし、それだけではありません。実際、コンテキスト長やマルチモーダル対応でも大きな進歩を遂げています。そこで今回は、Llama 4のScoutとMaverickを詳しく解説します。
Llama 4 Scoutの驚異的な性能
Scoutのコンテキスト長は1000万トークンです。一般的なLLMの数百倍の長さです。つまり、膨大な文書を一度に処理できます。これは画期的な数値と言えます。
総パラメータ数は109Bです。しかし、アクティブなのは17Bだけです。したがって、推論コストを大幅に抑えられます。さらに、16個のエキスパートモジュールを搭載しています。具体的には、入力に応じて最適なものが選ばれます。実際、ベンチマークではGemini 2.0 Flashを上回りました。なお、画像理解にも対応しています。
Llama 4 Maverickのマルチモーダル能力
Maverickはより大規模なモデルです。総パラメータ数は400Bです。また、アクティブパラメータは17Bに抑えています。つまり、Scoutと同じ推論コストでより高い性能を実現しています。
特に、マルチモーダル能力が強化されています。具体的には、テキストと画像の複合理解が可能です。さらに、128個のエキスパートモジュールを搭載しています。しかし、Scout同様にアクティブは1つだけです。なぜなら、MoEアーキテクチャの効率を最大化するためです。実際、GPT-4oと同等以上の性能を示しています。
MoEアーキテクチャの利点と特徴
Llama 4がMoEを採用した理由は明確です。まず、推論効率が劇的に向上します。また、モデルの総知識量を維持しつつコストを下げられます。さらに、スケーラビリティも優れています。
しかし、MoEにはデメリットもあります。具体的には、モデル全体のメモリ使用量は依然として大きいです。つまり、デプロイ時のGPUメモリが課題になります。特に、個人での運用にはハードルが高いです。なお、量子化による軽量化も進んでいます。このように、MoEは効率とスケールのバランスを取る手法です。
オープンソースAIへの影響
Llama 4のリリースはオープンソースAI界に大きな影響を与えています。まず、MoEアーキテクチャの普及を加速させました。また、商用利用可能なライセンスも魅力です。さらに、多くの企業がLlama 4ベースのサービスを展開し始めています。
特に、APIコストの削減に貢献しています。なぜなら、セルフホスティングが現実的な選択肢になったからです。しかし、最大規模のタスクではクローズドモデルに劣る場面もあります。つまり、用途に応じた使い分けが重要です。実際、Llama 4とクローズドモデルを組み合わせるハイブリッド運用も増えています。
まとめ
Llama 4はScoutとMaverickでオープンソースAIの新時代を切り拓きました。しかし、MoEアーキテクチャの効率性が最大の革新です。特に、推論コストを抑えつつ高性能を実現した点は画期的です。また、1000万トークンのコンテキスト長も注目ポイントです。実際、オープンソースAIの可能性がさらに広がっています。
