Llama 4とは？Metaが公開した次世代オープンソースLLMの性能と使い方を徹底解説

Llama 4の登場
Llama 4 Scout：効率重視の軽量モデル
Llama 4 Maverick：高性能のフラッグシップ
Mixture of Experts（MoE）とは
マルチモーダル対応
使い方
1. Hugging Faceから利用する
2. APIサービス経由
まとめ

Llama 4の登場

Metaが2025年4月にLlama 4ファミリーを公開しました。Llama 3の後継として開発された次世代のオープンソースLLMで、Mixture of Experts（MoE）アーキテクチャを採用したのが最大の変更点です。

公開されたのは「Llama 4 Scout」と「Llama 4 Maverick」の2モデル。さらに大規模な「Llama 4 Behemoth」が訓練中と発表されており、段階的なリリースが予定されています。

Llama 4 Scout：効率重視の軽量モデル

Llama 4 Scoutは170億パラメータのアクティブエキスパート×16エキスパート構成のMoEモデルです。総パラメータ数は約1090億ですが、推論時にはそのうち170億パラメータ分しか使わないので、単一のH100 GPUでも動作可能という効率性が魅力的なんですよね。

注目すべきはコンテキストウィンドウの長さ。なんと1000万トークンに対応しています。これは書籍なら約30冊分に相当する長さで、長文ドキュメントの分析や大規模コードベースの理解といったタスクで威力を発揮します。

ベンチマーク的には、Gemma 3やMistral 3.1といった同規模のオープンモデルを多くのタスクで上回っているようです。

Llama 4 Maverick：高性能のフラッグシップ

Maverickはより大規模なモデルで、170億パラメータ×128エキスパートの構成。総パラメータ数は約4000億に達しますが、やはりMoEにより推論時のコストは抑えられています。

Gemini 3やGPT-4oとも競合できる性能を持ちつつ、オープンソースで提供されるのは大きなインパクトです。Qwen3.5やMiniMax M2.5とともに、オープンソースAIの選択肢がますます充実してきました。

Mixture of Experts（MoE）とは

Llama 4で初めてMoEに触れた方もいるかもしれないので、簡単に説明しておきます。

MoEは、モデル内に複数の「エキスパート」（専門家ネットワーク）を持ち、入力に応じて最も適切なエキスパートだけを活性化する仕組みです。全パラメータを毎回使う従来のDenseモデルと違い、必要な部分だけ動かすので、大きなモデルでも計算コストを抑えられます。

例えるなら、100人の専門家がいる病院で、患者の症状に合わせて2〜3人の担当医を割り当てるようなもの。全員が同時に対応するより、はるかに効率的ですよね。

マルチモーダル対応

Llama 4はネイティブマルチモーダルモデルでもあります。テキストだけでなく、画像や動画の入力にも対応。画像認識タスクでは、以前のLlama 3.2 Visionから大幅に性能が向上しています。

具体的には、ドキュメントの画像理解（OCR + レイアウト解析）やチャート・グラフの読み取り、写真の内容説明といったタスクで高いスコアを記録。マルチモーダルAIの選択肢として、プロプライエタリモデルと十分に競合できるレベルに到達しています。

使い方

Hugging Faceから利用する

Hugging Face上のMeta公式ページからモデルをダウンロードできます。ライセンスへの同意が必要ですが、研究・商用利用ともに可能です（月間アクティブユーザー7億人以上の場合は別途ライセンスが必要）。

APIサービス経由

自前でGPUを持っていなくても、Groq、Together AI、Amazon Bedrock、Azure AI Foundryなど多くのクラウドサービスがLlama 4をホストしています。API経由で手軽に試せるので、まずはそこから始めるのが現実的でしょう。

まとめ

Llama 4は、MoEアーキテクチャの採用と1000万トークンのコンテキストウィンドウという2つの大きな進化を遂げた、オープンソースLLMの新しいマイルストーンです。プロプライエタリモデルに匹敵する性能がオープンに利用できるのは、開発者にとって非常にありがたいこと。今後のBehemothの登場も含めて、目が離せないプロジェクトですね。