MageBenchとは何か

MageBenchは、大規模言語モデル(LLM)にMagic: The Gathering(MTG)を実際にプレイさせて、その戦略的推論能力を測定するベンチマークです。2026年2月にHacker Newsで話題になり、AI研究者やカードゲーマーの両方から注目を集めています。

従来のAIベンチマークはコーディングや数学問題が中心でしたが、MageBenchは「複雑なルールの理解」「不完全情報下での意思決定」「長期的な戦略立案」というLLMの弱点を突くアプローチを取っています。これがかなり面白いんですよね。

MageBenchの技術的な仕組み

MageBenchは、オープンソースのMTGシミュレーターXMageをフォークして構築されています。XMageのゲームサーバーがルールエンジンとして機能し、各LLMに現在のゲーム状態と選択可能なアクションを提示します。

ポイントは、ルールの簡略化をしていないことです。MTGは世界で最も複雑なカードゲームの一つで、スタック、優先権、フェイズ、特殊能力など、膨大なルールが存在します。LLMはこれらを全て理解した上で最適なプレイを選ぶ必要があります。

対応フォーマットも幅広く、Commander、Standard、Modern、Legacyの4種類で対戦できます。各フォーマットで使えるカードプールやルールが異なるため、LLMの汎用的な理解力が試されることになります。

ゲームの流れ

  1. LLMにデッキが割り当てられる
  2. マリガン(手札の引き直し)判断
  3. 毎ターン、利用可能なアクションのリストが提示される
  4. LLMがアクションを選択し、ゲームエンジンが実行
  5. 勝敗が決まるまで繰り返し

戦闘フェイズでのアタッカー/ブロッカーの選択や、インスタントタイミングでの呪文使用など、判断ポイントは1ゲームで数十〜数百回に及びます。

リーダーボードの分析(2026年2月17日時点)

132試合のレーティングデータを見ると、興味深い結果が出ています。

  • 1位:Gemini 3 Flash(Google)— レーティング1715、勝率100%(8試合)。コスト$1.40と効率的
  • 2位:Grok 4 Fast(X-AI)— レーティング1702、勝率88.9%。ブランダーインデックス1.59
  • 3位:DeepSeek V3.2— レーティング1686、勝率87.5%。コスト$0.52とコスパ最強クラス
  • 4位:Claude Sonnet 4.5(Anthropic)— レーティング1657、勝率70%。コスト$5.15と高めだがミス少なめ
  • 5位:MiMo V2 Flash(Xiaomi)— レーティング1640。中国勢の健闘が光る

面白いのは、高価格モデルが必ずしも強くない点です。Claude Opus 4.6はブランダーインデックス0.40(ミスが少ない)にもかかわらず勝率60%にとどまっています。コスト$9.93は全モデル中最高額で、「慎重すぎるプレイ」が裏目に出ている可能性がありそうです。

ブランダーインデックスとは

MageBench独自の指標で、LLMが明らかな判断ミス(ブランダー)をどれだけ犯すかを数値化したものです。チェスの世界で使われる概念をカードゲームに応用しています。

数値が低いほどミスが少ないことを意味しますが、先ほどのClaude Opus 4.6のように、ミスが少なくても勝率が低いケースがあります。MTGでは時にリスクを取った攻めが必要で、「ミスを避ける」だけでは勝てないということですね。これはなかなか示唆的だなと感じました。

なぜMTGがAIベンチマークとして優れているのか

MTGがLLM評価に適している理由は複数あります。

まず、不完全情報ゲームであること。相手の手札は見えないため、推測と確率的判断が求められます。チェスや囲碁のような完全情報ゲームとは根本的に異なる能力が試されるわけです。

次に、ルールの複雑さ。MTGのルールブックは200ページ超で、特殊なカード同士の相互作用は無限に近いパターンがあります。ルールを「暗記」するだけでなく、応用的に理解する力が必要になります。

そして、マルチモーダルな判断。マナ管理(リソース計画)、盤面評価、相手の戦略予測、デッキの残りカード推定など、複数の情報を統合して意思決定する必要があります。

今後の展望

MageBenchはGitHubでオープンソース公開されており、誰でも新しいモデルを追加してテストできます。試合数がまだ少ない(132試合)ため、レーティングの信頼性は今後のデータ蓄積で向上していくでしょう。

カードゲームという一見ニッチな分野ですが、不完全情報下での戦略的推論はビジネスや軍事シミュレーションにも通じる能力です。MageBenchのようなベンチマークが増えることで、LLMの「本当の知性」をより多角的に評価できるようになるのではないかと思います。

関連リンク