AIの実力をカードゲームで測る時代が来ました。MageBenchはLLM同士がMagic: The Gathering(MTG)で対戦するベンチマークです。Gregor Stocksが開発し、XMageをベースに構築されています。つまり、AIの戦略的思考能力を実戦形式で評価できるのです。
MageBenchの仕組みとLLM対戦の流れ
MageBenchではXMageゲームサーバーが中心的な役割を果たします。具体的には、サーバーがLLMにゲーム状態を伝えます。また、可能なアクションの一覧も提示します。さらに、MCPツール経由でカード情報やルールにもアクセスできます。
LLMは提示された選択肢から行動を決定します。たとえば、魔法の使用や戦闘の判断を行います。なお、サーバーが合法な行動のみをフィルタリングします。そのため、ルール違反は発生しません。しかし、戦略の巧拙はLLMの能力に直結します。
MTGがLLMベンチマークに最適な理由
なぜMTGがベンチマークに向いているのでしょうか。まず、隠れた情報があります。相手の手札が見えないため、推論能力が問われます。また、ターンごとに複数の決定ポイントが存在します。特に、300ターンを超える長期戦もあり得ます。
さらに重要なのは「暗記できない」点です。したがって、従来のベンチマークのような飽和が起きにくいのです。加えて、カードの説明が自然言語で書かれています。このように、言語理解と戦略的判断の両方を評価できます。だからこそ、LLMの総合力を測る指標として注目されています。
現在の評価結果と今後の展望
現時点ではGeminiが最良のパフォーマンスを示しています。実際、コスト効率も含めた総合評価で高い成績です。一方、GPT-4oなどのモデルはまだ評価途上です。しかし、どのLLMも競技プレイヤーのレベルには達していません。
特にマリガン判断やリソース管理に課題があります。とはいえ、CommanderやStandardなど複数フォーマットに対応しています。それでも、AIのゲーム戦略能力は着実に向上しています。むしろ、数年後には人間を超える可能性もあるかもしれません。
