GoogleのGemini 3 Deep Thinkが驚異的な成績を収めました。数学や物理のオリンピックで金メダル級です。さらに18の未解決問題も解いています。そこで今回は、そのベンチマーク結果を詳しく読み解きます。

Gemini 3 Deep Thinkの主要スコア

GPQA Diamondで93.8%を達成しました。GPT-5.1の88.1%を大きく上回ります。またARC-AGI-2では84.6%です。つまりClaude Opus 4.6の68.8%を15.8ポイント上回っています。

さらにHumanity’s Last Examで48.4%です。Codeforces Eloは3455に到達しました。具体的にはLegendary Grandmasterレベルです。したがって、複数分野でトップの成績を収めています。

科学オリンピックでの成績

国際物理オリンピックの記述試験で金メダル級です。また国際化学オリンピックでも同様です。さらにIMO-ProofBenchでは最大90%を記録しました。

特にIMO金メダル相当の推論力を示しました。つまりAIが人間のオリンピアンと並んだのです。しかしこれはまだ始まりに過ぎません。今後さらなる進化が見込まれます。

18の未解決問題への挑戦

Gemini 3 Deep Thinkは18個の研究問題を解きました。具体的には10年物の数学予想を反証しています。またErdos予想データベースから4問を解決しました。

さらに宇宙弦計算でも新しい物理解を導きました。加えて離散最適化への連続数学の応用にも成功です。したがって、AIが研究パートナーとして機能し始めています。

他のAIモデルとの比較

ARC-AGI-2ではClaude Opus 4.6を大幅に上回ります。またGPT-5.2とも競争できる推論能力です。さらにAletheia機能で自然言語による検証も可能です。

しかし全分野で最強ではありません。たとえばコーディングでは他モデルが優れる場合もあります。つまり用途に応じた使い分けが重要です。

科学研究への影響

このモデルは研究者を置き換えるものではありません。むしろ「力の倍増器」として機能します。具体的にはAIが検索と検証を担当します。一方で人間が創造的な指導を維持します。

実際に数学と物理の両分野で成果が出ています。そのため、研究のスピードは大幅に加速するでしょう。だからこそGemini 3 Deep Thinkは科学の転換点なのです。