Gemini 3 Deep Thinkが科学ベンチマークを総なめ — Googleの推論特化AIが示す新基準

Googleが「Gemini 3 Deep Think」のアップグレード版を公開しました。科学・工学分野に特化した推論モードで、主要ベンチマークを軒並みトップスコアで塗り替えています。個人的にも試してみたので、その所感を共有させてください。

Gemini 3 Deep Thinkとは何か
ベンチマーク結果が圧倒的
実際に使ってみた印象
科学オリンピックで金メダルレベル
他のモデルとの棲み分け
まとめ
1. 参考リンク

Gemini 3 Deep Thinkとは何か

Deep Thinkは、Gemini 3をベースにした「じっくり考える」モードです。通常のGeminiが瞬時に応答を返すのに対し、Deep Thinkは複数の仮説を立てて検証するプロセスを経てから回答を出します。OpenAIのo1やClaudeのExtended Thinkingと同じ系譜にある、いわゆる推論特化型のアプローチですね。

Google AI Ultraのサブスクリプションで利用でき、開発者はVertex AIの早期アクセスプログラムからAPIを通じて使えるようになっています。

ベンチマーク結果が圧倒的

公開されたベンチマーク結果を見ると、その差は歴然としていました。ARC-AGI-2（論理推論）では84.6%を記録し、Claude Opus 4.6の68.8%、GPT-5.2の52.9%を大きく引き離しています。Codeforces（コーディング）ではElo 3,455という驚異的なスコアで、これは人間のトップ競技プログラマーに匹敵する水準でしょう。

ただし、MMMU-Pro（マルチモーダル推論）では81.5%と、Gemini 3 Pro Previewの81.0%とほぼ横並び。つまり、Deep Thinkの強みは視覚処理よりも抽象的な推論にあるということが読み取れます。

実際に使ってみた印象

物理の問題をいくつか投げてみましたが、解答プロセスが非常に丁寧です。途中で「この仮定は正しいか？」と自問自答するようなステップが含まれていて、単に答えを出すだけでなく、思考の過程が透明になっている点が好印象でした。

一方で、応答時間は通常のGeminiと比べるとかなり長くなります。簡単な質問にDeep Thinkを使うのは明らかにオーバースペックなので、用途に応じた使い分けが重要になってきます。

科学オリンピックで金メダルレベル

さらに注目すべきは、2025年の物理オリンピックと化学オリンピックで金メダルレベルの成績を収めたという点です。これまでのAIモデルが苦手としていた、複数のステップにわたる科学的推論を高い精度でこなせるようになったことを意味しています。

研究者にとっては、実験の仮説検証や論文のロジックチェックに使える実用的なツールになりつつあるのかもしれません。

他のモデルとの棲み分け

推論特化モデルの競争は激しくなる一方です。Claude Opus 4.6やGPT-5.3-Codexもそれぞれ強みがありますし、用途によってベストな選択肢は変わるでしょう。

個人的な印象としては、科学・数学系の難問ならDeep Think、コーディングならClaude Opus 4.6、汎用的な対話ならGPT-5系という棲み分けが見えてきた気がします。LLMの性能はハーネスで決まるという話もありましたが、結局は「何にどう使うか」が一番大事なんですよね。

まとめ

Gemini 3 Deep Thinkは、推論タスクにおいて現時点で最強クラスのモデルと言えそうです。特にARC-AGI-2での84.6%という数字は、AIの論理推論能力が新しいフェーズに入ったことを示しています。Google AI UltraまたはVertex AIから試せるので、科学系のタスクが多い方はぜひ一度触ってみてください。