GPT-5が法的推論テストで驚異的なスコアを出しました。しかし、この数字を鵜呑みにしていいのでしょうか。ベンチマーク結果と現場での使い勝手は別物です。そこで今回は、GPT-5の法的推論テスト結果を現場目線で正しく読む方法を解説します。
GPT-5の法的推論テスト結果の概要
GPT-5は2025年8月にリリースされました。法的推論のベンチマークでは84.6%の精度を記録しています。つまり、62モデル中トップのスコアです。さらにHarvey社のBigLaw Benchでは89.22%を達成しました。しかし、この数字だけで判断するのは早計です。
また、LEXamという340の法律試験を使った評価でも高成績でした。実際、前世代のo3を5ポイント以上上回っています。しかしベンチマークにはいくつかの限界があります。そのため、結果の背景を理解することが重要です。
ベンチマークスコアの限界と注意点
まず、ベンチマークは定型的な問題が中心です。つまり、選択式や短答式のテストが多くを占めます。しかし、実際の法務業務は自由記述の連続です。さらに、事実関係の整理や証拠の評価はベンチマークに含まれません。そのため、スコアと実務能力は直結しません。
また、ベンチマークは英米法が中心です。日本法に関するテストはほとんど含まれていません。つまり、日本の法務現場では参考程度にとどめるべきです。さらに、モデルの知識カットオフも問題になります。たとえば最新の判例はテスト時点で含まれていない可能性があります。
GPT-5の法的推論テストを現場でどう活用するか
現場での活用にはいくつかのアプローチがあります。まずリサーチの補助ツールとしてです。判例の検索や法律条文の解説には有効です。しかし、最終的な法的判断は人間が行うべきです。つまり、AIは下調べの効率化に使うのが現実的です。
また、契約書のドラフト作成にも使えます。たとえば、定型的な条項のたたき台を作成させる用途です。さらに、リスク条項のチェックリスト作成も得意な分野です。しかし、出力内容の正確性は必ず人間が確認しましょう。実際、AIが自信を持って誤った法律解釈を出すケースもあります。
法務現場でのAI活用のベストプラクティス
法務現場でAIを使う際のポイントを整理します。まず、AIの出力は必ずダブルチェックしましょう。特に法律の引用は正確性の確認が必須です。また、機密情報の取り扱いにも注意が必要です。そのため、クラウド型AIに顧客情報を入力することは避けるべきです。
さらに、AIの活用範囲を明確にすることも大切です。つまり、「何にAIを使い、何に使わないか」を事前に決めておきます。たとえばリサーチとドラフト作成にはAIを使います。しかし、法的助言の最終判断には使わないといったルールです。実際、海外の法律事務所ではこうしたガイドラインの策定が進んでいます。
まとめ
GPT-5の法的推論テスト結果は確かに印象的です。しかし、ベンチマークスコアと実務能力は別物です。特に日本法の文脈では参考程度にとどめるべきです。現場では下調べやドラフト作成の補助ツールとして活用するのが効果的です。AIの出力は必ず人間が検証する体制を維持しましょう。