複雑な学術タスクや推論が得意な生成AIモデル「o1」

2024年9月12日、OpenAIは2つの主要な新しいプレビューモデル「o1-preview」と「o1-mini」をリリースしました。単純にGPT-4oの次のステップアップというわけではありません。改善された「推論」能力と引き換えに、コストとパフォーマンスの面で大きなトレードオフが導入されています。

https://openai.com/index/introducing-openai-o1-preview/

o1はチェーン・オブ・ソートのために訓練されたモデル

「私たちは、応答する前により多くの時間を費やして考えるように設計された新しいAIモデルシリーズを開発しました。」

これらの新しいモデルの考え方の一つは、チェーン・オブ・ソートプロンプティングパターンの特殊な拡張として捉えることです。2022年5月の論文「Large Language Models are Zero-Shot Reasoners」で初めて紹介されました。

OpenAIの記事「Learning to Reason with LLMs」では、新しいモデルがどのように訓練されたかを説明しています。

「私たちの大規模な強化学習アルゴリズムは、非常にデータ効率の高い訓練プロセスで、チェーン・オブ・ソートを使って生産的に考える方法をモデルに教えます。o1のパフォーマンスは、より多くの強化学習(訓練時の計算)とより多くの思考時間(テスト時の計算)で一貫して向上することがわかりました。このアプローチをスケーリングする際の制約は、LLMの事前訓練とは大きく異なり、私たちはそれらを引き続き調査しています。」

o1の主な特徴

新しいモデルとはいえ、画像入力、関数呼び出し、一貫して高速な応答時間が必要なアプリケーションは引き続きGPT-4oとGPT-4o miniモデルが引き続き適切な選択肢です。
しかし、深い推論を必要とするもの。ほかには長い応答時間を許容できるアプリケーションを開発する場合。これらにはo1モデルが優れた選択肢となる可能性があります。
具体的には要件定義など創造的ドキュメントなどがいいかもしれません。

主なポイントは以下の通りです。

  1. o1-previewとo1-miniのAPI利用は現在tier 5に限定です。つまりAPIクレジットに少なくとも1,000ドルを費やす必要があります。(以下で再度まとめます)
  2. システムプロンプトのサポートはありません。つまりユーザーとアシスタントのメッセージのみを送信できます。
  3. ストリーミングサポート、ツール使用、バッチ呼び出し、画像入力もサポートされていません。つまりマルチモーダルではありません。
  4. モデルが問題を解決するために必要な推論の量に応じて、数秒から数分の回答時間がかかる可能性があります。

最も興味深いのは、「推論トークン」の導入です。推論トークンはAPI応答では見えませんが、出力トークンとして請求されカウントされるトークンです。

o1の隠された推論トークン

推論トークンの重要性により、OpenAIは新しいモデルの恩恵を受けるプロンプトに対して約25,000トークンの予算を割り当てることを提案しています。そのため、出力トークンの許容量が大幅に増加しました。o1-previewでは32,768トークン。o1-miniでは65,536トークンです。
これはgpt-4o-miniの出力トークン16,384から大幅にふえました。

ただ、これらの推論トークンの詳細はAPIで見えないままであることです。そのため、請求はされますがそれらが何だったかを見ることはできません。

「忠実で読みやすいと仮定すると、隠れたチェーン・オブ・ソートを使用することで、モデルの「心を読む」ことができ、その思考プロセスを理解することができます。例えば、将来的にはチェーン・オブ・ソートをモニタリングして、ユーザーを操作する兆候がないかを確認したいかもしれません。しかし、これが機能するためには、モデルが自由に思考を変更されずに表現できる必要があります。そのため、チェーン・オブ・ソートにポリシーコンプライアンスやユーザー設定を訓練することはできません。また、整列していないチェーン・オブ・ソートをユーザーに直接表示したくありません。」

ユーザーエクスペリエンス、競争上の優位性、チェーン・オブ・ソートモニタリングを追求するオプションなど、複数の要因を考慮。その結果、生のチェーン・オブ・ソートをユーザーに表示しないとのことです。

o1発表内容(日本語訳)

日本語訳

こんにちは。

本日、私たちは新しいモデルシリーズ「OpenAI o1」を発表しました。これらのモデルは、応答する前により多くの時間を考えることができるように開発されました。科学、コーディング、数学において、以前のモデルよりも複雑なタスクを推論し、より難しい問題を解決することができます。詳細は当社のブログ記事をご覧ください。

ChatGPT Plusでo1ベータ版をお試しいただけます。現在、2つのモデルを展開しています

  • より大規模なモデル「o1-preview」は、強力な推論能力と幅広い世界知識を持っています。
  • より小規模なモデル「o1-mini」は、より高速で、コーディングタスクにおいてはo1-previewと競争力があります(その性能はこちらでご覧いただけます)。

この短期間のベータ期間中、これらのモデルはお客様のアカウントのAPIではご利用いただけません(使用量ティア5の開発者の方々はアクセスできますが、今後より多くのティアに拡大する予定です)。私たちはo1の改善を続けており、APIでご利用いただけるようになり次第、ご連絡いたします。

敬具 OpenAIチーム

o1のAPI利用:Tierについて


APIで利用するためには利用料金に応じたランクがつけられます。

TierQualificationUsage limits
FreeUser must be in an allowed geography$100 / month
Tier 1$5 paid$100 / month
Tier 2$50 paid and 7+ days since first successful payment$500 / month
Tier 3$100 paid and 7+ days since first successful payment$1,000 / month
Tier 4$250 paid and 14+ days since first successful payment$5,000 / month
Tier 5$1,000 paid and 30+ days since first successful payment$50,000 / month
https://platform.openai.com/docs/guides/rate-limits/usage-tiers?context=tier-five

今回のこのTier 5でないとAPIアクセスはできないとのことです。日本円で14万ほどなので普通にはなかなか届かない金額です。

o1のAPI料金について

もし今APIがつかえる場合の料金は以下の通りです。

o1-APIprice

o1料金ページ:https://openai.com/api/pricing

o1まとめ

正直制限多いですし、どのように使うかがまだちょっと難しいなという印象です。はやくいろいろな制限解放されてくれることを願います。ただそのころにはClaude 3.5 Opusが出てくる可能性も高いです。
今後もGPT-4o(およびClaude 3.5 Sonnet)を使い続けます。ただ、このレベルのモデルを考慮に入れて、LLMを使用してどのような種類のタスク使っていくかは幅が広がりそうです。