Step 3.5 Flashの概要

2026年2月、中国のAIスタートアップStepFunが「Step 3.5 Flash」をオープンソースで公開しました。196Bパラメータという規模ながら、GPT-5.2やClaude Opus 4.5といったプロプライエタリモデルに匹敵するベンチマークスコアを叩き出しているのが注目ポイントですね。

ただし、パラメータ数だけ見ると巨大に思えるかもしれません。実際にはMixture of Experts(MoE)アーキテクチャを採用していて、1トークンあたり11Bしか活性化しないんですよね。つまり、推論時の計算コストは見た目よりずっと軽いということです。

MoEアーキテクチャによる「知能密度」の高さ

MoEは、モデル内部に複数の「エキスパート」モジュールを持ち、入力に応じて最適なエキスパートだけを選択的に活性化する手法です。Step 3.5 Flashでは196B中の11Bだけが動くため、「知能密度」が極めて高いと言えます。

一方で、DeepSeek V3.2は671B、Kimi K2.5は1Tパラメータと、競合モデルはStep 3.5 Flashの数倍の規模があります。それでもベンチマーク平均スコア81.0はGemini 3.0 Pro(80.7)やClaude Opus 4.5(80.6)を上回っていて、かなり効率的なモデルだと感じました。

3-way Multi-Token Predictionで高速生成

Step 3.5 Flashの特徴的な技術の一つが「MTP-3(3-way Multi-Token Prediction)」です。従来のLLMは1回の推論で1トークンを生成しますが、MTP-3では同時に複数トークンの予測を行うことで、生成スループットが100〜300トークン/秒に達します。

コーディングタスクの単一ストリームでは最大350トークン/秒というのは、リアルタイムのエージェント用途を意識した設計だと思います。チャットボットは「読む」ためのものですが、エージェントは「素早く考える」必要がありますからね。

コーディング・エージェントタスクでの性能

実用面で気になるのはコーディング性能でしょうか。Step 3.5 FlashはSWE-bench Verifiedで74.4%、Terminal-Bench 2.0で51.0%を達成しています。SWE-benchは実際のGitHubイシューを解決するベンチマークで、この数値はGLM-4.7(73.8%)やDeepSeek V3.2(73.1%)を上回っています。

また、スケーラブルなRL(強化学習)フレームワークを統合しており、長期的なタスクでも安定して動作するよう設計されているそうです。エージェント用途を明確に意識したモデルだなという印象を受けました。

256Kコンテキストウィンドウの効率的な実装

コンテキストの長さも重要なポイントです。Step 3.5 Flashは256Kトークンのコンテキストウィンドウをサポートしていますが、その実装にも工夫があります。

3:1のSliding Window Attention(SWA)比率を採用していて、3層のSWAレイヤーに対して1層のフルアテンションレイヤーという構成になっています。これにより、長いコードベースや大量のデータを扱う際の計算オーバーヘッドを大幅に削減しつつ、一貫した性能を維持できるんですよね。

ローカル環境での実行が可能

オープンソースモデルの大きな利点は、自分の環境で動かせることです。Step 3.5 Flashは、Mac Studio M4 MaxやNVIDIA DGX Sparkといったハイエンドのコンシューマーハードウェアで動作するよう最適化されています。

データプライバシーを確保しながらフロンティアレベルの性能を得られるのは、企業での利用を考えると大きなメリットかもしれません。OllamaのようなローカルLLM実行環境と組み合わせれば、比較的手軽に試せそうです。

他のオープンソースモデルとの比較

2026年のオープンソースAI市場は激戦です。DeepSeek V4やGLM-4.7、Kimi K2.5といった中国発のモデルが次々と登場しています。

Step 3.5 Flashのユニークな立ち位置は、「フロンティア性能をコンパクトなアクティブパラメータ数で実現している」点だと思います。推論コストの低さは、大規模にデプロイする際のコスト面で大きなアドバンテージになりそうです。

ただし、ベンチマーク上のスコアと実際の使い勝手は別物ということは覚えておきたいところです。特にエージェントタスクでは、長時間にわたる安定性や、エラーハンドリングの品質が問われます。

まとめ

Step 3.5 Flashは、MoEアーキテクチャとMTP-3による高速生成、効率的な長コンテキスト処理を組み合わせた意欲的なオープンソースモデルです。196Bパラメータの中から11Bだけを使って、GPT-5.2に迫る性能を出すという設計思想は、今後のAIモデル開発のトレンドを示唆しているように感じました。

エージェント時代に求められる「速く考え、安定して動く」という要件に正面から取り組んでいるモデルとして、今後の発展が楽しみですね。公式サイトで詳細なベンチマーク結果を確認できるので、興味のある方は覗いてみてください。

参考リンク: