オープンソースAIモデルの競争が激化しています。その中で注目を集めているのがStep 3.5 Flashです。総パラメータ数は196Bという大規模モデルです。しかし、推論時にはわずか11Bしか使いません。つまり、巨大な知識を持ちながら高速に動作します。そこで今回は、このモデルの仕組みと実力を整理します。

Step 3.5 Flashのアーキテクチャ

採用しているのはMixture of Experts(MoE)アーキテクチャです。全196Bのパラメータのうち各トークンで11Bのみ活性化します。したがって、演算コストは11Bモデル並みです。しかし、知識量は196Bモデルと同等です。

さらに、MTP-3という技術を搭載しています。これは3方向マルチトークン予測の略です。具体的には、1回の推論で複数トークンを同時に生成します。その結果、生成速度は毎秒100〜300トークンに達します。特に、ピーク時には350トークン/秒も記録しています。つまり、速度面でも商用モデルに匹敵します。

ベンチマークでの実力

Step 3.5 Flashは多くのベンチマークで好成績を収めています。まず、コーディングタスクで高い評価を得ています。また、数学的推論能力も優秀です。さらに、多言語対応も強みの一つです。

具体的には、一部のベンチマークでGPT-4oやClaude系モデルに匹敵しています。しかし、すべてのタスクで上回っているわけではありません。なぜなら、MoEアーキテクチャの特性上、活性化パラメータが少ないからです。つまり、複雑な推論では大規模密モデルに劣る場合があります。実際、用途に応じた使い分けが重要です。

オープンソースモデルとしての意義

Step 3.5 Flashがオープンソースであることの意義は大きいです。まず、誰でもダウンロードして使えます。また、ファインチューニングも可能です。さらに、商用利用も許可されています。

特に、コスト面でのメリットが際立ちます。なぜなら、APIコストなしで推論を実行できるからです。しかし、運用には相応のGPUリソースが必要です。つまり、セルフホスティングのコストとの比較が重要です。なお、vLLMやTGIでの推論にも対応しています。実際、多くの企業がオンプレミスでの活用を検討しています。

Step 3.5 Flashの活用シーン

いくつかの活用シーンが考えられます。まず、大量のテキスト処理に適しています。また、リアルタイム対話システムにも使えます。さらに、コード生成やレビューにも有効です。

具体的には、カスタマーサポートのチャットボットに最適です。しかし、高度な専門知識が必要な場面では限界があります。つまり、タスクの複雑さに応じた選択が求められます。特に、MoEの特性を活かせる並列処理シーンで真価を発揮します。このように、適材適所の運用が成功の鍵です。

まとめ

Step 3.5 Flashは196Bパラメータのオープンソースモデルです。しかし、MoEアーキテクチャで11Bの推論コストに抑えています。特に、速度と知識量のバランスが優れています。また、オープンソースなので柔軟な活用が可能です。実際、商用モデルに匹敵する性能がオープンソースで手に入る時代になっています。