レビュー

ローカルのコーディングモデルをStep 3.5 Flashに替えてみました

AAnonymous
4分で読めます

はじめに

私は新しいモデル、特にコーディングに強そうなモデルが出ると、いろいろ試してみます。今回は Step 3.5 Flash を使ってみました。

ただ前提として、私はローカルモデルで日常のコーディングを長時間こなしているわけではありません。主力は今も商用モデルで、ローカルモデルは新しいモデルが出るたびに Cline につないで試す用途に近いです。

Mac Studio M3 Ultraで複数のモデルを動かしてみて感じたのは、LLMをコーディングに使うなら速度がとても重要だということです。50 tok/s を超えるとかなり快適ですが、30 tok/s を下回ると一気に厳しく感じます。

この記事はベンチマーク表を長く解説する記事ではありません。このモデルがなぜ気になったのか、ローカルのコーディングモデルとして実際に使ってみて何が良かったのか、そしてどこまで勧められるのかを軽く整理してみます。

なぜStep 3.5 Flashだったのか

それまではコーディング用に MiniMax M2.1、汎用作業に GLM 4.7 を分けて使っていました。どちらも悪くはありませんでしたが、コーディングではもう少し安定した出力と、もう少し速い処理感が欲しかったです。

そこで目に入ったのがStepFunの Step 3.5 Flash でした。公式モデルカードによると、このモデルは 196B 規模の MoE 構造で、実行時に有効になるのは 11B、コンテキスト長は 256K です。ライセンスは Apache 2.0 で、SWE-bench Verified 74.4% のようにコーディング系の指標もかなり強く出ています。

もちろん、私はベンチマークの数字だけでモデルを選ぶわけではありません。ただ、Step 3.5 Flashは実際に試すと生成されるコードの安定感がかなり良く、簡単な作業では Sonnet 4.5 と比べてもかなり良い手応えがありました。

実際に使って良かった点

まず、コードが比較的安定していました。

前は一度では合わず、追加で何度か説明が必要だった作業が、もう少し短い指示で終わることが増えました。特に、構造のあるコード、関数の切り分け、型を揃えるような基本が大事な場面で、かなりしっかりしていると感じました。

次に、言語まわりの挙動がかなり良かったです。

これまで試したローカルのコーディングモデルの中では、MiniMaxをいちばん好んでいました。ただ、このモデルは中国語の漢字がかなり頻繁に混ざりますし、韓国語の出来もかなり物足りませんでした。反対に、Step 3.5 Flash は韓国語をずっと自然に扱えますし、中国語の漢字が不意に出てくることもほとんどありませんでした。

特に面白かったのは、推論の大部分を入力した言語のままで処理する点です。このくらい入力言語に合わせて推論を進めるモデルは初めてかもしれないと感じるほどでした。

三つ目は、ローカルでも思ったより常用しやすかったです。

公式の紹介ではAPI側の高い処理量が語られていますが、ローカル環境では当然その数字がそのまま出るわけではありません。私の環境でも実際の速度はそれよりかなり低いです。それでも短いコード修正や反復的な生成では、「使えない」より「このくらいなら普段から立ち上げておける」に近い感触でした。

ただし万能ではありません

このモデルをすべての用途に勧めるつもりはありません。

一般的な会話や創作のように、広く柔らかい応答が必要な作業では、まだ他のモデルのほうが合うこともあります。Step 3.5 Flashは何でも一つでこなすモデルというより、得意な仕事がはっきりしているモデルに近いと感じました。

もう一つ大事なのは期待値の調整です。

特にMacでローカル実行すると、prefill がかなり遅いです。コンテキストが長くなるほど最初の応答までの待ち時間がはっきり重くなり、この点では商用モデル、特に Claude Code を軸にした作業の生産性には到底届きません。

もう一つ気になったのは、推論に使うトークンがかなり多いことでした。簡単な作業でも思ったより長く推論する場面があり、体感速度だけでなく全体のトークン消費という意味でも少しもったいなく感じました。

だから私はこれを主力のコーディング環境の代替というより、新しいモデルが出たときに Cline でつないで性格を確かめるためのモデルとして見ています。短いコード作成、修正、リファクタリング補助のような反復的な流れでは十分使えますが、これで日常のコーディングを全部こなそうとすると、限界はかなり早く見えてきます。

どんな人に向いているか

私は次のようなケースなら一度試してみる価値があると思います。

  • ローカルでコーディング専用モデルを探している開発者
  • オープンウェイトでプライバシーも意識したいチーム
  • コード生成や修正パイプラインに組み込むモデルが欲しい場合
  • 汎用モデルとは別にコーディングモデルを分けて使いたい場合

反対に、創作、会話、長いエッセイまで一つのモデルで全部済ませたいなら、期待とは少し違うかもしれません。

まとめ

最近試したローカルのコーディングモデルの中では、Step 3.5 Flashはかなり印象が良かったです。

完璧な万能モデルではありませんが、「コーディングに集中したオープンウェイトモデル」という基準で見るなら、十分に勧められる選択肢でした。

ローカルのコーディング環境を整えていて、今のモデルが少し中途半端だと感じているなら、Step 3.5 Flashは一度切り替えてみる価値のある候補だと思います。少なくとも私にとっては、最近のローカルコーディングモデルの中で最初にもう一度立ち上げたくなるモデルになりました。