Critique

J'ai remplace mon modele local de code par Step 3.5 Flash

AAnonymous
4 min de lecture

Introduction

J'ai tendance a tester les nouveaux modeles, surtout lorsqu'ils semblent plus forts pour le code. Cette fois-ci, j'ai essaye Step 3.5 Flash.

Je prefere preciser un point d'emblee: je ne fais pas l'essentiel de mon codage quotidien avec des modeles locaux. Mon flux principal repose encore sur des modeles commerciaux, et les modeles locaux ressemblent davantage a quelque chose que je teste via Cline chaque fois qu'un nouveau modele interessant sort.

Apres avoir fait tourner plusieurs modeles sur un Mac Studio M3 Ultra, j'en suis arrive a une conclusion tres simple: si l'on veut utiliser un LLM pour coder, la vitesse compte enormement. Au-dessus de 50 tok/s, l'experience devient assez confortable, mais en dessous de 30 tok/s, elle devient vite frustrante.

Cet article n'est pas une longue lecture de benchmarks. Je veux simplement expliquer pourquoi ce modele a attire mon attention, ce qui m'a plu quand je l'ai utilise comme modele local de code, et jusqu'ou je serais pret a le recommander.

Pourquoi Step 3.5 Flash

Avant cela, je separais mes usages entre MiniMax M2.1 pour le code et GLM 4.7 pour les taches plus generales. Aucun des deux n'etait mauvais, mais pour le travail de code je voulais encore un peu plus de stabilite dans les sorties et une sensation de rapidite un peu meilleure.

C'est la que Step 3.5 Flash de StepFun a commence a m'interesser. D'apres sa fiche officielle, il utilise une architecture MoE de 196B, active 11B parametres pendant l'execution, prend en charge un contexte de 256K et est distribue sous licence Apache 2.0. Il affichait aussi de tres bons resultats sur des taches de code, par exemple 74.4% sur SWE-bench Verified.

Je ne choisis pas un modele uniquement a partir de chiffres de benchmark. Ce qui m'a surtout marque, c'est la stabilite du code produit pendant les tests. Sur des taches simples, il m'a meme donne une impression suffisamment bonne pour etre compare a Sonnet 4.5.

Ce qui m'a plu en pratique

La premiere chose, c'est que le code s'est montre relativement stable.

Des taches qui demandaient auparavant une ou deux explications supplementaires ont commence a se terminer avec des consignes plus courtes. Je l'ai trouve particulierement solide sur le code structure, la separation propre des fonctions et les situations ou la tenue des types compte vraiment.

Le deuxieme point, c'est que son comportement linguistique m'a beaucoup plus plu.

Parmi les modeles locaux de code que j'avais essayes auparavant, MiniMax etait celui que je preferais. Mais ce modele faisait apparaitre des caracteres chinois tres souvent, et son coreen etait lui aussi assez decevant. Step 3.5 Flash, au contraire, traite le coreen de maniere bien plus naturelle et ne laisse presque jamais surgir de caracteres chinois au milieu du resultat.

Ce qui m'a paru le plus singulier, c'est qu'il effectue l'essentiel de son raisonnement dans la langue de l'entree. J'ai eu l'impression de voir pour la premiere fois un modele qui suit a ce point la langue de l'utilisateur pendant le raisonnement.

Le troisieme point, c'est qu'il m'a paru plus facile a garder en usage local que je ne l'imaginais.

La communication officielle parle d'un debit eleve du cote API, mais une machine locale ne reproduit evidemment pas ces chiffres a l'identique. Dans mon environnement, il tourne nettement plus lentement. Malgre cela, pour les petites corrections et la generation repetee de code, la sensation etait plus proche de "je peux le laisser ouvert" que de "je le supporte a peine".

Ce n'est pas un modele universel

Je ne recommanderais pas ce modele pour tous les usages.

Pour des taches plus larges, comme la conversation generale ou l'ecriture creative, d'autres modeles peuvent encore mieux convenir. Step 3.5 Flash m'a davantage donne l'impression d'un modele tres clair sur ce qu'il sait bien faire que d'un modele capable de tout couvrir a lui seul.

Il faut aussi regler ses attentes.

Sur Mac, surtout, le prefill est tout simplement trop lent. Plus le contexte s'allonge, plus l'attente avant la premiere reponse utile devient evidente, et a ce stade il est tres difficile d'approcher la productivite d'outils commerciaux, en particulier d'un flux centre sur Claude Code.

Un autre point faible etait la quantite de tokens qu'il semblait depenser pour le raisonnement. Meme sur des taches relativement simples, il lui arrivait de produire un raisonnement plus long que prevu, ce qui donnait une impression de moindre efficacite a la fois sur la vitesse percue et sur le cout total en tokens.

C'est pour cela que je le vois moins comme un remplacement de mon environnement principal de code que comme un modele que je branche a Cline pour comprendre un nouveau lancement. Il fonctionne assez bien sur des boucles courtes et repetitives d'ecriture, de correction ou de refactorisation de code, mais si on attend de lui qu'il porte le flux principal de developpement, la limite apparait vite.

Pour qui cela a du sens

Je pense qu'il vaut la peine d'etre essaye dans des cas comme ceux-ci.

  • des developpeurs qui cherchent un modele local centre sur le code
  • des equipes qui veulent plus de confidentialite avec des modeles open-weight
  • des workflows qui ont besoin d'un modele pour generer ou modifier du code
  • des environnements ou il est utile de separer un modele de code d'un modele generaliste

Si vous voulez un seul modele pour l'ecriture creative, la conversation et les longs textes, il risque de ne pas correspondre a cette attente.

Conclusion

Parmi les modeles locaux de code que j'ai essayes recemment, Step 3.5 Flash m'a laisse une tres bonne impression.

Ce n'est pas un modele parfait pour tout faire, mais si le critere est "un modele open-weight concentre sur le code", c'est une option que je recommande assez facilement.

Si vous etes en train de monter un environnement local pour coder et que votre modele actuel vous semble un peu entre deux, Step 3.5 Flash merite clairement une place parmi les candidats a tester. En tout cas, pour moi, c'est devenu celui que je rallume en premier parmi les options locales recentes.