Cambie mi modelo local de codigo a Step 3.5 Flash
Introduccion
Suelo probar los modelos nuevos cuando parece que llegan especialmente fuertes para programar. Esta vez, el que probe fue Step 3.5 Flash.
Pero quiero dejar una premisa clara: no hago la mayor parte de mi programacion diaria con modelos locales. Mi flujo principal sigue apoyandose en modelos comerciales, y los modelos locales se parecen mas a algo que pruebo con Cline cada vez que aparece un lanzamiento interesante.
Despues de ejecutar varios modelos en un Mac Studio M3 Ultra, me quedo una idea bastante clara: si quieres usar un LLM para programar, la velocidad importa muchisimo. Por encima de 50 tok/s la experiencia se siente bastante comoda, y por debajo de 30 tok/s empieza a volverse frustrante muy rapido.
Esta no es una publicacion larga de benchmarks. Solo quiero explicar por que este modelo me llamo la atencion, que cosas me gustaron al usarlo como modelo local de codigo y hasta donde de verdad lo recomendaria.
Por que Step 3.5 Flash
Antes de esto estaba separando el uso entre MiniMax M2.1 para codigo y GLM 4.7 para tareas mas generales. Ninguno era malo, pero para programar seguia echando de menos salidas un poco mas estables y una sensacion de trabajo un poco mas rapida.
Ahi fue donde me llamo la atencion Step 3.5 Flash de StepFun. Segun su model card oficial, usa una arquitectura MoE de 196B, activa 11B parametros en ejecucion, admite una ventana de contexto de 256K y esta publicado bajo licencia Apache 2.0. Tambien mostraba numeros fuertes en tareas de codigo, como 74.4% en SWE-bench Verified.
No elijo modelos solo por los numeros de benchmark. Lo que realmente me llamo la atencion fue lo estable que se sentia el codigo generado durante las pruebas. En tareas simples, incluso llego a darme una sensacion lo bastante buena como para compararlo con Sonnet 4.5.
Lo que mas me gusto al usarlo
Lo primero fue que el codigo se sintio relativamente estable.
Tareas que antes necesitaban una o dos rondas extra de explicacion empezaron a cerrarse con instrucciones mas cortas. Me dio una sensacion especialmente solida en codigo con estructura, separacion de funciones y trabajos donde mantener bien los tipos importa bastante.
Lo segundo fue que su comportamiento con los idiomas me gusto bastante mas.
Entre los modelos locales de codigo que habia probado antes, MiniMax era el que mas me gustaba. Pero ese modelo mezclaba caracteres chinos con demasiada frecuencia y su coreano tambien me parecia bastante flojo. Step 3.5 Flash, en cambio, maneja el coreano mucho mejor y casi nunca lanza caracteres chinos de forma inesperada.
Lo que mas raro y curioso me resulto fue que hace la mayor parte del razonamiento en el mismo idioma de entrada. No recuerdo haber visto antes un modelo que siguiera el idioma de entrada con tanta constancia durante el razonamiento.
Lo tercero fue que en local se sintio mas util de lo que esperaba.
La presentacion oficial habla de throughput alto del lado de la API, pero una maquina local obviamente no reproduce esos numeros tal cual. En mi entorno corre bastante mas lento. Aun asi, para ediciones cortas y generacion repetida de codigo, la sensacion estuvo mas cerca de "puedo dejarlo encendido" que de "solo lo tolero".
No es un modelo para todo
No recomendaria este modelo para cualquier tipo de trabajo.
Para tareas mas amplias, como conversacion general o escritura creativa, otros modelos pueden seguir encajando mejor. Step 3.5 Flash se siente mas como un modelo con fortalezas muy claras que como uno capaz de cubrir todo por si solo.
Tambien importa ajustar las expectativas.
En Mac, en particular, el prefill es demasiado lento. Cuanto mas largo es el contexto, mas evidente se vuelve la espera antes de la primera respuesta util, y en ese punto es muy dificil acercarse a la productividad de herramientas comerciales, especialmente de un flujo centrado en Claude Code.
Otro punto flojo fue la cantidad de tokens que parece gastar en el razonamiento. Incluso en tareas relativamente simples, a veces razonaba mas de lo esperado, y eso hacia que tanto la velocidad percibida como el coste total de tokens se sintieran menos eficientes.
Por eso lo veo menos como un reemplazo de mi entorno principal de programacion y mas como un modelo que pruebo a traves de Cline para entender un lanzamiento nuevo. Funciona bastante bien para ciclos cortos y repetidos de escribir, editar o refactorizar codigo, pero si esperas que cargue con tu flujo principal de programacion, el limite aparece muy rapido.
Para quien tiene sentido
Creo que vale la pena probarlo en casos como estos.
- desarrolladores que buscan un modelo local centrado en codigo
- equipos que quieren mas privacidad con modelos open-weight
- flujos que necesitan un modelo para generacion o edicion de codigo
- setups donde conviene separar un modelo de codigo de uno generalista
Si quieres un solo modelo para escritura creativa, conversacion y textos largos, tal vez no encaje con esa expectativa.
Cierre
Entre los modelos locales de codigo que probe recientemente, Step 3.5 Flash me dejo una impresion bastante buena.
No es un modelo perfecto para todo, pero si el criterio es "un modelo open-weight centrado en codigo", me parece una opcion muy facil de recomendar.
Si estas armando un entorno local para programar y sientes que tu modelo actual se queda en una zona intermedia, Step 3.5 Flash merece entrar en la lista de candidatos. Al menos para mi, se volvio el primero que vuelvo a encender entre las opciones locales recientes.