리뷰

로컬 코딩 모델을 Step 3.5 Flash로 바꿔봤습니다

AAnonymous
4분 읽기

들어가며

저는 새로운 모델, 특히 코딩에 강한 모델이 출시되면 이것저것 테스트합니다. 최근에는 Step 3.5 Flash를 사용해봤습니다.

다만 전제를 먼저 밝히면, 저는 로컬 모델로 일상적인 코딩을 오래 붙들고 하지는 않습니다. 제 주력은 여전히 상용 모델이고, 로컬 모델은 새로운 모델이 나올 때마다 Cline에 붙여 테스트해보는 용도에 더 가깝습니다.

맥 스튜디오 M3 울트라에서 여러 모델을 돌려보며 느낀 건, LLM을 코딩에 활용하려면 속도가 굉장히 중요하다는 점입니다. 50t/s 이상에서는 꽤 쾌적하고, 30t/s 이하로 내려가면 금방 답답해집니다.

이번 글은 벤치마크 표를 길게 해설하는 글은 아닙니다. 왜 이 모델이 눈에 들어왔는지, 실제로 로컬 코딩 모델로 써보니 무엇이 좋았고 어디까지 추천할 수 있었는지만 가볍게 정리해보겠습니다.

왜 Step 3.5 Flash였나

그전까지는 코딩 쪽에 MiniMax M2.1, 범용 쪽에 GLM 4.7을 나눠 써봤습니다. 둘 다 나쁘지 않았지만, 코딩 작업에서는 조금 더 안정적인 출력과 더 빠른 처리감이 아쉬웠습니다.

그때 눈에 들어온 모델이 StepFun의 Step 3.5 Flash였습니다. 공식 모델 카드 기준으로 이 모델은 196B 규모의 MoE 구조이고, 실제 활성 파라미터는 11B, 컨텍스트는 256K입니다. Apache 2.0 라이선스라 다루기도 편하고, SWE-bench Verified 74.4%처럼 코딩 쪽 지표도 꽤 강하게 나와 있었습니다.

물론 저는 벤치마크 숫자만 보고 모델을 고르지는 않습니다. 다만 Step 3.5 Flash는 테스트 후 작성되는 코드의 안정성이 매우 훌륭했고, 간단한 작업에서는 Sonnet 4.5와 비교할 만큼 좋은 느낌이었습니다.

써보니 가장 좋았던 점

첫째는 코드가 비교적 안정적입니다.

한두 번 더 설명해야 겨우 맞춰주던 작업을 조금 더 짧은 지시로 끝내는 경우가 늘었습니다. 특히 구조가 있는 코드, 함수 분리, 타입을 맞추는 작업처럼 기본기가 중요한 영역에서 꽤 단단하다는 느낌을 받았습니다.

둘째는 언어 처리 방식이 훨씬 마음에 들었습니다.

이전 로컬 코딩 모델 중에서는 MiniMax를 가장 선호했습니다. 다만 이 모델은 중국어 한문이 굉장히 자주 등장하고, 한글 실력도 꽤 아쉬운 편이었습니다. 반면 Step 3.5 Flash는 한글을 훨씬 자연스럽게 처리하고, 작업 중에 중국어 한문을 불쑥 뱉는 일도 거의 없었습니다.

특히 신기했던 점은 리즈닝의 대부분을 입력한 언어로 처리한다는 점이었습니다. 이 정도로 리즈닝을 입력 언어에 맞춰주는 모델은 처음인 것 같다고 느껴질 정도였습니다.

셋째는 로컬에서도 생각보다 계속 붙여둘 만했습니다.

공식 소개 자료에는 API 기준 높은 처리량이 언급되지만, 로컬에서는 당연히 그 숫자가 그대로 나오지 않습니다. 제 환경에서는 보통 그보다 훨씬 낮게 보입니다. 그래도 짧은 코드 수정이나 반복 생성 작업에서는 "못 쓰겠다"보다 "이 정도면 계속 켜둘 수 있겠다"는 쪽에 더 가까웠습니다.

그렇다고 만능은 아닙니다

이 모델을 모든 용도에 추천할 생각은 없습니다.

일반 대화나 창작처럼 넓고 유연한 응답이 중요한 작업에서는 여전히 다른 모델이 더 잘 맞을 수 있습니다. 제가 느끼기에도 Step 3.5 Flash는 잘하는 일이 분명한 모델에 가깝지, 이것 하나로 전부 덮는 모델은 아니었습니다.

또 하나는 기대치 조절입니다.

특히 맥에서 로컬로 돌릴 때는 프리필이 너무 느립니다. 컨텍스트가 길어질수록 첫 응답까지 기다리는 시간이 바로 체감되고, 이 지점에서는 도저히 상용 모델, 특히 Claude Code를 기준으로 한 생산성을 따라가기 어렵습니다.

여기에 하나 더 아쉬웠던 점은, 리즈닝에 너무 많은 토큰을 쓰는 편이라는 점입니다. 간단한 작업에서도 생각보다 긴 리즈닝을 수행하는 경우가 있어서, 체감 속도뿐 아니라 전체 토큰 소모 측면에서도 손해를 본다는 느낌이 있었습니다.

그래서 저는 이 모델을 상용 코딩 환경의 대체재라기보다, 새 모델이 나왔을 때 Cline으로 테스트해보고 성향을 파악하는 용도에 더 가깝게 보고 있습니다. 짧은 코드 작성, 수정, 리팩토링 보조처럼 반복적인 흐름에서는 분명 괜찮지만, "이걸로 주력 코딩을 전부 하겠다"는 기대를 올리면 금방 한계가 보입니다.

그래서 누구에게 맞을까요

저는 아래 같은 경우라면 한 번쯤 시도해볼 만하다고 생각합니다.

  • 로컬에서 코딩 전용 모델을 찾는 개발자
  • 오픈웨이트 기반으로 프라이버시를 챙기고 싶은 팀
  • 코드 생성이나 수정 파이프라인에 붙일 모델이 필요한 경우
  • 범용 모델과 별도로 코딩 모델을 분리해 쓰고 싶은 경우

반대로 창작, 대화, 긴 에세이까지 한 모델로 다 하고 싶다면 기대와는 조금 다를 수 있습니다.

마무리

최근에 써본 로컬 코딩 모델 가운데 Step 3.5 Flash는 꽤 인상이 좋았습니다.

완벽한 만능 모델은 아니지만, "코딩에 집중된 오픈웨이트 모델"이라는 기준으로 보면 충분히 추천할 수 있는 선택지였습니다.

로컬 코딩 환경을 꾸리고 있고, 지금 쓰는 모델이 조금 애매하다고 느끼고 있다면 Step 3.5 Flash는 한 번 바꿔볼 만한 후보입니다. 적어도 저에게는, 최근 로컬 코딩 모델 중에서 가장 먼저 다시 켜보게 되는 모델이었습니다.