[심층분석] 젯브레인스(JetBrains) 'Mellum2' 전격 오픈소스화: 12B MoE 모델이 폭로한 로컬 AI 추론의 병목과 코딩 에이전트 인프라의 재편

2026-06-06T00:02:38.194Z

JetBrains Mellum2

서론

2026년 6월 초, 글로벌 개발 도구 기업 젯브레인스(JetBrains)가 120억(12B) 파라미터 규모의 전문가 혼합(Mixture-of-Experts, 이하 MoE) 모델인 'Mellum2'를 누구나 상업적으로 이용할 수 있는 아파치 2.0(Apache 2.0) 라이선스로 전격 오픈소스화했습니다. 소프트웨어 엔지니어링 시스템의 실무 배포를 목적으로 바닥부터 새롭게 설계된 이 모델은, 맹목적으로 거대한 범용 파운데이션 모델만을 추구해 온 기존 기술 업계의 흐름과 명확히 궤를 달리합니다. 젯브레인스는 광범위한 지식 대신 프롬프트 라우팅, 검색 증강 생성(RAG) 파이프라인 구축, 하위 에이전트(Sub-agent) 오케스트레이션과 같이 높은 처리량과 극단적인 저지연이 필수적인 작업에 특화된 '포컬 모델(Focal Model)'이라는 새로운 패러다임을 업계에 제시하고 있습니다. 이를 통해 타사의 종속적인 클라우드 API에만 전적으로 의존하던 코딩 도구 시장에 강력한 도전장을 내밀었습니다.

배경

Mellum2의 탄생 배경은 2024년 말 통합 개발 환경(IDE)에 내장할 목적으로 개발되어 2025년에 대중에게 공개된 40억(4B) 파라미터 규모의 초기 단일 밀집형(Dense) Mellum 모델에서 시작됩니다. 하지만 2025년 하반기부터 2026년에 이르기까지 AI 기반 소프트웨어 엔지니어링 기술이 급격히 성숙해짐에 따라, 단일 클라우드 모델에 의존하는 방식은 심각한 병목 현상을 초래하기 시작했습니다. 현대적인 다중 에이전트 워크플로우는 수백 개의 중간 추론 단계와 컨텍스트 압축, 그리고 API 검증 과정을 동시다발적으로 요구합니다. 이러한 수많은 미세 연산을 수천억 개의 파라미터를 가진 거대 클라우드 모델로 일일이 라우팅하는 것은 네트워크 지연, 천문학적인 운영 비용, 그리고 심각한 데이터 프라이버시 침해 우려를 낳았습니다. 이에 따라 기업의 엔지니어링 팀들은 자체 코드를 외부 서버로 유출하지 않으면서도 최첨단 에이전트 자동화의 이점을 누릴 수 있도록, 사내 인프라에서 완벽하게 구동되는 강력한 프라이빗 AI 모델을 절실히 요구하게 되었습니다.

핵심 분석

아키텍처 관점에서 Mellum2는 동시다발적인 프로덕션 부하의 효율성 한계를 극복하기 위해 정교하게 설계된 공학적 걸작입니다. 전체 파라미터 수는 120억 개에 달하지만, 64개의 전문가 네트워크 중 토큰당 단 8개만 활성화되는 고도화된 전문가 혼합(MoE) 방식을 채택하여 실제 연산에는 25억(2.5B) 개의 파라미터만 사용합니다. 이 모델은 FP8 하이브리드 정밀도 환경에서 Muon 옵티마이저를 활용해 코드와 자연어 데이터로 구성된 10조 6천억 개의 토큰을 학습했습니다. 또한 4개의 키-값(KV) 헤드를 가진 그룹화 쿼리 어텐션(GQA), 계층 선택적 YaRN을 통한 128K의 확장된 컨텍스트 창 지원 등 최신 기술이 집약되어 있습니다. 특히 주목할 만한 점은 추측 해독(Speculative Decoding) 과정에서 내장형 드래프트 모델 역할을 수행하는 다중 토큰 예측(MTP) 헤드를 탑재하여 추론 속도를 한층 끌어올린 것입니다. 젯브레인스는 기본 모델과 더불어 직접적인 답변을 제공하는 지시어(Instruct) 모델, 그리고 최종 답변을 도출하기 전 명시적인 논리 전개 과정을 화면에 출력하는 '사고(Thinking)' 모델을 함께 공개했습니다.

그러나 Mellum2의 강력한 스펙과 벤치마크 성과에도 불구하고, 이번 모델 공개는 로컬 MoE 모델 추론이 직면한 냉혹한 운영 현실을 업계에 적나라하게 드러냈습니다. 25억 개의 활성 파라미터라는 수치는 이론상 매우 작은 모델의 놀라운 속도를 보장할 것처럼 보이지만, 이를 범용 추론 스택에 배포한 초기 사용자들은 오히려 심각한 지연 현상을 겪어야 했습니다. 'MoE 지연의 역설'로 불리는 이 현상은, 순수한 수학적 부동소수점 연산량은 줄어들었지만 토큰마다 적절한 전문가를 찾아가는 라우팅 오버헤드가 전체 처리 시간을 장악해버리기 때문에 발생합니다. 토큰들이 각기 다른 전문가를 선택할 때 발생하는 배치 단편화나 GPU 메모리 전반에 걸친 간접 참조 문제는 치명적인 병목을 유발합니다. 젯브레인스의 자체 내부 시스템은 MoE에 특화된 메모리 레이아웃과 커널 융합을 통해 이를 완벽히 최적화했지만, 대중적인 오픈소스 배포 환경에서는 이러한 최적화 수준을 즉각적으로 따라잡지 못했습니다.

더욱이 이러한 독자적인 맞춤형 아키텍처는 개발자들이 애용하는 로컬 배포 프레임워크들을 즉시 무력화시켰습니다. Mellum2의 GGUF 가중치 파일을 대중적인 도구인 Ollama에서 실행하려던 개발자들은 '알 수 없는 모델 아키텍처'라는 치명적인 오류 메시지에 직면했습니다. 기반이 되는 llama.cpp 백엔드에 해당 아키텍처 지원 코드가 아직 완전히 병합되지 않았기 때문입니다. 이로 인해 초기 테스터들은 GPU 가속을 활용하기 위해 WSL2와 같은 환경에서 개발자용 포크 버전을 소스코드 단계부터 직접 컴파일해야만 하는 불편을 감수해야 했습니다. vLLM 기반 배포에서도 API 라우팅 충돌 및 설정 상의 난관이 속속 보고되었으며, 이는 최첨단 모델의 아키텍처 발전 속도가 오픈소스 추론 도구의 표준화 속도를 아득히 추월해 버렸음을 명확히 보여주는 사례입니다.

산업에 미치는 영향

Mellum2의 출시는 엔터프라이즈 엔지니어링 팀들이 AI 코딩 에이전트를 설계하고 구축하는 방식을 근본적으로 뒤바꿔놓고 있습니다. 막강한 성능을 지닌 12B 규모의 모델을 로컬 환경에 직접 호스팅할 수 있게 됨으로써, 기업들은 복잡한 AI 파이프라인의 작업 부하를 지능적으로 분산시킬 수 있게 되었습니다. 심오한 인지 능력이 필요하거나 거대한 시스템 아키텍처를 기획하는 무거운 작업은 여전히 거대 파운데이션 모델에 위임하되, 컨텍스트를 수집하고 생성된 코드를 즉각적으로 검증하며 끊임없이 API 도구를 호출하는 고빈도 단순 작업은 로컬 인프라의 Mellum2가 초고속으로 처리하는 하이브리드 구조가 가능해졌습니다. 이러한 접근 방식은 특정 벤더의 API에 종속되는 현상을 획기적으로 낮춰줍니다. 무엇보다 엄격한 규제와 데이터 보안 지침을 준수해야 하는 엔터프라이즈 기업들이 지적 재산권인 핵심 소스코드를 외부로 유출하지 않으면서도 자율 코딩 에이전트가 제공하는 압도적인 생산성 향상을 온전히 누릴 수 있게 되었다는 점에서 그 파급력은 매우 큽니다.

전망

단기적으로 오픈소스 생태계가 당면한 최우선 과제는 vLLM, llama.cpp, Ollama와 같은 대중적인 추론 엔진들이 과도한 라우팅 오버헤드 없이 이러한 맞춤형 MoE 아키텍처를 원활하게 지원할 수 있도록 빠르게 표준화하고 최적화하는 것입니다. 이러한 배포 도구들이 Mellum2와 같은 모델을 기본적으로 완벽히 지원할 만큼 성숙해진다면, 2026년 연말경에는 이 같은 포컬 모델들이 현대적인 IDE와 지속적 통합(CI) 플랫폼을 구동하는 핵심 인프라로 확고히 자리매김할 것으로 전망됩니다. 또한, 이번 12B 규모의 '사고(Thinking)' 모델 출시는 AI 산업의 중대한 패러다임 전환을 시사합니다. 명시적이고 단계적인 추론 능력을 구현하는 것이 더 이상 수천억 개의 파라미터를 가진 거대 모델만의 전유물이 아님을 증명한 것입니다. 특화된 소규모 로컬 모델들이 복잡한 논리 구조를 독자적으로 전개할 수 있게 됨에 따라, 앞으로는 연산 비용이 저렴한 소형 AI 컴포넌트들이 촘촘히 연결되어 고도로 복잡한 엔지니어링 과제를 협력하여 해결하는 미래가 펼쳐질 것입니다.

결론

젯브레인스의 Mellum2는 소프트웨어 개발 환경에서의 수술용 메스와 같은 극단적인 정밀도를 위해 텍스트 이외의 멀티모달 기능이나 불필요한 범용 지식을 과감히 덜어낸 목적 지향적 AI 엔지니어링의 정수를 보여줍니다. 소프트웨어 개발자와 인프라 아키텍트 등 기술 전문가들에게 이 모델은 고도로 안전한 프라이빗 AI 오케스트레이션 시스템을 구축하기 위한 강력하고 매력적인 무기임에 틀림없습니다. 그러나 동시에, 진보된 전문가 혼합(MoE) 모델을 로컬 환경에 성공적으로 도입하기 위해서는 단순한 소프트웨어 설치를 넘어 시스템 단위의 깊이 있는 최적화와 추론 엔지니어링 지식이 수반되어야 함을 일깨워줍니다. 이론적인 연산 효율성이 올바른 인프라 구축 없이 곧바로 운영 속도의 향상으로 이어지지는 않는다는 뼈아픈 교훈을 우리에게 남기고 있습니다.

비트베이크에서 광고를 시작해보세요

광고 문의하기

다른 글 보기

2026-06-04T01:04:15.823Z

The 2026 E-Commerce New Product Launch Survival Formula: Dominating Platform Search Rankings in 7 Days via Reward-Based Trials and Purchase Verification

2026-06-04T01:04:15.800Z

2026 이커머스 신제품 론칭 생존 공식: 리워드형 체험단과 구매 인증으로 7일 만에 플랫폼 검색 랭킹 장악하기

2026-06-01T01:01:58.264Z

Surviving the 2026 Cookieless Era for B2C: Building Zero-Party Data with Reward-Based Quiz Marketing

2026-06-01T01:01:58.231Z

2026 쿠키리스 시대의 B2C 생존법: 리워드 기반 퀴즈 마케팅으로 제로파티 데이터 구축하기