[오늘의 IT뉴스]MiroMind의 MiroThinker 1.5: 30B 모델로 1조 파라미터 성능 구현, 비용은 1/20로 절감

2026. 1. 8. 22:44 mandoonomics

1. 핵심 요약

MiroMind의 MiroThinker 1.5는 300억 개의 파라미터만으로 1조 파라미터 모델에 버금가는 성능을 제공하며, 추론 비용은 1/20 수준으로 대폭 절감합니다.
'과학자 모드'를 통해 환각 현상(hallucination) 위험을 줄이고, 추론 과정과 외부 소스를 투명하게 공개하여 신뢰성을 높였습니다.
단순 암기 기반 모델에서 벗어나 도구 활용 및 다단계 추론 능력을 강화하여 복잡한 작업 자동화에 적합하며, 특히 기업 환경에서의 활용 가능성이 높습니다.

2. 기사 상세 번역

소형, 강력한 추론 모델의 등장

점점 더 많은 수의 소규모, 강력한 추론 모델 대열에 MiroMind의 MiroThinker 1.5가 합류했습니다. MiroThinker 1.5는 선도적인 대규모 언어 모델(LLM)이 사용하는 수천억 개 또는 조 단위의 파라미터와 비교하여 단 300억 개의 파라미터만을 사용합니다.

경쟁 모델 대비 탁월한 성능과 비용 효율성

MiroThinker 1.5는 이러한 소규모 추론 모델 중에서도 특히 두드러집니다. 그 이유는 1조 파라미터 규모의 경쟁 모델인 Kimi K2 및 DeepSeek에 버금가는 에이전트 기반 연구 능력을 훨씬 저렴한 추론 비용으로 제공하기 때문입니다.

이번 출시를 통해 효율적이고 배포 가능한 AI 에이전트를 향한 노력이 중요한 이정표를 세웠습니다. 기업들은 오랫동안 고가의 API 호출을 이용하거나 로컬 성능 저하를 감수해야 하는 딜레마에 직면해 왔습니다. MiroThinker 1.5는 이러한 상황에 대한 세 번째 해결책을 제시합니다. 즉, 확장된 도구 사용 및 다단계 추론을 위해 특별히 설계된 오픈 웨이트 모델을 제공하는 것입니다.

최근 업계의 주요 트렌드는 고도로 특화된 에이전트에서 보다 일반화된 에이전트로 이동하는 것입니다. 이러한 기능은 이전에는 주로 독점 모델에서만 제공되었습니다. MiroThinker 1.5는 이 분야에서 강력한 오픈 웨이트 경쟁자로 부상했습니다.

관련 내용은 아래 https://youtu.be/gY22nDIGdPs?si=Oshu1GJr_5Gxd4JN에서 확인할 수 있습니다.

검증 가능한 추론을 통한 환각 위험 감소

IT 팀이 AI 배치를 평가할 때 환각 현상은 오픈 모델을 프로덕션 환경에서 사용하는 데 가장 큰 걸림돌입니다. MiroThinker 1.5는 MiroMind가 "과학자 모드"라고 부르는 방식을 통해 이러한 문제를 해결합니다. 이는 모델이 불확실성을 처리하는 방식에 대한 근본적인 아키텍처 변화입니다.

MiroThinker는 단순히 암기된 패턴에서 통계적으로 그럴듯한 답변을 생성하는 대신(대부분의 환각 현상의 근본 원인), 가설을 제시하고, 외부 소스에서 증거를 찾고, 불일치를 식별하고, 결론을 수정하고, 다시 검증하는 검증 가능한 연구 루프를 실행하도록 훈련되었습니다. 훈련 과정에서 모델은 출처 지원이 부족한 높은 신뢰도의 결과에 대해 명시적으로 페널티를 받습니다.

기업 배치를 위한 실질적인 의미는 감사 가능성입니다. MiroThinker가 답변을 생성하면 추론 체인과 참조한 외부 소스를 모두 표시할 수 있습니다. 금융 서비스, 의료, 법률과 같은 규제 산업에서는 메모리 기반 모델이 제공할 수 없는 문서 추적 기록을 생성할 수 있습니다. 규정 준수 팀은 모델이 결론에 도달한 방식뿐만 아니라 결론 자체도 검토할 수 있습니다.

이러한 접근 방식은 또한 프로덕션 AI 시스템에서 흔히 발생하는 "자신감 있는 환각" 문제를 줄입니다. 모델은 불확실한 경우 추론하기보다는 검증을 추구하도록 훈련받습니다. 이러한 행동은 비용이 많이 드는 오류를 줄이는 데 직접적으로 기여합니다.

벤치마크 성능: 기대 이상의 성과

이러한 프레임워크 하에서 MiroThinker-v1.5-30B는 최대 30배 더 많은 파라미터를 가진 모델과 비교할 수 있는 성능을 제공하며, 여기에는 1조 파라미터 규모의 Kimi-K2-Thinking 모델도 포함됩니다.

웹 검색 기능에 대한 주요 벤치마크인 BrowseComp-ZH에서 300억 개의 파라미터 모델은 69.8점을 기록하며 1조 파라미터 경쟁 모델보다 더 나은 성능을 보였습니다.

비용 차이 또한 주목할 만합니다. MiroMind는 300억 파라미터 모델의 추론 비용이 한 번의 호출당 0.07달러 정도로 Kimi-K2-Thinking의 약 1/20 수준이며, 추론 속도도 더 빠르다고 보고했습니다.

더 큰 2350억 파라미터 모델(혼합 전문가 아키텍처에서 220억 개의 활성 파라미터 사용)은 여러 검색 에이전트 벤치마크에서 글로벌 상위권에 랭크됩니다. 일반적인 에이전트 기반 검색 평가에서 이러한 모델은 DeepSeek V3.2, Minimax, GLM 및 Kimi-K2의 시스템과 경쟁합니다.

테스트 결과, 더 큰 모델은 여러 벤치마크에서 Gemini 3 Pro에 접근하고 파라미터 수만으로는 예상하기 어려웠던 GPT-5급 시스템에 더 가까워졌습니다. 벤치마크 성능 향상은 점점 더 흔해지고 있지만, 더 중요한 것은 전반적인 경쟁력입니다. MiroThinker는 이 부분에서 좋은 성적을 거두고 있습니다.

확장된 도구 사용: 세션당 최대 400번의 도구 호출

MiroThinker 1.5의 가장 중요한 기능은 지속적인 도구 사용 능력입니다.

이 모델은 최대 25만 6천 개의 토큰 컨텍스트를 지원하며 세션당 최대 400번의 도구 호출을 지원한다고 주장합니다. 이는 광범위한 정보 수집, 종합 및 교차 검증이 포함된 복잡한 연구 워크플로우에 필수적인 요구 사항입니다.

이로 인해 MiroThinker는 단일 턴 Q&A가 아닌 자율적인 작업 완료를 위해 설계된 에이전트 모델의 새로운 범주에 속하게 되었습니다. 실용적인 응용 분야로는 심층 연구 워크플로우, 콘텐츠 파이프라인, 보고서 생성 및 NotebookLM과 유사한 팟캐스트 스타일의 출력이 있습니다.

훈련 혁신: 시간 민감성 샌드박스

MiroThinker 1.5의 또 다른 주요 혁신은 시간 민감성 훈련 샌드박스입니다.

기존 모델 훈련은 MiroMind가 "신의 눈" 관점이라고 설명하는 방식으로 작동합니다. 즉, 모델은 정적 데이터 세트 내에서 최종 결과를 사용할 수 있습니다. 이는 사후 편향을 유발합니다. MiroThinker의 훈련은 이러한 이점을 제거합니다.

훈련 과정에서 모델은 주어진 타임스탬프 이전에 게시된 정보와만 상호 작용할 수 있으므로 미래의 누출을 방지하고 현실적인 불완전한 정보 조건에서 추론하도록 강제합니다.

이 파이프라인은 감독된 미세 조정과 DeepSeek에서 대중화된 고급 강화 학습 알고리즘인 Group Relative Policy Optimization(GRPO)을 통한 강화 학습을 결합하여 모델이 적절한 시기에 적절한 도구를 선택하도록 장려합니다.

이러한 접근 방식은 모델이 정적인 사실을 회상하기보다는 진화하는 상황에 대해 추론해야 하는 기업 사용 사례에 특히 적합합니다.

실용적인 배포 고려 사항

IT 팀이 배포를 고려할 때 하드웨어 요구 사항은 여전히 중요합니다. 300억 개의 파라미터 모델조차도 상당한 양의 GPU 메모리가 필요하며, 더 작은 설정은 어려움을 겪을 수 있습니다.

한 가지 장점은 호환성입니다. MiroThinker는 OpenAI 호환 API 엔드포인트가 있는 vLLM 서버에서 실행되므로 기존 도구 체인 및 함수 호출 워크플로우에 쉽게 통합할 수 있습니다.

두 모델 크기 모두 허깅 페이스에서 허용적이고 기업 친화적인 MIT 라이선스 하에 제공되며 평가를 위한 온라인 데모도 제공됩니다. 허용적인 라이선스는 내부 배포 및 미세 조정에 대한 주요 장벽을 제거합니다.

더 큰 그림: 파라미터 스케일링 vs. 상호 작용 스케일링

MiroThinker 1.5는 업계가 기존 스케일링 법칙의 한계에 직면하면서 등장했습니다. 더 큰 모델이 반드시 더 나은 실제 성능을 보장하는 것은 아닙니다. Artificial Analysis에서 언급했듯이 많은 벤치마크가 포화 상태에 이르렀으며 업계는 추상적인 추론보다는 경제적 유용성에 기반한 평가로 전환하고 있습니다.

MiroMind의 베팅은 더 큰 파라미터 수보다는 더 깊은 도구 상호 작용을 통해 기능을 향상시키는 상호 작용 스케일링에 있습니다. 이것이 옳다면 값비싼 프론티어 API에 의존하지 않는 인프라에서 정교한 에이전트를 사용할 수 있습니다.

Tianqiao Chen과 AI 과학자 Jifeng Dai가 설립한 이 회사는 "Native Intelligence"를 구축하는 것을 목표로 합니다. 즉, 암기하는 것이 아니라 상호 작용을 통해 추론하는 AI를 구축하는 것입니다.

이러한 접근 방식이 지배적이 될지 아니면 전문적인 틈새 시장으로 남을지는 아직 미지수입니다. 그러나 비용-기능 절충에 어려움을 겪고 있는 기업에게 MiroThinker 1.5는 설득력 있는 데이터 포인트를 제공합니다. 때로는 모델에게 기억하는 것보다 연구하는 방법을 가르치는 것이 더 중요합니다.

3. 기술 용어 해설

LLM (Large Language Model, 대규모 언어 모델): 방대한 텍스트 데이터를 학습하여 인간의 언어를 이해하고 생성할 수 있는 인공지능 모델입니다. GPT, BERT 등이 대표적입니다.
Agentic AI (에이전트 기반 AI): 특정 목표를 달성하기 위해 자율적으로 행동하고 도구를 활용하여 문제를 해결하는 AI 시스템입니다.
Hallucination (환각): AI 모델이 사실과 다른 내용을 생성하거나, 학습 데이터에 없는 정보를 마치 사실인 것처럼 제시하는 현상입니다.
BrowseComp-ZH: 웹 검색 능력을 평가하는 벤치마크 테스트입니다.
Mixture-of-Experts (MoE, 전문가 혼합): 여러 개의 작은 모델(전문가)을 결합하여 전체 모델의 성능을 향상시키는 아키텍처입니다.
vLLM: LLM 추론을 위한 고성능 오픈소스 라이브러리입니다.
GRPO (Group Relative Policy Optimization): DeepSeek에서 개발한 강화 학습 알고리즘으로, AI 에이전트가 적절한 도구를 선택하도록 훈련하는 데 사용됩니다.

4. 수석 분석가의 Insight

MiroThinker 1.5의 등장은 LLM 개발의 새로운 방향을 제시합니다. 단순히 모델 크기를 키우는 대신, 도구 활용 능력과 추론 능력을 강화하는 것이 비용 효율적인 대안이 될 수 있음을 보여줍니다. 국내 IT 업계는 이 소식을 통해 AI 에이전트 개발 전략을 재검토하고, 자체적인 도구 활용 및 추론 능력 강화에 투자해야 할 것입니다. 특히 규제 산업에서는 MiroThinker 1.5의 감사 가능성 기능이 중요한 경쟁 우위가 될 수 있습니다.

AI검색 기반 자료입니다. 중요한 정보인 경우 다시 확인해주세요.
댓글, 공감 버튼 한 번씩 누르고 가주시면 큰 힘이 됩니다

저작자표시 비영리 동일조건 (새창열림)

만두노믹스