
<aside> 🌐 🔗 참조 기사 읽기
</aside>
1. 핵심 요약
- MongoDB가 새로운 임베딩 모델 'Voyage 4'를 출시하여 에이전트 시스템 및 엔터프라이즈 검색의 핵심인 검색 품질 저하 문제를 해결하고자 합니다.
- Voyage 4는 다양한 크기와 용도로 제공되며, 특히 'Voyage-4-nano'는 최초의 오픈 웨이트 모델로 개발 환경 및 온디바이스 데이터 검색에 적합합니다.
- MongoDB는 기존의 분절된 솔루션 대신 데이터 레이어, 임베딩, 재정렬을 통합한 시스템이 엔터프라이즈 AI의 안정적인 운영에 필수적이라고 주장합니다.
2. 기사 상세 번역
MongoDB, 엔터프라이즈 AI의 신뢰성 확보를 위한 검색 능력 강화에 집중
에이전트 시스템과 엔터프라이즈 검색은 효율적이고 정확하게 작동하는 강력한 데이터 검색에 의존합니다. 데이터베이스 제공업체 MongoDB는 최신 임베딩 모델이 더 많은 AI 시스템이 프로덕션 환경에 적용됨에 따라 검색 품질 저하 문제를 해결하는 데 도움이 된다고 생각합니다.
프로덕션 환경에서의 검색 품질, 간과하기 쉬운 실패 지점
에이전트 및 RAG(Retrieval-Augmented Generation) 시스템이 프로덕션 환경으로 전환되면서 검색 품질이 중요한 실패 지점으로 부상하고 있습니다. 이는 모델 자체의 성능이 우수하더라도 정확성, 비용, 사용자 신뢰도를 저해할 수 있습니다.
Voyage 4 임베딩 모델 출시: 다양한 요구사항 충족
MongoDB는 4가지 버전의 새로운 임베딩 및 재정렬 모델을 출시했습니다. Voyage 4는 Voyage-4 임베딩, Voyage-4-large, Voyage-4-lite, Voyage-4-nano의 네 가지 모드로 제공됩니다.
MongoDB는 Voyage-4 임베딩을 범용 모델로 간주하며, Voyage-4-large를 플래그십 모델로 평가합니다. Voyage-4-lite는 낮은 지연 시간과 비용이 필요한 작업에 중점을 두고 있으며, Voyage-4-nano는 로컬 개발 및 테스트 환경 또는 온디바이스 데이터 검색에 적합합니다.
특히 Voyage-4-nano는 MongoDB의 첫 번째 오픈 웨이트 모델입니다. 모든 모델은 API를 통해, 그리고 MongoDB의 Atlas 플랫폼에서 사용할 수 있습니다.
RTEB 벤치마크에서 최고 성능 입증
MongoDB는 자사의 모델이 Google 및 Cohere의 유사한 모델보다 RTEB 벤치마크에서 더 우수한 성능을 보인다고 밝혔습니다. Hugging Face의 RTEB 벤치마크는 Voyage 4를 최고의 임베딩 모델로 평가하고 있습니다.
MongoDB의 제품 매니저인 Frank Liu는 브리핑에서 "임베딩 모델은 AI 경험을 성공시키거나 망칠 수 있는 보이지 않는 선택 중 하나"라고 말했습니다. 그는 "잘못 선택하면 검색 결과가 무작위적이고 피상적으로 느껴지지만, 제대로 선택하면 애플리케이션이 사용자와 데이터를 이해하는 것처럼 느껴질 수 있다"고 덧붙였습니다.
Liu는 Voyage 4 모델의 목표는 에이전트 및 RAG 파이프라인이 프로덕션 환경에 적용되면 종종 무너지는 실제 데이터의 검색 품질을 향상시키는 것이라고 강조했습니다.
멀티모달 임베딩 모델 출시: 텍스트, 이미지, 비디오 처리
MongoDB는 텍스트, 이미지, 비디오를 포함하는 문서를 처리할 수 있는 새로운 멀티모달 임베딩 모델인 voyage-multimodal-3.5도 출시했습니다. 이 모델은 데이터를 벡터화하고 엔터프라이즈 문서에서 일반적으로 발견되는 표, 그래픽, 그림, 슬라이드에서 의미론적 의미를 추출합니다.
엔터프라이즈 임베딩의 문제점
엔터프라이즈 환경에서 에이전트 시스템은 적절한 정보를 적절한 시기에 안정적으로 검색하는 능력에 따라 성능이 결정됩니다. 이러한 요구 사항은 워크로드가 확장되고 컨텍스트 창이 분할됨에 따라 더욱 어려워집니다.
Google의 Gemini Embedding 모델은 임베딩 리더보드 1위를 차지했으며, Cohere는 200페이지가 넘는 문서를 처리할 수 있는 Embed 4 멀티모달 모델을 출시했습니다. Mistral은 코딩 임베딩 모델인 Codestral Embedding이 Cohere, Google, 심지어 MongoDB의 Voyage Code 3보다 우수한 성능을 보인다고 밝혔습니다.
MongoDB는 벤치마크 성능만으로는 엔터프라이즈가 프로덕션 환경에서 직면하는 운영 복잡성을 해결할 수 없다고 주장합니다. 많은 고객들이 데이터 스택이 컨텍스트를 인식하고 검색 집약적인 워크로드를 처리할 수 없다는 것을 발견했으며, 데이터베이스와 검색 또는 재정렬 모델을 연결하기 위해 서로 다른 솔루션을 연결해야 하는 경우가 많아지고 있습니다. MongoDB는 이러한 문제를 해결하기 위해 단일 데이터 플랫폼인 Atlas를 통해 모델을 제공합니다.
MongoDB는 검색이 더 이상 최고의 구성 요소들을 모아놓은 느슨한 컬렉션으로 취급될 수 없다고 믿습니다. 엔터프라이즈 에이전트가 안정적으로 확장되려면 임베딩, 재정렬, 데이터 레이어가 개별적으로 작동하는 것이 아니라 긴밀하게 통합된 시스템으로 운영되어야 합니다.
3. 기술 용어 해설
- 임베딩(Embedding): 텍스트, 이미지, 비디오 등 다양한 형태의 데이터를 컴퓨터가 이해할 수 있는 숫자 벡터 형태로 변환하는 기술입니다. 의미적으로 유사한 데이터는 벡터 공간에서 가까운 거리에 위치하게 됩니다.
- RAG (Retrieval-Augmented Generation): 검색(Retrieval)과 생성(Generation)을 결합한 AI 기술입니다. 외부 지식 베이스에서 관련 정보를 검색하여 LLM(Large Language Model)의 답변 생성 능력을 향상시킵니다.
- 에이전트 시스템(Agentic System): LLM을 기반으로 자율적으로 작업을 수행하는 시스템입니다. 목표를 설정하고, 필요한 정보를 검색하고, 도구를 사용하여 작업을 완료합니다.
- 재정렬 모델(Reranking Model): 검색된 결과의 순위를 재조정하여 가장 관련성이 높은 결과를 상위에 배치하는 모델입니다.
- 오픈 웨이트 모델(Open-Weight Model): 모델의 가중치(weight)를 공개하여 누구나 자유롭게 사용하고 수정할 수 있도록 하는 모델입니다.
- RTEB 벤치마크(RTEB Benchmark): Retrieval-augmented Text-to-SQL Benchmark의 약자로, 텍스트 기반 질문을 SQL 쿼리로 변환하는 모델의 성능을 평가하는 벤치마크입니다.
- 멀티모달(Multimodal): 텍스트, 이미지, 비디오 등 여러 종류의 데이터를 동시에 처리할 수 있는 능력을 의미합니다.
4. 수석 분석가의 Insight
MongoDB의 이번 Voyage 4 모델 출시는 단순히 성능 향상을 넘어, 엔터프라이즈 AI 시스템 구축에 필요한 통합적인 접근 방식의 중요성을 강조합니다. 분절된 솔루션으로는 프로덕션 환경에서 발생하는 복잡성을 해결하기 어렵다는 점을 지적하며, 데이터 레이어와 AI 모델을 긴밀하게 통합하는 전략이 앞으로 더욱 중요해질 것으로 예상됩니다. 국내 IT 업계는 MongoDB의 이러한 접근 방식을 참고하여, AI 시스템의 안정성과 신뢰성을 확보하기 위한 통합 플랫폼 구축에 힘써야 할 것입니다.
AI검색 기반 자료입니다. 중요한 정보인 경우 다시 확인해주세요.
댓글, 공감 버튼 한 번씩 누르고 가주시면 큰 힘이 됩니다