[오늘의 IT뉴스]엔비디아, 물리적 세계로 확장하는 추론형 VLM 'Cosmos Reason 2' 공개

반응형

🌐 🔗 참조 기사 읽기

1. 핵심 요약

  • 엔비디아는 AI 에이전트를 디지털 환경을 넘어 실제 물리적 환경에서 활용할 수 있도록 지원하는 새로운 모델들을 발표했습니다.
  • 최신 비전-언어 모델(VLM)인 'Cosmos Reason 2'는 물리적 세계에서 추론 능력을 향상시켜 로봇이 예측 불가능한 환경을 탐색하는 데 도움을 줍니다.
  • 엔비디아는 'Cosmos' 모델군과 'Nemotron' 모델군을 확장하며 디지털 및 물리적 세계 모두에서 에이전트의 데이터, 학습, 추론 능력을 강화하는 개방형 AI 생태계를 구축하고 있습니다.

2. 기사 상세 번역

물리적 AI 시대의 개막

엔비디아 젠슨 황 CEO는 지난해, 우리는 이제 물리적 AI 시대에 접어들었다고 밝혔습니다. 엔비디아는 소프트웨어 사용 사례를 위한 LLM을 계속 제공하는 동시에, 완전한 AI 기반 시스템, 특히 물리적 세계의 에이전트 AI를 위한 AI 모델 제공업체로서의 입지를 강화하고 있습니다. (엔비디아는 추론 분야가 분열되고 있으며, 200억 달러 규모의 Groq에 대한 투자가 다음 단계를 설명한다고 밝혔습니다.)

CES 2024에서 공개된 새로운 모델

CES 2024에서 엔비디아는 AI 에이전트를 채팅 인터페이스를 넘어 물리적 환경으로 확장하도록 설계된 새로운 모델들을 발표했습니다.

Cosmos Reason 2: 물리적 추론 능력 강화

엔비디아는 물리적 추론을 위해 설계된 비전-언어 모델의 최신 버전인 <a href="https://github.com/nvidia-cosmos/cosmos-reason2">Cosmos Reason 2</a>를 출시했습니다. 지난해 출시된 <a href="https://research.nvidia.com/publication/2025-03_cosmos-reason-1-physical-ai-common-sense-embodied-decisions">Cosmos Reason 1</a>은 물리적 추론을 위한 2차원 온톨로지를 도입했으며, 현재 <a href="https://huggingface.co/spaces/facebook/physical_reasoning_leaderboard">Hugging Face의 물리적 추론 비디오 리더보드</a>를 선도하고 있습니다.

Cosmos Reason 2는 동일한 온톨로지를 기반으로 구축되었으며, 기업이 애플리케이션을 사용자 정의할 수 있는 유연성을 높이고, 물리적 에이전트가 소프트웨어 기반 에이전트가 디지털 워크플로우를 통해 추론하는 방식과 유사하게 다음 행동을 계획할 수 있도록 지원합니다.

로봇 학습 시뮬레이션 생성 지원

엔비디아는 또한 개발자가 로봇을 위한 학습 시뮬레이션을 생성할 수 있도록 지원하는 모델의 새로운 버전인 <a href="https://venturebeat.com/ai/nvidias-cosmos-transfer1-makes-robot-training-freakishly-realistic-and-that-changes-everything">Cosmos Transfer</a>를 출시했습니다.

경쟁 모델과의 비교

Google의 <a href="https://venturebeat.com/ai/google-introduces-paligemma-vision-language-open-model-gemma">PaliGemma</a> 및 Mistral의 <a href="https://venturebeat.com/ai/mistral-unleashes-pixtral-large-and-upgrades-le-chat-into-full-on-chatgpt-competitor">Pixtral Large</a>와 같은 다른 비전-언어 모델도 시각적 입력을 처리할 수 있지만, 상용 VLM 모두가 추론을 지원하는 것은 아닙니다.

로봇 산업의 전환점

엔비디아 제너레이티브 AI 소프트웨어 부사장 Kari Briski는 브리핑에서 "로봇 산업은 전환점에 있습니다. 우리는 단일 작업에 제한된 특수 로봇에서 광범위한 지식과 심층적인 작업별 기술을 결합한 범용 특수 시스템으로 이동하고 있습니다."라고 말했습니다. 그녀는 새로운 로봇들이 광범위한 기초 지식과 복잡한 작업에 대한 깊은 숙련도를 결합한다고 덧붙였습니다.

Briski 부사장은 또한 Cosmos Reason 2가 "로봇이 예측 불가능한 물리적 세계를 탐색하는 데 필요한 추론 능력을 향상시킨다"고 강조했습니다.

개방형 모델 생태계 구축

Briski 부사장은 엔비디아의 로드맵이 "모든 개방형 모델에서 동일한 자산 패턴을 따른다"고 언급했습니다.

"특수 AI 에이전트, 디지털 인력 또는 로봇 및 자율 주행 차량의 물리적 구현을 구축할 때 모델만으로는 충분하지 않습니다."라고 Briski 부사장은 설명했습니다. "우선 AI는 학습하고 주변 세계를 시뮬레이션하기 위한 컴퓨팅 리소스가 필요합니다. 데이터는 AI가 학습하고 개선하는 데 필요한 연료이며, 우리는 모델의 가중치뿐만 아니라 세계 최대 규모의 개방형 및 다양한 데이터 세트에 기여하고 있습니다. 개방형 라이브러리와 학습 스크립트는 개발자가 애플리케이션에 맞게 AI를 구축할 수 있는 도구를 제공하며, 우리는 AI를 모델 시스템으로 배포하는 데 도움이 되는 청사진과 예제를 게시합니다."

엔비디아는 현재 Cosmos, 로봇 공학, 개방형 추론 비전-언어-행동(VLA) 모델 Gr00t 및 에이전트 AI를 위한 Nemotron 모델 등 물리적 AI를 위한 특정 개방형 모델을 보유하고 있습니다.

엔비디아는 다양한 AI 분야의 개방형 모델이 데이터, 학습 및 추론을 디지털 및 물리적 세계 모두의 에이전트에 제공하는 공유 기업 생태계를 형성한다고 주장합니다.

Nemotron 모델군 확장

Briski 부사장은 엔비디아가 추론을 넘어 새로운 RAG 및 임베딩 모델을 포함하여 Nemotron 모델군을 계속 확장할 계획이라고 밝혔습니다. 엔비디아는 지난해 12월 에이전트 추론 모델의 최신 버전인 <a href="https://venturebeat.com/technology/nvidia-debuts-nemotron-3-with-hybrid-moe-and-mamba-transformer-to-drive">Nemotron 3</a>를 출시했습니다.

엔비디아는 Nemotron Speech, Nemotron RAG 및 Nemotron Safety의 세 가지 새로운 Nemotron 모델을 발표했습니다.

엔비디아는 블로그 게시물에서 Nemotron Speech는 "실시간 저지연 음성 인식을 제공하여 실시간 자막 및 음성 AI 애플리케이션에 적합"하며 다른 음성 모델보다 10배 빠르다고 밝혔습니다.

Nemotron RAG는 임베딩 모델과 재정렬 모델로 구성되어 있으며, 둘 다 이미지를 이해하여 데이터 에이전트가 활용할 수 있는 더욱 다중 모달 인사이트를 제공합니다.

Briski 부사장은 "Nemotron RAG는 Massive Multilingual Text Embedding Benchmark(MMTab)에서 강력한 다국어 성능을 보이며 컴퓨팅 전력 및 메모리 사용량이 적어 많은 요청을 빠르고 낮은 지연 시간으로 처리해야 하는 시스템에 적합합니다."라고 말했습니다.

Nemotron Safety는 AI 에이전트가 실수로 개인 식별 정보를 유출하지 않도록 민감한 데이터를 감지합니다.

3. 기술 용어 해설

  • VLM (Vision-Language Model): 이미지와 텍스트를 함께 이해하고 처리할 수 있는 AI 모델입니다. 이미지에 대한 설명을 생성하거나, 이미지 기반 질문에 답변하는 등의 작업을 수행할 수 있습니다.
  • Agentic AI: 특정 목표를 달성하기 위해 자율적으로 행동하고 의사 결정을 내릴 수 있는 AI 에이전트입니다.
  • 온톨로지 (Ontology): 특정 영역의 개념과 그 관계를 명확하게 정의한 지식 표현 체계입니다. Cosmos Reason 1은 물리적 세계에 대한 이해를 돕는 2차원 온톨로지를 도입했습니다.
  • RAG (Retrieval-Augmented Generation): 외부 지식 소스를 검색하여 LLM의 답변 생성 능력을 향상시키는 기술입니다.
  • Embedding Model: 텍스트나 이미지를 벡터 형태로 변환하여 의미적 유사성을 파악하는 데 사용되는 모델입니다.
  • MMTab (Massive Multilingual Text Embedding Benchmark): 다국어 텍스트 임베딩 모델의 성능을 평가하는 벤치마크입니다.

4. 수석 분석가의 Insight

엔비디아의 Cosmos Reason 2와 Nemotron 모델군 확장은 AI의 활용 영역을 소프트웨어 영역에서 물리적 세계로 확장하는 중요한 발걸음입니다. 특히 로봇 산업의 발전에 기여할 것으로 예상되며, 국내 로봇 개발 기업들은 엔비디아의 개방형 모델 생태계를 적극적으로 활용하여 경쟁력을 강화해야 할 것입니다. 또한, 물리적 AI 시대에 발맞춰 데이터 수집 및 관리, 시뮬레이션 기술 확보 등 관련 인프라 구축에 대한 투자를 확대해야 할 시점입니다.

 

 

 

AI검색 기반 자료입니다. 중요한 정보인 경우 다시 확인해주세요.
댓글, 공감 버튼 한 번씩 누르고 가주시면 큰 힘이 됩니다
반응형