
1. 핵심 요약
- 인공지능 모델의 성능을 평가하는 기존 벤치마크들이 빠르게 쓸모없어짐에 따라, 독립적인 AI 평가 기관인 Artificial Analysis가 Intelligence Index를 대폭 개편했습니다.
- 새로운 지표는 단순 암기 능력 대신 실제 경제적 가치를 창출하는 능력을 측정하는 데 초점을 맞추어, AI 시스템이 실제 업무를 수행할 수 있는지 평가합니다.
- OpenAI의 GPT-5.2가 전반적인 성능에서 1위를 차지했지만, 과학적 추론 능력과 환각 현상 측면에서는 개선의 여지가 남아있으며, Google의 Gemini 3 Pro와 Anthropic의 Claude Opus 4.5도 경쟁력을 입증했습니다.
2. 기사 상세 번역
AI 벤치마크의 한계와 새로운 평가 방식의 필요성
AI 모델 개발 경쟁이 심화되면서, 모델의 성능을 측정하는 벤치마크 테스트의 유효성에 대한 문제가 제기되고 있습니다. 기존 테스트들은 모델의 성능 향상 속도를 따라가지 못해, 모델 간의 차별성을 의미 있게 보여주지 못하는 상황입니다. 이에 독립적인 AI 벤치마크 기관인 Artificial Analysis는 Intelligence Index를 대폭 개편하여 AI 산업의 발전 측정 방식을 근본적으로 변화시켰습니다.
Intelligence Index v4.0의 주요 변화
새로운 Intelligence Index v4.0은 에이전트, 코딩, 과학적 추론, 일반 지식 등 10가지 평가 항목을 포함합니다. 단순한 테스트 이름 변경을 넘어, AI 시스템이 사람들이 실제로 급여를 받는 종류의 업무를 완료할 수 있는지 측정하는 데 중점을 둡니다. Aravind Sundar 연구원은 이번 지표 변경을 “지능은 단순 암기에서 경제적으로 유용한 행동으로 측정되는 방향으로 전환되고 있다”고 평가했습니다.
기존 벤치마크의 문제점과 새로운 지표의 설계
AI 모델의 성능이 향상됨에 따라 기존 테스트는 의미를 잃어가고 있었습니다. 모든 최신 모델이 특정 테스트에서 90% 이상의 점수를 받는다면, 해당 테스트는 기업이 어떤 AI 시스템을 배포할지 결정하는 데 유용한 도구가 되지 못합니다. 새로운 지표는 에이전트, 코딩, 과학적 추론, 일반 지식을 동일하게 가중하여 평가하고, 최첨단 시스템조차도 어려움을 겪는 평가 항목을 도입함으로써 이러한 문제를 해결하고자 합니다. 새로운 평가 시스템에서는 최상위 모델의 점수가 이전 버전에서는 73점이었던 반면, 현재는 50점 이하로 하락하여 향후 개선을 위한 여지를 확보했습니다.
GDPval-AA: 실제 업무 수행 능력 평가
새로운 지표에서 가장 중요한 추가 요소는 OpenAI의 GDPval 데이터셋을 기반으로 한 GDPval-AA 평가입니다. 이 평가는 AI 모델이 44개 직업과 9개 주요 산업 분야에서 실제 경제적 가치를 창출하는 작업을 수행할 수 있는지 테스트합니다. 기존 벤치마크가 추상적인 수학 문제나 객관식 퀴즈를 푸는 능력을 평가하는 것과 달리, GDPval-AA는 AI가 전문가들이 실제로 생성하는 결과물(문서, 슬라이드, 다이어그램, 스프레드시트, 멀티미디어 콘텐츠 등)을 생산할 수 있는지 측정합니다.
모델은 Artificial Analysis가 제공하는 "Stirrup"이라는 에이전트 기반 프레임워크를 통해 셸 액세스 및 웹 브라우징 기능을 제공받습니다. 점수는 맹목적인 쌍방 비교를 통해 도출되며, 지표의 안정성을 위해 ELO 평점은 평가 시점에 고정됩니다.
최신 모델 성능 비교: GPT-5.2, Claude Opus 4.5, Gemini 3 Pro
새로운 프레임워크에 따른 결과, OpenAI의 GPT-5.2 (확장된 추론 기능 포함)가 1위를 차지했으며, Anthropic의 Claude Opus 4.5와 Google의 Gemini 3 Pro가 그 뒤를 바짝 쫓았습니다. OpenAI는 GPT-5.2를 "전문적인 지식 업무에 가장 적합한 모델 시리즈"라고 설명했으며, Anthropic의 Claude Opus 4.5는 소프트웨어 코딩 능력 평가 테스트인 SWE-Bench Verified에서 GPT-5.2보다 높은 점수를 받았습니다.
과학적 추론 능력 평가: CritPT
GDPval-AA가 실용적인 생산성을 측정하는 반면, CritPT는 AI 시스템의 과학적 추론 능력이 아직 부족하다는 점을 보여줍니다. CritPT는 30개 이상의 선도적인 기관에서 활동하는 50명 이상의 물리학 연구원이 개발한 벤치마크로, 현대 물리학(응집 물질, 양자 물리학, 천체 물리학 등) 분야의 연구 수준 문제를 통해 언어 모델의 추론 능력을 테스트합니다.
CritPT는 실제 연구 프로젝트와 유사한 71개의 복합적인 연구 과제를 제공하며, 모든 문제는 기계가 추측하기 어렵고 검증 가능한 답변을 생성하도록 설계되었습니다. 현재 최첨단 모델은 연구 규모의 과제를 안정적으로 해결하는 데 어려움을 겪고 있습니다. GPT-5.2 (확장된 추론 기능 포함)가 CritPT 리더보드에서 11.5%의 점수를 기록하며 1위를 차지했지만, Google의 Gemini 3 Pro Preview와 Anthropic의 Claude 4.5 Opus Thinking도 낮은 점수를 기록했습니다.
환각 현상 측정: AA-Omniscience
AA-Omniscience는 6,000개의 질문을 통해 42개의 경제적으로 관련된 주제와 6개의 영역(비즈니스, 건강, 법률, 소프트웨어 엔지니어링, 인문 사회 과학, 과학/공학/수학)에 대한 사실적 재현 능력과 환각 현상을 측정합니다.
이 평가는 정확한 지식을 보상하고 환각된 응답을 처벌하여 모델이 자신이 알고 있는 것과 모르는 것을 구별할 수 있는지 확인합니다. 연구 결과, 높은 정확도가 반드시 낮은 환각 현상으로 이어지는 것은 아니라는 사실이 밝혀졌습니다. 높은 정확도를 가진 모델은 불확실한 경우 추측하는 경향이 있어 환각 현상 발생률이 높습니다.
Google의 Gemini 3 Pro Preview가 13점의 점수로 Omniscience Index에서 1위를 차지했으며, Claude Opus 4.5 Thinking이 10점으로 그 뒤를 이었습니다. 그러나 정확도와 환각 현상 비율을 분석하면 더욱 복잡한 그림이 드러납니다. Google의 두 모델은 각각 54%와 51%의 정확도를 기록했지만, 환각 현상 비율도 88%와 85%로 높았습니다. Anthropic의 Claude 4.5 Sonnet Thinking과 Claude Opus 4.5 Thinking은 각각 48%와 58%의 환각 현상 비율을 보였으며, GPT-5.1 (높은 추론 노력)은 51%로 두 번째로 낮은 환각 현상 비율을 달성했습니다.
AI 업계 경쟁 구도: OpenAI, Google, Anthropic
이번 벤치마크 개편은 AI 산업의 격동적인 시기에 이루어졌습니다. OpenAI, Google, Anthropic은 모두 최근 몇 주 안에 주요 신모델을 출시했으며, Google의 Gemini 3는 LMArena와 같은 벤치마킹 도구의 리더보드에서 여전히 선두를 달리고 있습니다.
Google의 Gemini 3 출시로 인해 OpenAI는 ChatGPT를 개선하기 위한 "코드 레드" 노력을 선언했습니다. OpenAI는 GPT 모델 제품군을 통해 5,000억 달러의 기업 가치를 정당화하고 1조 4천억 달러 이상의 지출 계획을 추진하고 있습니다. Anthropic은 Claude Opus 4.5를 출시하며 SWE-Bench Verified에서 80.9%의 정확도를 기록하여 GPT-5.1-Codex-Max와 Gemini 3를 제치고 코딩 분야에서 선두를 되찾았습니다. Microsoft와 Nvidia는 Anthropic에 수십억 달러를 투자하여 기업 가치를 약 3,500억 달러로 평가했습니다.
Artificial Analysis의 평가 방법론
Artificial Analysis는 모든 평가가 독립적으로 수행되며 표준화된 방법론을 사용한다고 강조합니다. 이 기관은 "방법론이 공정성과 실제 적용 가능성을 강조한다"고 밝혔으며, 특정 모델에 대한 실험을 10회 이상 반복하여 Intelligence Index의 95% 신뢰 구간이 ±1% 미만이라고 추정합니다.
Artificial Analysis의 공개된 방법론 문서에서는 기업 구매자가 이해해야 할 주요 용어를 정의합니다. "엔드포인트"는 API를 통해 액세스할 수 있는 모델의 호스팅된 인스턴스를 의미하며, 단일 모델은 여러 제공업체에서 여러 엔드포인트를 가질 수 있습니다. "제공업체"는 하나 이상의 모델 엔드포인트 또는 시스템을 호스팅하고 액세스를 제공하는 회사입니다. 또한 Artificial Analysis는 "오픈 웨이트" 모델과 진정한 오픈 소스 모델을 구별하며, 많은 오픈 LLM이 오픈 소스 소프트웨어의 완전한 정의를 충족하지 않는 라이선스로 출시되었다는 점을 지적합니다.
2026년 기업 기술 결정에 미치는 영향
Intelligence Index v4.0은 AI 시스템을 평가하는 기술적 의사 결정자에게 이전 벤치마크 컴파일레이션보다 더 미묘한 그림을 제공합니다. 에이전트, 코딩, 과학적 추론, 일반 지식을 동일하게 가중한다는 점은 기업이 특정 사용 사례에 따라 범주별 점수를 검토하고 전체 지표에만 의존하지 않도록 권장합니다.
환각 현상 측정을 별도의 가중치 요소로 도입한 것은 기업 AI 도입의 가장 큰 우려 사항 중 하나를 해결합니다. 정확도가 높지만 불확실한 경우 자주 환각하는 모델은 의료, 금융, 법률과 같은 규제 산업에서 상당한 위험을 초래합니다.
Artificial Analysis Intelligence Index는 "텍스트 전용, 영어 평가 스위트"로 설명됩니다. 이 기관은 이미지 입력, 음성 입력, 다국어 성능에 대한 모델 벤치마킹을 별도로 수행합니다.
업계 반응
이번 발표에 대한 반응은 대체로 긍정적입니다. 한 사용자는 X.com 게시물에서 "지표가 진화하여 포화도를 줄이고 에이전트 성능에 더 집중하는 것은 매우 좋은 일입니다. GDPval-AA와 같은 실제 작업을 포함하면 점수가 실용적인 사용에 훨씬 더 관련성이 높아집니다."라고 평가했습니다.
다른 사용자는 더욱 야심찬 전망을 제시하며 "다가오는 새로운 모델들이 이들을 모두 능가할 것입니다. 연말까지 특이점은 부정할 수 없을 것입니다."라고 예측했습니다.
하지만 이러한 예측이 실현되든 그렇지 않든, AI를 테스트 질문에 얼마나 잘 답하는지로 판단하는 시대는 끝나고 있습니다. 새로운 기준은 더 간단하고 훨씬 더 중요한 질문입니다. "이것이 실제로 일을 할 수 있는가?"
3. 기술 용어 해설
- Agentic AI (에이전트 기반 AI): 단순히 질문에 답하는 것을 넘어, 스스로 목표를 설정하고 계획을 수립하여 작업을 수행하는 AI 시스템을 의미합니다. "Stirrup"과 같은 에이전트 기반 프레임워크는 이러한 AI 시스템이 외부 도구(웹 브라우징, 셸 액세스 등)를 활용하여 작업을 수행할 수 있도록 지원합니다.
- Execution Layer (실행 계층): 에이전트 기반 AI가 실제 작업을 수행하기 위해 상호 작용하는 환경 또는 시스템을 의미합니다. Stirrup은 Artificial Analysis가 제공하는 에이전트 기반 AI의 실행 계층입니다.
- ELO Rating (ELO 평점): 체스 등에서 실력 수준을 측정하는 데 사용되는 평점 시스템으로, AI 모델의 성능을 비교 평가하는 데에도 활용됩니다.
- Hallucination (환각): AI 모델이 사실과 다른 정보를 생성하거나, 존재하지 않는 내용을 지어내는 현상을 의미합니다.
- SWE-Bench Verified: 소프트웨어 코딩 능력을 평가하는 테스트 세트입니다.
4. 수석 분석가의 Insight
이번 Artificial Analysis의 지표 개편은 AI 모델 평가의 패러다임을 전환하는 중요한 사건입니다. 단순한 성능 지표 경쟁에서 벗어나, 실제 업무 수행 능력과 환각 현상 제어 능력을 중시하는 방향으로 평가 기준이 변화하면서, 기업들은 더욱 신중하게 AI 솔루션을 선택하고 도입할 수 있게 될 것입니다. 국내 IT 업계는 이번 변화를 주시하며, 실제 비즈니스 가치를 창출할 수 있는 AI 모델 개발 및 활용 전략을 수립해야 할 것입니다.
AI검색 기반 자료입니다. 중요한 정보인 경우 다시 확인해주세요.
댓글, 공감 버튼 한 번씩 누르고 가주시면 큰 힘이 됩니다