오늘의 IT뉴스

[오늘의 IT뉴스]LLM의 한계를 극복하는 재귀적 언어 모델(RLM) 프레임워크

2026. 1. 22. 21:18 mandoonomics

<aside> 🌐 🔗 참조 기사 읽기

</aside>

1. 핵심 요약

MIT 연구진이 개발한 RLM은 LLM이 프롬프트를 외부 환경으로 취급하여 수백만 토큰 규모의 텍스트를 처리할 수 있도록 지원합니다.
기존 방식인 컨텍스트 윈도우 확장이나 요약 대신, RLM은 LLM이 코드를 통해 텍스트를 검사, 분해, 재귀적으로 호출하도록 하여 컨텍스트 손실 없이 장기적인 추론이 가능하게 합니다.
RLM은 기존 모델 위에 덧씌우는 방식으로 적용 가능하며, 코드 분석, 법률 검토, 다단계 추론 등 기업의 복잡한 작업에 실질적인 해결책을 제시합니다.

2. 기사 상세 번역

LLM의 컨텍스트 문제

최신 LLM은 추론 능력이 점점 더 정교해지고 있지만, 대량의 정보를 처리하는 능력은 그에 비례하여 발전하지 못하고 있습니다. 이러한 병목 현상은 모델이 한 번에 처리할 수 있는 텍스트의 양(컨텍스트 길이)이라는 물리적인 제약과 “컨텍스트 손실(context rot)”이라는 두 가지 뚜렷한 한계에 의해 발생합니다.

연구진은 LLM의 효과적인 컨텍스트 크기를 재학습 없이 획기적으로 확장하는 것이 가능한지 묻습니다. 이는 LLM이 수백만 개의 토큰을 처리해야 하는 장기적인 작업을 위해 기업에서 채택됨에 따라 점점 더 중요해지고 있으며, 장은 단순히 컨텍스트 윈도우를 확장하는 것만으로는 해결할 수 없는 과제라고 주장합니다.

알렉스 장(Alex Zhang)은 VentureBeat과의 인터뷰에서 “효과적인 컨텍스트 윈도우 크기를 늘리면 지수적으로 더 많은 데이터 샘플이 필요하다는 엔트로피 논리가 존재한다”고 말했습니다.

현재 컨텍스트 확장을 위한 접근 방식은 모델이 대화의 이전 부분을 요약하여 공간을 확보하는 압축에 의존하는 경우가 많습니다. 그러나 이 방법은 프롬프트의 앞부분에 있는 특정 세부 정보에 임의로 액세스해야 하는 작업에는 적합하지 않습니다.

RLM 작동 방식

RLM의 개념은 고전적인 컴퓨팅에서 사용되는 “아웃 오브 코어(out-of-core)” 알고리즘에서 영감을 받았습니다. 이러한 알고리즘은 컴퓨터의 주 메모리에 맞지 않는 대규모 데이터 세트를 처리하도록 설계되었으며, 데이터를 하드 드라이브에 보관하고 필요한 부분만 필요에 따라 가져옵니다.

RLM은 이 로직을 생성형 AI에 적용합니다. 긴 프롬프트를 신경망에 직접 공급하는 대신, 프레임워크는 텍스트를 Python 코딩 환경 내의 문자열 변수로 로드합니다. LLM은 데이터에 대한 일반적인 컨텍스트(예: 총 문자 수)를 제공받지만, 처음에는 텍스트 자체를 “보지” 못합니다.

프롬프트가 변수로 저장되면 LLM은 프로그래머 역할을 합니다. 표준 명령을 사용하여 데이터를 살펴볼 수 있는 Python 코드를 작성합니다. 예를 들어, 모델은 정규 표현식을 사용하여 “1장” 또는 “재무 결과”와 같은 특정 키워드를 검색할 수 있습니다.

코드 실행이 관련 부분을 찾으면 RLM은 해당 특정 부분을 활성 컨텍스트 윈도우로 가져와 분석합니다.

예를 들어, 프롬프트가 방대한 책인 경우 LLM은 장 경계를 식별하고 각 장을 개별적으로 요약하기 위해 하위 호출을 트리거하는 루프를 작성할 수 있습니다.

일반적으로 이 아키텍처에는 두 가지 에이전트가 포함됩니다. GPT-5와 같이 강력한 기능을 갖춘 “루트 언어 모델”은 오케스트레이터 역할을 합니다. 접근 방식을 계획하고, 코드를 작성하고, REPL 환경 내의 데이터 흐름을 관리합니다. “재귀적 언어 모델”은 일반적으로 더 빠르고 저렴한 모델이며 작업자 역할을 합니다. 루트 LM은 코드가 분리한 특정 텍스트 조각을 처리하기 위해 이 작업자를 호출합니다.

프롬프트가 모델의 컨텍스트 윈도우가 아닌 환경의 메모리에 상주하기 때문에 시스템은 모델의 학습 제한보다 훨씬 큰 입력을 처리할 수 있습니다. 중요한 점은 RLM은 최종 사용자에게 표준 모델과 정확히 동일하게 작동한다는 것입니다. 즉, 문자열을 허용하고 답변을 반환합니다. 이를 통해 기업 팀은 표준 API 호출을 RLM으로 교체할 수 있습니다.

개발자가 실험해 볼 수 있도록 RLM 코드는 현재 GitHub에서 제공됩니다.

장은 “대부분의 복잡한 작업은 더 작고 ‘로컬’인 하위 작업으로 분해될 수 있다는 것이 RLM의 핵심 논리”라고 말했습니다. 그러나 그는 “이러한 컨텍스트/문제 분해를 수행하는 방법은 중요하며 모델이 이를 수행할 수 있어야 한다”고 덧붙였습니다.

RLM 실제 적용

프레임워크의 유효성을 검증하기 위해 연구진은 RLM을 기본 모델 및 CodeAct, 요약 에이전트와 같은 다른 에이전트 기반 접근 방식과 비교하여 다양한 장기 컨텍스트 작업(검색 및 다중 홉 질문 응답 포함)에 대해 테스트했습니다.

결과는 1천만 개 이상의 토큰 규모에서 강력한 성능 향상을 보여주었습니다. BrowseComp-Plus 벤치마크(600만~1,100만 개의 토큰 입력 포함)에서 표준 기본 모델은 완전히 실패하여 0점을 받았습니다. 반면 GPT-5를 기반으로 하는 RLM은 91.33%의 점수를 달성하여 요약 에이전트(70.47%) 및 CodeAct(51%)를 크게 능가했습니다.

또한 이 프레임워크는 계산 복잡성이 높은 작업에서도 뛰어난 성능을 발휘했습니다. OOLONG-Pairs는 입력 길이의 제곱에 따라 난이도가 증가하는 정보 밀도가 높은 추론 벤치마크입니다. 기본 GPT-5 모델은 0.04%의 매우 낮은 점수를 기록하며 실패했습니다. RLM은 58%의 F1 점수(정밀도와 재현율의 균형 잡힌 측정값)를 달성하여 표준 모델을 마비시키는 밀도가 높은 작업을 처리할 수 있는 새로운 기능을 입증했습니다. 또한 코드 이해 작업(CodeQA 벤치마크)에서 RLM은 기본 GPT-5 모델의 성능을 24%에서 62%로 두 배 이상 향상시켰습니다.

컨텍스트 손실 문제와 관련하여 데이터는 기본 GPT-5 성능이 작업 복잡성이 증가함에 따라 빠르게 저하되는 반면, RLM 성능은 안정적으로 유지되며 16,000개 이상의 토큰 컨텍스트에서 기본 모델보다 일관되게 뛰어난 성능을 발휘한다는 것을 보여주었습니다.

작업 흐름의 복잡성이 증가했음에도 불구하고 RLM은 종종 기준선보다 유사하거나 낮은 평균 비용을 유지했습니다. BrowseComp-Plus 벤치마크에서 RLM은 요약 기준선보다 최대 3배 저렴했습니다.

그러나 연구진은 중앙값 비용은 낮지만 RLM 궤적이 “긴 꼬리”를 가진다는 점에 주목했습니다. 모델이 루프에 빠지거나 중복 검사를 수행하는 경우 아웃라이어 실행 비용이 많이 들 수 있습니다. GPT-5는 하위 호출에 대해 보수적이었지만 오픈 소스 Qwen3-Coder 모델은 때때로 간단한 작업에 대해 수천 번의 하위 호출을 시도했습니다.

장은 “현재는 RLM 동작을 제어하기 위해 자체적인 가드레일과 로직을 구현해야 할 가능성이 높다”고 말했습니다. 그러나 그는 향후 모델이 자체 컴퓨팅 예산을 보다 효과적으로 관리하도록 학습될 수 있다고 가정합니다. Prime Intellect와 같은 기업은 RLM을 모델 학습 프로세스에 통합할 계획이며, 모델의 추론 예산이 급증하는 엣지 케이스를 해결할 수 있습니다.

기업 아키텍트가 어디에 투자할지 결정할 때 RLM 프레임워크는 정보 밀도가 높은 문제를 처리하기 위한 새로운 도구를 제공합니다.

장은 “RLM은 여전히 긴 채팅 기록과 같은 챗봇에 매우 유용하다고 생각하지만, 궁극적으로는 LLM을 사용하는 대체 방법을 제시한다”고 말했습니다. 그는 “RLM은 표준 검색 방법(예: RAG)과 함께 작동하며 대체재가 아니며 다른 설정에서 또는 함께 사용할 수 있다”고 덧붙였습니다.

3. 기술 용어 해설

재귀적 언어 모델 (Recursive Language Models, RLM): LLM이 긴 프롬프트를 외부 환경으로 간주하고, 코드를 통해 텍스트를 검사, 분해, 재귀적으로 호출하여 장기적인 추론을 가능하게 하는 기술입니다.
컨텍스트 윈도우 (Context Window): LLM이 한 번에 처리할 수 있는 텍스트의 양을 의미합니다.
컨텍스트 손실 (Context Rot): LLM이 긴 프롬프트에서 정보를 처리할 때 앞부분의 정보가 희석되거나 잊혀지는 현상입니다.
아웃 오브 코어 (Out-of-Core) 알고리즘: 컴퓨터의 주 메모리에 맞지 않는 대규모 데이터 세트를 처리하기 위해 데이터를 하드 드라이브에 보관하고 필요한 부분만 가져오는 알고리즘입니다.
REPL (Read-Eval-Print Loop): 프로그래밍 언어의 대화형 인터프리터 환경입니다. 코드를 입력하면 즉시 실행 결과를 보여줍니다.
RAG (Retrieval-Augmented Generation): 검색 증강 생성. 외부 지식 소스에서 관련 정보를 검색하여 LLM의 답변 생성 능력을 향상시키는 기술입니다.
Agentic AI: LLM을 기반으로 자율적으로 작업을 수행하는 에이전트 시스템을 구축하는 접근 방식입니다.

4. 수석 분석가의 Insight

RLM 프레임워크는 LLM의 컨텍스트 한계를 극복하고 장기적인 추론 능력을 향상시키는 혁신적인 접근 방식입니다. 국내 IT 업계는 RLM 기술을 활용하여 코드 분석, 법률 검토, 금융 데이터 분석 등 복잡하고 방대한 데이터를 처리해야 하는 분야에서 경쟁력을 확보할 수 있을 것입니다. 특히, RAG와 같은 기존 기술과 RLM을 결합하여 더욱 강력한 솔루션을 구축하는 전략을 고려해 볼 필요가 있습니다.

AI검색 기반 자료입니다. 중요한 정보인 경우 다시 확인해주세요.
댓글, 공감 버튼 한 번씩 누르고 가주시면 큰 힘이 됩니다

저작자표시 비영리 동일조건 (새창열림)

만두노믹스