오늘의 IT뉴스

[오늘의 IT뉴스]구글의 '내부 강화 학습'이 장기적 추론 AI 에이전트의 잠재력을 열다

2026. 1. 18. 00:27 mandoonomics

<aside> 🌐 🔗 참조 기사 읽기

</aside>

1. 핵심 요약

구글 연구팀은 LLM의 환각 현상과 추론 실패 문제를 해결하기 위해 '내부 강화 학습(internal RL)'이라는 새로운 기법을 개발했습니다.
이 기법은 LLM이 다음 토큰을 예측하는 방식 대신, 모델 내부 활성화를 조작하여 문제 해결을 위한 단계별 솔루션을 개발하도록 유도합니다.
내부 강화 학습은 복잡한 추론 및 실세계 로봇 공학 분야에서 자율 에이전트를 구축하는 데 확장 가능한 경로를 제공할 수 있습니다.

2. 기사 상세 번역

다음 토큰 예측의 한계

강화 학습은 LLM을 후처리하는 데 중요한 역할을 하며, 특히 장기적인 계획이 필요한 복잡한 추론 작업에 효과적입니다. 하지만 이러한 모델의 구조가 문제의 핵심입니다. LLM은 자기 회귀적(autoregressive)으로, 즉 시퀀스를 한 번에 하나의 토큰씩 생성합니다. 모델이 학습 과정에서 새로운 전략을 탐색할 때, 다음 토큰 또는 행동을 무작위로 조금씩 변경합니다. 이는 더 근본적인 한계를 드러냅니다. 다음 토큰 예측은 모델이 잘못된 추상화 수준에서 솔루션을 찾도록 강요하여 장기적인 추론을 비효율적으로 만듭니다. 모델이 무엇을 해야 하는지 "알고" 있더라도 말입니다.

이러한 토큰 단위 접근 방식은 기본적인 언어 모델링에는 효과적이지만, 보상이 희소한 장기적인 작업에서는 한계를 드러냅니다. 모델이 무작위 토큰 수준 샘플링에만 의존한다면, 올바른 다단계 솔루션을 우연히 발견할 확률은 "백만 분의 일" 정도로 매우 낮습니다. 연구진에 따르면 그렇습니다.

문제는 모델이 혼란스러워지는 것뿐만 아니라, 잘못된 수준에서 혼란스러워진다는 점입니다. VentureBeat에 제공된 코멘트에 따르면, 공동 저자인 야닉 심프(Yanick Schimpf)는 20단계 작업에서 에이전트가 단일 단계의 미세한 세부 사항에 빠지거나 전체 목표를 잃어버릴 수 있다고 지적합니다.

심프는 "추상적인 구조를 가진 문제를 다룰 때, 목표 지향적인 탐색이 필요하다"고 말합니다. 에이전트는 먼저 추상적인 수준에서 문제를 해결함으로써 특정 경로를 확정하고, "추론 단계 중 하나에 빠져" 전체 워크플로우를 완료하지 못하는 것을 방지할 수 있습니다.

이러한 문제를 해결하기 위해, 학계는 오랫동안 계층적 강화 학습(Hierarchical Reinforcement Learning, HRL)을 주목해 왔습니다. HRL은 복잡한 문제를 토큰 문자열로 관리하는 대신, 시간적으로 추상적인 행동의 계층 구조(솔루션의 다른 단계를 나타내는 고수준 서브루틴)로 분해하여 해결하려고 시도합니다.

하지만 적절한 서브루틴을 발견하는 것은 오랜 숙제였습니다. 현재 HRL 방법은 종종 적절한 정책을 발견하지 못하고, 의미 있는 행동을 나타내지 않는 "퇴화된 옵션"으로 수렴하는 경우가 많습니다. GRPO와 같은 최신 알고리즘조차도 복잡한 환경에서는 저수준 실행과 고수준 계획 사이의 격차를 효과적으로 해소하지 못하기 때문에 실패합니다.

LLM의 내부 사고 조종하기

이러한 한계를 극복하기 위해 구글 팀은 내부 강화 학습을 제안합니다. 최첨단 자기 회귀 모델은 이미 명시적으로 학습하지 않았더라도 복잡하고 다단계 작업을 내부적으로 수행하는 방법을 "알고" 있습니다.

이러한 복잡한 행동은 모델의 잔류 스트림(네트워크 레이어를 통해 정보를 전달하는 숫자 값) 내부에 숨겨져 있기 때문에, 연구진은 "내부 신경망 컨트롤러" 또는 메타컨트롤러를 도입했습니다. 메타컨트롤러는 출력 토큰을 모니터링하고 변경하는 대신, 모델의 중간 레이어 내부 활성화를 변경하여 모델의 행동을 제어합니다.

이러한 조정은 모델을 특정 유용한 상태로 유도합니다. 그런 다음 기본 모델은 초기 사전 학습 중에 이미 이러한 패턴을 보았기 때문에 필요한 개별 단계 시퀀스를 자동으로 생성합니다.

메타컨트롤러는 비지도 학습을 통해 작동하며, 사람이 레이블을 지정한 학습 예제가 필요하지 않습니다. 대신, 연구진은 모델이 전체 행동 시퀀스를 분석하고, 행동을 가장 잘 설명하는 숨겨진 고수준 의도를 역으로 추론하는 자기 지도 프레임워크를 사용합니다.

내부 강화 학습 단계 동안 업데이트는 메타컨트롤러에 적용되어 학습이 다음 토큰 예측에서 솔루션으로 이어질 수 있는 고수준 행동을 학습하는 것으로 전환됩니다.

이것의 실질적인 가치를 이해하기 위해, 코드 생성을 담당하는 엔터프라이즈 에이전트를 생각해 봅시다. 현재는 어려운 절충이 존재합니다. 구문이 정확하려면 "낮은 온도"(예측 가능성)가 필요하지만, 논리 퍼즐을 해결하려면 "높은 온도"(창의성)가 필요합니다.

심프는 "내부 강화 학습은 모델이 논리 구조 및 메서드 호출과 같은 추상적인 행동 공간을 탐색하는 동시에, 기본 모델의 강력하고 낮은 온도 분포에 토큰 수준의 실현을 위임함으로써 이를 용이하게 할 수 있다"고 말합니다. 에이전트는 구문을 깨뜨리지 않고 솔루션을 탐색합니다.

연구진은 이 컨트롤러를 적용하는 두 가지 방법을 조사했습니다. 첫 번째 방법에서는 기본 자기 회귀 모델을 행동 데이터 세트에 대해 사전 학습한 다음 고정하고, 메타컨트롤러는 고정된 모델의 잔류 스트림을 조종하도록 학습합니다. 두 번째 방법에서는 메타컨트롤러와 기본 모델을 동시에 최적화하여 두 네트워크의 매개변수를 동시에 업데이트합니다.

내부 강화 학습의 실제 적용

내부 강화 학습의 효과를 평가하기 위해, 연구진은 기존 학습자를 좌절시키도록 설계된 계층적 환경에서 실험을 수행했습니다. 여기에는 이산 그리드 월드와 네 발 달린 "개미" 로봇이 관절 움직임을 조정해야 하는 연속 제어 작업이 포함됩니다. 두 환경 모두 매우 긴 행동 시퀀스와 희소한 보상을 사용했습니다.

GRPO 및 CompILE과 같은 기준 모델은 장기적인 신용 할당의 어려움으로 인해 백만 에피소드 이내에 작업을 학습하지 못했지만, 내부 강화 학습은 적은 수의 학습 에피소드로 높은 성공률을 달성했습니다. 메타컨트롤러는 미세한 단계 대신 고수준 목표를 선택함으로써 검색 공간을 크게 줄였습니다. 이를 통해 모델은 성공으로 이어지는 고수준 결정을 식별할 수 있었고, 희소 보상 문제를 해결할 만큼 신용 할당이 효율적이 되었습니다.

특히, 연구진은 "고정" 접근 방식이 더 우수하다는 것을 발견했습니다. 기본 모델과 메타컨트롤러를 처음부터 공동으로 학습했을 때, 시스템은 의미 있는 추상화를 개발하지 못했습니다. 그러나 고정된 모델에 적용했을 때, 메타컨트롤러는 사람의 레이블 없이 주요 체크포인트를 성공적으로 발견하고, 에이전트가 하위 목표를 완료하고 다음 하위 목표를 시작할 때의 실제 순간과 완벽하게 일치하는 내부 전환 메커니즘을 정렬했습니다.

현재 업계가 문제 해결을 위해 자세한 "사고 과정"을 출력하는 추론 모델에 집중하고 있는 가운데, 구글의 연구는 다르고, 어쩌면 더 효율적인 미래를 제시합니다.

심프는 "우리의 연구는 '내부 추론'이 가능할 뿐만 아니라 토큰 기반 접근 방식보다 더 효율적일 수 있다는 것을 시사하는 연구의 증가하는 흐름에 합류한다"고 말합니다. 또한, 이러한 "침묵하는 사고"는 특정 입력 모달리티와 분리될 수 있는 속성으로, 다중 모달 AI의 미래에 특히 중요할 수 있습니다.

내부 추론을 외부화하지 않고도 안내할 수 있다면, AI 에이전트의 미래는 프롬프트 전략보다 모델이 이미 내부적으로 표현하는 것을 얼마나 잘 액세스하고 조종할 수 있는지에 더 크게 좌우될 수 있습니다. 장기적인 계획, 적응 및 행동이 필요한 자율 시스템에 투자하는 기업에게 이러한 변화는 새로운 추론 벤치마크보다 더 중요할 수 있습니다.

3. 기술 용어 해설

자기 회귀 모델 (Autoregressive Model): 이전의 출력을 기반으로 다음 출력을 예측하는 모델입니다. LLM은 텍스트의 다음 토큰을 예측하는 방식으로 작동하기 때문에 자기 회귀 모델에 해당합니다.
잔류 스트림 (Residual Stream): 신경망의 레이어를 통해 정보를 전달하는 과정에서 발생하는 숫자 값입니다. 모델의 내부 상태를 나타내며, 내부 강화 학습에서 메타컨트롤러가 조작하는 대상이 됩니다.
메타컨트롤러 (Metacontroller): 내부 강화 학습에서 기본 모델의 내부 활성화를 제어하는 "내부 신경망 컨트롤러"입니다.
계층적 강화 학습 (Hierarchical Reinforcement Learning, HRL): 복잡한 문제를 해결하기 위해 문제를 더 작고 관리하기 쉬운 하위 문제로 분해하는 강화 학습 방법입니다.
GRPO (Generative Reinforcement Policy Optimization): 희소 보상 작업을 위한 인기 있는 강화 학습 알고리즘입니다.

4. 수석 분석가의 Insight

구글의 내부 강화 학습 연구는 LLM의 추론 능력을 향상시키는 새로운 가능성을 제시합니다. 특히, 모델 내부의 '숨겨진 사고'를 활용하여 복잡한 문제를 해결하는 방식은 프롬프트 엔지니어링의 한계를 극복하고, 더욱 효율적인 AI 에이전트를 구축하는 데 기여할 수 있습니다. 국내 IT 업계는 이 연구 결과를 바탕으로 자사의 LLM 기반 서비스에 내부 강화 학습 기술을 적용하거나, 관련 연구 개발에 투자하는 방안을 고려해야 할 것입니다.

AI검색 기반 자료입니다. 중요한 정보인 경우 다시 확인해주세요.
댓글, 공감 버튼 한 번씩 누르고 가주시면 큰 힘이 됩니다

저작자표시 비영리 동일조건 (새창열림)

만두노믹스