오늘의 IT뉴스

[오늘의 IT뉴스]복잡한 텍스트 렌더링에서 Z.ai의 오픈소스 GLM-Image, 구글 Nano Banana Pro를 능가하다

2026. 1. 15. 22:03 mandoonomics

<aside> 🌐 🔗 참조 기사 읽기

</aside>

1. 핵심 요약

중국 스타트업 Z.ai에서 공개한 오픈소스 이미지 생성 모델 GLM-Image가 복잡한 텍스트 기반 이미지 생성에서 구글의 Nano Banana Pro를 능가하는 성능을 보였습니다.
GLM-Image는 기존의 확산 모델(Diffusion Model) 대신 하이브리드 AR(Auto-Regressive) + 확산 디자인을 채택하여 텍스트 정확도 측면에서 획기적인 발전을 이루었습니다.
기업들은 GLM-Image의 높은 텍스트 정확도와 유연한 라이선스를 통해 비용 효율적이고 사용자 정의 가능한 이미지 생성 솔루션을 확보할 수 있게 되었습니다.

2. 기사 상세 번역

Anthropic의 Claude Code와 Google Gemini 3의 약진

2026년 초, AI 분야에서 가장 주목할 만한 두 가지 소식은 Anthropic의 Claude Code 사용량 증가와 호평, 그리고 작년 말에 출시된 Google의 Gemini 3 AI 모델 제품군의 사용자 채택률 급증입니다. Gemini 3에는 강력하고 빠르며 유연한 이미지 생성 모델인 Nano Banana Pro (Gemini 3 Pro Image라고도 함)가 포함되어 있으며, 복잡하고 텍스트가 많은 인포그래픽을 빠르고 정확하게 렌더링하여 기업용으로 적합합니다 (예: 홍보 자료, 교육, 온보딩, 문구류 등).

오픈소스 경쟁자들의 도전

물론, 이 두 모델 모두 독점적인 서비스입니다. 하지만 오픈소스 경쟁자들도 빠르게 뒤쫓고 있습니다. Black Forest Labs가 Nano Banana에 도전하는 Flux 2 AI 이미지 모델을 출시한 데 이어, 최근에는 정확하고 텍스트가 많은 이미지를 생성하는 데 특화된 새로운 오픈소스 모델인 GLM-Image가 등장했습니다. GLM-Image는 최근 공개된 중국 스타트업 Z.ai에서 개발한 160억 개의 파라미터를 가진 오픈소스 모델입니다.

GLM-Image의 혁신적인 아키텍처

GLM-Image는 대부분의 주요 이미지 생성 모델에서 사용되는 표준 "순수 확산(pure diffusion)" 아키텍처를 포기하고 하이브리드 AR(Auto-Regressive) + 확산 디자인을 채택하여 기존에 독점 모델의 영역으로 여겨졌던 성능을 달성했습니다. 즉, 인포그래픽, 슬라이드, 기술 다이어그램과 같이 텍스트가 많고 정보 밀도가 높은 시각 자료를 생성하는 데 있어 최첨단 성능을 보여줍니다. Z.ai가 자체적으로 진행한 테스트에서는 Nano Banana Pro보다 우수한 성능을 보였지만, 실제 사용 결과에서는 명령어 이해 및 텍스트 렌더링 정확도가 다소 떨어지는 것으로 나타났습니다 (다른 사용자들의 의견도 비슷한 경향을 보입니다).

하지만 비용 효율적이고 사용자 정의가 용이하며, 라이선스가 자유로운 대안을 찾는 기업에게는 GLM-Image가 특정 사용 사례, 요구 사항 및 조건에 따라 주요 이미지 생성 모델로 활용될 만큼 충분히 유용할 수 있습니다.

벤치마크: 독점적인 강자를 넘어

GLM-Image의 가장 설득력 있는 장점은 미적인 측면이 아닌 정확성입니다. CVTG-2k (Complex Visual Text Generation) 벤치마크는 이미지의 여러 영역에서 정확한 텍스트를 렌더링하는 모델의 능력을 평가하는데, GLM-Image는 평균 Word Accuracy 0.9116을 기록했습니다.

이는 Nano Banana 2.0 (Pro)가 0.7788을 기록한 것과 비교하면 상당한 차이이며, 단순한 개선이 아닌 의미 있는 도약입니다. Nano Banana Pro는 싱글 스트림 영어 장문 생성에서 약간의 우위를 유지하지만 (0.9808 vs GLM-Image의 0.9524), 복잡성이 증가하면 성능이 크게 저하됩니다. 텍스트 영역의 수가 증가함에 따라 Nano Banana의 정확도는 70%대에 머무르는 반면, GLM-Image는 여러 개의 텍스트 요소가 있더라도 90% 이상의 정확도를 유지합니다. 마케팅 슬라이드 제목, 세 개의 글머리 기호, 캡션이 동시에 필요한 기업용 사용 사례에서는 이러한 신뢰성이 실제 제작 가능한 결과물과 오류를 만들어내는 것의 차이를 결정합니다.

실제 사용 경험과 한계

Hugging Face에서 GLM-Image 데모를 사용해본 결과, 벤치마크만큼 안정적이지는 않았습니다. "미국 북반구에서 2026년 1월 14일에 볼 수 있는 주요 별자리를 표시하고 별 연결선 다이어그램 뒤에 해당 별자리의 희미한 이미지를 배치하는 인포그래픽을 생성하라"는 프롬프트에 대해 GLM-Image는 요청한 내용의 20%도 채 충족하지 못했습니다. 반면, Google의 Nano Banana Pro는 이 작업을 문제없이 처리했습니다.

물론, Nano Banana Pro는 Google 검색과 통합되어 있어 프롬프트에 대한 응답으로 웹에서 정보를 검색할 수 있지만, GLM-Image는 그렇지 않으므로 이미지에 포함될 텍스트 및 기타 콘텐츠에 대한 훨씬 더 구체적인 지침이 필요합니다. 따라서 사용자는 Nano Banana Pro의 편리함에 익숙해진 경우, 비용, 데이터 위치 및 보안, 조직의 사용자 정의 요구 사항과 같은 특정 요구 사항이 없는 한 GLM-Image를 배포하는 것을 주저할 수 있습니다.

또한 OneIG 벤치마크를 사용하여 평가한 결과, Nano Banana Pro는 순수한 미적 측면에서도 GLM-Image보다 약간 우수합니다 (Nano Banana 2.0은 0.578, GLM-Image는 0.528). 실제로 GLM-Image는 Google의 생성기만큼 선명하고 세밀하며 만족스러운 이미지를 항상 렌더링하지 못합니다.

아키텍처의 변화: "하이브리드"의 중요성

GLM-Image가 성공할 수 있었던 이유는 무엇일까요? 그 답은 Z.ai가 이미지 생성을 먼저 추론 문제로, 나중에 렌더링 문제로 취급하기로 결정했기 때문입니다.

표준 잠재 확산 모델 (Stable Diffusion 또는 Flux와 같은)은 전역 구성과 미세한 텍스처를 동시에 처리하려고 시도합니다. 이로 인해 "의미론적 드리프트(semantic drift)"가 발생하여 모델이 특정 지침 (예: "텍스트를 왼쪽 상단에 배치")을 잊고 픽셀을 현실적으로 만드는 데 집중하게 됩니다.

GLM-Image는 이러한 목표를 두 개의 전문적인 "두뇌"로 분리하여 총 160억 개의 파라미터를 사용합니다.

자동 회귀 생성기 (AR, "건축가"): Z.ai의 GLM-4-9B 언어 모델에서 초기화된 이 90억 개의 파라미터 모듈은 프롬프트를 논리적으로 처리합니다. 픽셀을 생성하지 않고 시맨틱-VQ 토큰이라는 "시각적 토큰"을 출력합니다. 이러한 토큰은 이미지의 압축된 청사진 역할을 하며, 단일 픽셀을 그리기 전에 레이아웃, 텍스트 배치 및 객체 관계를 고정합니다. 이를 통해 LLM의 추론 능력을 활용하여 모델이 복잡한 지침 (예: "4개의 패널로 구성된 튜토리얼")을 이해할 수 있습니다.
확산 디코더 ("화가"): AR 모듈에 의해 레이아웃이 고정되면 70억 개의 파라미터로 구성된 Diffusion Transformer (DiT) 디코더가 작업을 이어받습니다. CogView4 아키텍처를 기반으로 하는 이 모듈은 고주파 디테일 (텍스처, 조명 및 스타일)을 채웁니다.

"무엇(What)" (AR)과 "어떻게(How)" (확산)를 분리함으로써 GLM-Image는 "밀집된 지식(dense knowledge)" 문제를 해결합니다. AR 모듈은 텍스트가 올바르게 철자화되고 정확한 위치에 배치되도록 보장하고, 확산 모듈은 최종 결과가 사실적으로 보이도록 합니다.

학습 과정: 다단계 진화

GLM-Image의 성능 비결은 아키텍처뿐만 아니라 구조를 먼저 학습하도록 강제하는 매우 구체적이고 다단계 학습 커리큘럼입니다.

학습 과정은 원래 GLM-4 모델의 텍스트 단어 임베딩 레이어를 고정하면서 새로운 "시각 단어 임베딩" 레이어와 특수 시각 LM 헤드를 학습하는 것으로 시작되었습니다. 이를 통해 모델은 시각적 토큰을 텍스트와 동일한 의미 공간으로 투영하여 LLM이 이미지를 사용하여 "말할" 수 있도록 했습니다. 특히 Z.ai는 혼합 모달 생성을 위해 텍스트와 이미지를 복잡하게 섞는 것을 처리하기 위해 MRoPE (Multidimensional Rotary Positional Embedding)를 구현했습니다.

모델은 점진적인 해상도 전략을 거쳤습니다.

1단계 (256px): 모델은 간단한 래스터 스캔 순서를 사용하여 256개의 토큰 시퀀스로 저해상도에서 학습했습니다.
2단계 (512px - 1024px): 해상도가 512px에서 1024px로 증가함에 따라 제어력이 저하되는 것을 발견했습니다. 이를 해결하기 위해 간단한 스캔을 버리고 점진적인 생성 전략을 채택했습니다.

이 고급 단계에서 모델은 먼저 대상 이미지의 다운샘플 버전에서 약 256개의 "레이아웃 토큰"을 생성합니다. 이러한 토큰은 구조적 앵커 역할을 합니다. 이러한 예비 토큰에 대한 학습 가중치를 높임으로써 팀은 모델이 고해상도 디테일을 생성하기 전에 전역 레이아웃 (사물이 어디에 있는지)을 우선시하도록 강제했습니다. 이것이 GLM-Image가 포스터 및 다이어그램에서 뛰어난 성능을 발휘하는 이유입니다. 먼저 "스케치"를 그린 다음 구성을 수학적으로 건전하게 만든 후 픽셀을 렌더링합니다.

라이선스 분석: 기업에게 유리한 허용적이지만 약간 모호한 승리

기업의 CTO 및 법률 팀에게 GLM-Image의 라이선스 구조는 독점 API보다 중요한 경쟁 우위입니다. 다만 문서와 관련하여 약간의 주의가 필요합니다.

모호성: 릴리스 자료에 약간의 불일치가 있습니다. 모델의 Hugging Face 저장소는 명시적으로 가중치에 MIT 라이선스를 태그합니다. 그러나 GitHub 저장소와 설명서는 Apache License 2.0을 참조합니다.

여전히 좋은 소식: 이러한 불일치에도 불구하고 두 라이선스 모두 기업 친화적인 오픈 소스의 "황금 표준"입니다.

상업적 타당성: MIT 및 Apache 2.0은 모두 제한 없는 상업적 사용, 수정 및 배포를 허용합니다. 다른 이미지 모델에서 흔히 볼 수 있는 특정 사용 사례를 제한하는 "오픈 레일(open rail)" 라이선스 또는 초기 LLaMA 릴리스와 같은 "연구 전용" 라이선스와 달리 GLM-Image는 즉시 "사업을 시작할 수 있습니다".
Apache의 장점 (해당하는 경우): 코드가 Apache 2.0에 속하는 경우 대기업에게 특히 유익합니다. Apache 2.0에는 명시적인 특허 부여 조항이 포함되어 있으며, 기여자 또는 소프트웨어를 사용하는 사람은 사용자에게 특허 라이선스를 부여합니다. 이는 오픈 소스 코드베이스를 기반으로 제품을 구축하는 기업에게 주요 관심사인 미래 특허 소송의 위험을 줄입니다.
"감염" 없음: MIT 및 Apache 2.0은 모두 "카피레프트(copyleft)" (예: GPL) 라이선스가 아닙니다. GLM-Image를 독점적인 워크플로우 또는 제품에 통합하더라도 자체 지적 재산권을 공개해야 할 의무가 없습니다.

개발자의 경우 권장 사항은 간단합니다. 저장소에서 호스팅되는 가중치는 MIT (해당)로 취급하고 추론 코드는 Apache 2.0으로 취급합니다. 두 가지 방법 모두 내부 호스팅, 민감한 데이터에 대한 미세 조정, 벤더 종속 계약 없이 상업적 제품을 구축할 수 있는 길을 열어줍니다.

기업 운영을 위한 "지금"

GLM-Image는 기업 의사 결정자에게 중요한 전환점에 도달했습니다. 기업들은 추상적인 블로그 헤더에 대한 생성형 AI 사용을 넘어 기능적인 영역으로 이동하고 있습니다. 광고의 다국어 현지화, 자동 UI 목업 생성, 동적 교육 자료 등이 그 예입니다.

이러한 워크플로우에서 텍스트 렌더링 오류율이 5%라면 문제가 됩니다. 모델이 아름다운 슬라이드를 생성하지만 제품 이름을 오타로 쓴다면 해당 자산은 쓸모가 없습니다. 벤치마크에 따르면 GLM-Image는 이러한 복잡한 작업에 대한 신뢰성의 임계값을 넘은 최초의 오픈 소스 모델입니다.

또한 허용적인 라이선스는 경제성을 근본적으로 변화시킵니다. Nano Banana Pro는 기업을 종량제 API 비용 구조 또는 제한적인 클라우드 계약에 묶는 반면, GLM-Image는 자체 호스팅하고 독점 브랜드 자산에 맞게 미세 조정하며 데이터 유출 문제 없이 안전하고 격리된 파이프라인에 통합할 수 있습니다.

컴퓨팅 요구 사항: 무거운 부담

추론 능력에는 컴퓨팅 집약적인 단점이 있습니다. 듀얼 모델 아키텍처는 무겁습니다. 2048x2048 이미지를 생성하는 데는 H100 GPU에서 약 252초가 걸립니다. 이는 고도로 최적화된 소규모 확산 모델보다 훨씬 느립니다.

그러나 고가치 자산의 경우 대안으로 인간 디자이너가 Photoshop에서 몇 시간을 소비하는 것보다 이 지연 시간은 허용 가능합니다. Z.ai는 또한 H100 클러스터에 즉시 투자하지 않으려는 팀을 위한 다리 역할을 하는 $0.015/이미지 관리 API를 제공합니다.

GLM-Image는 오픈 소스 커뮤니티가 독점 연구실을 단순히 따라잡는 것이 아니라 특정 고부가가치 수직 분야 (예: 지식 집약적 생성)에서 속도를 내고 있음을 나타내는 신호입니다. 기업에게는 메시지가 명확합니다. 복잡한 시각적 콘텐츠의 신뢰성이 운영 병목 현상이라면 솔루션은 반드시 Google의 독점 제품이 아니라 직접 실행할 수 있는 오픈 소스 모델일 수 있습니다.

3. 기술 용어 해설

Agentic AI: 에이전트 AI는 단순히 요청에 응답하는 것이 아니라, 목표를 달성하기 위해 자율적으로 계획하고 행동하며, 도구를 사용하고, 환경과 상호 작용하는 AI 시스템을 의미합니다.
Execution Layer: 실행 계층은 AI 모델이 실제 세계에서 작업을 수행할 수 있도록 하는 인프라 및 도구 모음입니다.
Auto-Regressive (AR): 자동 회귀 모델은 이전 데이터 포인트를 기반으로 다음 데이터 포인트를 예측하는 방식으로 작동하는 모델입니다. 텍스트 생성에 자주 사용됩니다.
Diffusion Model: 확산 모델은 노이즈를 점진적으로 추가하여 데이터를 손상시킨 다음, 노이즈를 제거하여 데이터를 재구성하는 방식으로 작동하는 생성 모델입니다. 이미지 생성에 널리 사용됩니다.
Semantic-VQ Tokens: 시맨틱-VQ 토큰은 이미지를 압축된 형태로 표현하는 토큰입니다. 이미지의 레이아웃, 텍스트 배치, 객체 관계 등의 정보를 담고 있습니다.
MRoPE (Multidimensional Rotary Positional Embedding): 혼합 모달 생성을 위해 텍스트와 이미지를 복잡하게 섞는 것을 처리하기 위해 사용되는 위치 임베딩 기법입니다.

4. 수석 분석가의 Insight

GLM-Image의 등장은 오픈소스 AI 모델이 특정 영역에서 독점 모델과 경쟁력을 갖추고 있음을 보여주는 중요한 사례입니다. 특히 텍스트 정확도가 중요한 기업 환경에서 GLM-Image는 비용 효율적이고 사용자 정의 가능한 대안을 제공하며, 이는 국내 IT 업계에서도 주목해야 할 부분입니다. 국내 기업들은 GLM-Image와 같은 오픈소스 모델을 활용하여 자체적인 AI 역량을 강화하고, 데이터 보안 및 주권 확보에도 기여할 수 있을 것입니다.

AI검색 기반 자료입니다. 중요한 정보인 경우 다시 확인해주세요.
댓글, 공감 버튼 한 번씩 누르고 가주시면 큰 힘이 됩니다

저작자표시 비영리 동일조건 (새창열림)

만두노믹스