본문 바로가기

IT이야기

알리바바, 이미지 생성 모델 Qwen-Image 공개

알리바바

 

 

알리바바에서 개발한 AI 이미지 생성 모델이다. 이미지 내부에 텍스트를 정확하고 자연스럽게 렌더링하는 능력과 정밀 편집 기능이 가장 큰 특징이다.

 

인공지능 기술의 발전과 함께 이미지 생성 모델이 쏟아지고 있는데 Qwen-Image는 고질적으로 겪어온 이미지내 텍스트 오류 문제를 해결하며 높은 정확도의 텍스트 렌더링 기능을 제공한다. 영어와 중국어를 포함한 다양한 언어로 표현하며, 작은 영역에 포함된 문장이나 손글씨까지 자연스럽게 구현해낸다.

20B개의 파라미터를 가진 MMDiT(Multi-Modal Diffusion Transformer) 아키텍처를 기반으로 이미지와 텍스트를 동시에 처리하며 두가지 데이터 간의 상호작용을 효과적으로 학습하여 높은 성능을 보인다.

 

Qwen2.5-VL 기반으로 동작하며 VAE 인코더를 통해서 이미지를 압축/재구성하면서 텍스트와 디테일 등을 정밀하게 보존한다. MMDiT 확산 생성기를 이용해서 의미와 시각 정보를 기반으로 고품질 이미지를 생성한다.

semantic, reconstructive 인코딩 방식으로 의미와 재현 중심 표현을 결합하여 자연스러운 이미지 편집을 한다.

MSRoPE (Multimodal Scalable RoPE)를 이용해서 이미지 그리드 내 텍스트 위치를 정확하게 인코딩해서 텍스트와 이미지 간 경계 오류를 줄여줄 것이다.

 

 

알리바바

 

 

디자인 및 마케팅 업계에 생성형 인공지능으로 큰 변화를 가져오고 있다. 그 중 이미지 생성 모델은 아이디어 구상이나 초기 시안 제작에 활용되고 있다. 예를 들어 마케팅 전문가는 슬로건이나 제품명을 포함한 광고 포스트를 만들 때 Qwen-Image 모델을 사용하여 손쉽게 만들 수 있다. 추가적으로 배너광고, 소셜 미디어 콘텐츠, 기업 프레젠테이션 등 텍스트와 이미지가 결합된 다양한 컨텐츠 제작에 활용 될 수 있다.

 

Qwen-Image 모델은 Apache 2.0 라이선스를 사용하고 있어서 상업적 및 비상업적 목적을 포함하여 다양한 방식으로 모델을 활용할 수 있다. 

풀 모델 구동 시 약 41GB VRAM이 필요하지만 4bit 양자화 버전을 사용하면 8GB VRAM에서 실행 가능하다.

8bit 양자화를 한다면 20~22GB 수준에서 실행 가능하며 이는 NVIDIA RTX 4090(24GB VRAM)과 같은 하이엔드 소비자용 그래픽카드에서 구동이 가능한 수준이다.

4bit 양자화 버전을 사용하면 중급형 소비자용 그래픽카드 RTX 3060(12GB), RTX 4060Ti(16GB)에서도 구동이 될 것으로 보여진다.

 

이미지 생성 모델은 단순한 예술적 표현을 넘어 비즈니스 도구로 진화하고 있음을 보여주는 경우라고 생각된다.

 

 

https://huggingface.co/Qwen/Qwen-Image

https://huggingface.co/spaces/Qwen/Qwen-Image

https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf

https://github.com/QwenLM/Qwen-Image

https://arxiv.org/abs/2508.02324

https://qwenlm.github.io/blog/qwen-image