
Wan2.2는 알리바바의 Wan-AI 팀이 개발하고 2025년 7월에 공식 발표한 오픈소스 비디오 생성 모델 시리즈이다. 최초의 공개 MoE(Expert 혼합) 아키텍처 기반 모델로 각 단계별로 expert sub-model을 활용해 계산 효율을 극대화했다. 총 27B 규모 모델도 있지만 단계마다 14B의 활성 파라미터를 사용한다.
가장 눈에 띄는 변화는 바로 영상 품질의 혁신적인 향상이다. Wan2.2는 기존 720p에 머물렀던 해상도를 넘어 이제는 1080p Full HD 영상을 기본으로 생성한다. 단순한 해상도 확장을 넘어 영상의 디테일과 선명도를 극적으로 높여 현실과 구분이 어려울 만큼 정교한 결과물을 만들어낸다.
영화 제작 전문가들이나 사용할 법한 시네마틱 미학 제어 기능이 통합되었다. 조명, 구도, 색감, 대비 등 영상의 미적 요소를 사용자가 직접 조절할 수 있어 더욱 섬세하고 예술적인 영상 제작이 가능해졌다. 이로써 단순한 도구를 넘어 창작자의 의도를 정확하게 구현하는 협력자의 역할을 하게 될 전망이다.
Wan2.2의 핵심 기술은 바로 MoE(Mixture of Experts) 아키텍처다. 이는 마치 여러 명의 전문가가 협업하는 방식과 유사하다. 초기 단계에서는 고노이즈 엑스퍼트가 영상의 전체적인 큰 틀을 잡고 이후 저노이즈 엑스퍼트가 디테일한 부분들을 정교하게 다듬는다. 이러한 협업 덕분에 모델의 규모를 키우면서도 연산 효율성을 유지하고 고품질의 영상을 더욱 빠르게 생성이 가능해졌다.
알리바바 연구팀은 Wan2.1 대비 이미지 데이터는 65%, 영상 데이터는 83% 늘려 학습시켰다고 밝혔다. 그 결과, Wan2.2는 프롬프트에 담긴 복잡한 의미를 정확하게 이해하고, 인간의 복잡하고 미묘한 동작까지 자연스럽게 재현하는 능력이 향상되었다.
Wan2.2는 Apache 2.0 라이선스로 공개되어 누구나 상업적으로 이용할 수 있다. 텍스트 입력으로 영상을 만드는 Wan2.2 T2V, 이미지를 동영상으로 변환하는 Wan2.2 I2V, 그리고 소비자용 PC에서도 효율적으로 구동되는 소형 모델 Wan2.2 TI2V 등 다양한 버전으로 제공된다.
ComfyUI와 같은 대중적인 AI 플랫폼에서도 손쉽게 사용할 수 있도록 지원해 진입 장벽을 낮췄다. 영상 제작 전문가부터 일반 창작자까지 누구나 이 강력한 도구를 활용해 자신만의 컨텐츠를 만들 수 있게 된 것이다. 인공지능이 단순히 사진이나 이미지를 넘어 영상 컨텐츠 제작의 패러다임을 근본적으로 변화시킬 잠재력을 보였다는 점에서 큰 의미가 있다. 향후 인공지능이 영화, 광고, 애니메이션 등 다양한 시각 예술 분야에 엄청난 혁신을 보여 줄 것이다.


Wan2.2 Text-to-Video
Wan2.2 Image-to-Video
Wan2.2 Text-Image-to-Video
https://arxiv.org/abs/2503.20314
https://huggingface.co/Wan-AI/Wan2.2-TI2V-5B
https://huggingface.co/Wan-AI/Wan2.2-I2V-A14B
https://huggingface.co/Wan-AI/Wan2.2-T2V-A14B
https://github.com/Wan-Video/Wan2.2
'IT이야기' 카테고리의 다른 글
| OpenAI, 차세대 인공지능 모델 GPT-5 공개 (2) | 2025.08.08 |
|---|---|
| OpenAI, 개방형 모델 gpt-oss 공개 (3) | 2025.08.06 |
| 알리바바, Qwen3-235B-A22B-Thinking-2507 (1) | 2025.08.01 |
| NVIDIA, Llama 3.3 Nemotron Super 49B v1.5 추론 모델 공개 (3) | 2025.07.31 |
| 텐센트, 3D 월드를 생성 모델 HunyuanWorld 1.0 공개 (0) | 2025.07.30 |