
알리바바 클라우드가 공개한 최신 대규모 언어 모델 Qwen3 235B A22B Thinking이 새로운 파장을 일으키고 있다. 단순한 언어 생성을 넘어 뛰어난 사고 능력을 탑재했다는 평가를 받는 이 모델은 복잡한 문제 해결과 추론 분야에서 뛰어난 성능을 보여주며 인공지능 기술의 새로운 기준점이 되고 있다.
알리바바의 퀸 시리즈의 3번째 버전이며 235B의 방대한 파라미터를 사용하고 있다. MoE 아키텍처를 채택하여 22B의 활성화 파라미터를 사용하고 있다. 거대한 모델의 강력한 성능을 유지하면서 연산 효율성을 극대화한 접근법이다.
사고모드를 사용하여 사용자의 질문에 답하는 것을 넘어서 마치 인간이 여러 단계를 거쳐 문제를 해결하듯 논리적이고 심층적인 작업을 수행하도록 설계되었다. 수학, 과학, 코딩과 같은 복잡한 문제나 여러 단계의 추론이 필요한 상황에서 탁월한 능력을 발휘한다.
256k의 컨텍스트를 사용하여 400페이지 분량의 긴 문서를 한번에 처리하고 분석할 수 있는 능력으로 복잡한 논문 요약이나 데이터 분석 등 전문적인 분야에서 좋은 성능을 보여줄 것이다.
https://arxiv.org/abs/2505.09388
'IT이야기' 카테고리의 다른 글
| OpenAI, 개방형 모델 gpt-oss 공개 (3) | 2025.08.06 |
|---|---|
| 알리바바, 고화질 1080p 지원하는 Wan 2.2 공개 (1) | 2025.08.03 |
| NVIDIA, Llama 3.3 Nemotron Super 49B v1.5 추론 모델 공개 (3) | 2025.07.31 |
| 텐센트, 3D 월드를 생성 모델 HunyuanWorld 1.0 공개 (0) | 2025.07.30 |
| ZhipuAI, 신규 LLM모델 GLM 4.5 공개 (1) | 2025.07.29 |