본문 바로가기

IT이야기

허깅페이스, 작지만 강한 모델 SmolLM3 등장

허깅페이스

 

 

 

2025년 날씨가 무더운 여름처럼 거대 언어 모델의 무한 경쟁 속에서 허깅 페이스가 선보인 SmolLM3는 그 이름처럼 작지만 강력한 성능으로 출시한지 얼마 되지 않았지만 인공지능 연구자들에게 찬사를 받고 있다. 랩톱이나 모바일에서 돌릴 수 있을 만큼 가볍지만 중형(4B) 모델과 견줄 만큼 똑똑한 모델을 만든다는 목표의 한걸음 다가갔다고 볼 수 있다. 단순히 크기를 줄인 것을 넘어 효율성과 범용성을 극대화한 이 모델은 온디바이스 AI 시대의 서막을 알리는 중요한 이정표로 평가 받고 있다.

 

약 30억 개의 매개변수(3B)를 가진 SmolLM3는 수백업에서 수천억 개의 매개변수를 자랑하는 대규모 LLM들과 비교하면 미니어처에 가깝다. 하지만 놀랍게도 이 작은 모델은 가진 파라미터에 비해서 놀라운 능력을 보이고 있다. 고품질의 정제된 학습 데이터와 함께 혁신적인 모델 아키텍처 및 학습 전략이 결합된 결과라고 생각된다. 불필요한 복잡성을 덜어내고 핵심적인 정보처리 능력에 집중함으로써, 효율적으로 컴퓨팅 자원을 사용했다. 

 

듀얼 모드 추론이라는 강점을 지니고 있다. 이는 사용자의 구체적인 지시를 정확히 따르는 지시 따르기 능력과 광범위한 지식을 바탕으로 질문에 답하는 질의응답 능력을 동시에 뛰어난 수준으로 수행한다는 의미이다. 이는 사용자의 의도를 정확히 파악하고, 동시에 정확한 정보를 제공한다고 볼 수 있다.

 

온디바이스 시대의 도래를 가속할 것으로 전망된다. 모델의 크기가 작다는 것은 스마트폰, 태블릿, IoT 기기 등 제한된 컴퓨팅 자원을 가진 기기에서도 LLM을 직접 구동할 수 있다는 의미이다. 이는 대형 언어 모델의 단점인 네트워크 지연, 개인정보 보호 문제, 높은 운영 비용 등을 해결 할 수 있는 대안이 된다. 이런 의미에서 온디바이스 모델을 통해 사용자들은 인터넷 연결 없이도 AI의 도움을 받을 수 있으며 개인화된 서비스 제공의 폭도 넓어질 것이다. 온디바이스 인공지능 모델을 개발하는 연구자들에게는 SmolLM3가 아주 좋은 본보기가 되는 모델이 될 것이다.

 

학습 데이터와 PreTraining, PostTraining, Finetuning 까지 완전히 오픈 소스로 공개된 SmolLM3는 전 세계 개발자와 연구자들에게 새로운 가능성을 열어 주고 다양한 산업 분야에서 혁신적인 AI 애플리케이션 개발을 촉진할 것이다. 

 

 

중요 기술

듀얼 추론 모드 지원 (think, no_think)

GQA(Grouped‑Query Attention) 사용으로 KV-cache를 1/4로 절약

NoPE를 통해서 긴 문맥 성능 향상 (일부 RoPE 제거)

 

https://huggingface.co/HuggingFaceTB/SmolLM3-3B