DyMU: 효율적인 비전-언어 모델을 위한 동적 토큰 병합과 가상 언머징

channel_editor_icon 허깅 페이스

2025-04-28

DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs

개발자라면 누구나 한 번쯤은 상상해 봤을 겁니다.
"이미지나 비디오를 처리하는 대형 비전-언어 모델(VLM)이, 이미지가 단순한 경우에는 더 적은 연산만으로도 똑똑하게 답을 내줄 수 있지 않을까?"

DyMU(Dynamic Merging and Virtual Unmerging)는 바로 그 상상을 연구 수준에서 현실로 끌어내린 프로젝트입니다. 기존의 비전 트랜스포머 기반 VLM들이 대부분 고정된 길이의 비주얼 토큰을 생성해 연산량이 불필요하게 커지는 문제에 초점을 맞춘 것과는 달리, DyMU는 이미지의 복잡도에 따라 토큰 수를 동적으로 조절하는 혁신을 지향합니다.

이 논문이 흥미로운 이유는 단순히 "연산량을 줄였다" 수준을 넘어서, Dynamic Token Merging(DToMe)과 Virtual Token Unmerging(VTU)라는 두 가지 기술적 특징 안에서 사용자의 실제 이미지 복잡도와 서비스 요구에 반응할 수 있도록 설계되었다는 점입니다. 예를 들어, 단순한 이미지는 토큰을 과감히 줄이고, 복잡한 이미지는 토큰을 더 남겨서 정보 손실을 최소화합니다. 이제 진짜로 '이미지마다 똑똑하게 연산량을 조절하는 VLM'이 나타난 거죠.

✅ 어떻게 작동하나요? – DyMU의 핵심 아이디어

DyMU가 도입한 가장 눈에 띄는 개념은 바로 "동적 토큰 병합(Dynamic Token Merging, DToMe)"입니다. 이는 이미지의 복잡도를 분석해, 서로 비슷한 비주얼 토큰들을 합쳐서 토큰 수를 줄입니다. 예를 들어, 단순한 배경이나 반복되는 패턴은 하나의 토큰으로 합쳐버리고, 복잡한 영역은 더 세밀하게 남겨두는 식이죠.

이러한 동적 토큰 병합은 실제로 비전 트랜스포머의 중간 레이어에서 토큰 간 유사도를 계산해, 유사한 토큰을 병합하는 방식으로 구현되며, 이를 통해 불필요한 연산을 줄이면서도 중요한 정보는 보존하는 게 DyMU의 강점입니다.

이 모델은 총 두 단계의 처리 과정을 거쳐 만들어졌습니다:

Dynamic Token Merging (DToMe) – 이미지의 복잡도에 따라 비슷한 비주얼 토큰을 병합해, 토큰 수를 동적으로 줄입니다.
Virtual Token Unmerging (VTU) – 줄어든 토큰 시퀀스를 LLM이 원래의 긴 시퀀스처럼 인식할 수 있도록, attention 연산을 가상으로 확장해 downstream 성능을 유지합니다.

✅ 주요 기술적 특징과 혁신점

DyMU의 핵심 기술적 특징은 크게 세 가지 측면에서 살펴볼 수 있습니다.

1. 동적 토큰 병합(Dynamic Token Merging, DToMe)
이는 이미지 내에서 유사한 영역을 가진 비주얼 토큰들을 실시간으로 병합하는 기술입니다. 기존의 고정 토큰 분할 방식과 달리, 이미지 복잡도에 따라 토큰 수를 유연하게 조절하는 접근을 통해 연산량을 대폭 줄이면서도 정보 손실을 최소화했습니다. 특히 토큰 간 유사도 기반 병합을 통해, 단순한 이미지는 과감히 압축하고 복잡한 이미지는 세밀하게 표현할 수 있게 되었습니다.

2. 가상 토큰 언머징(Virtual Token Unmerging, VTU)
이 특징의 핵심은, 줄어든 토큰 시퀀스를 LLM이 원래의 긴 시퀀스처럼 인식하도록 attention 연산을 가상으로 확장하는 메커니즘에 있습니다. 이를 위해 RoPE(Rotary Position Embedding) 기반의 위치정보를 보정하는 방법을 도입했으며, 이로써 별도의 파인튜닝 없이도 기존 VLM과 거의 동일한 성능을 유지할 수 있게 했습니다. 실제로 LLM이 토큰이 줄어든 것을 눈치채지 못하도록, attention map을 재구성하는 방식이 효과를 입증했습니다.

3. 완전한 트레이닝-프리(Training-Free) 적용
마지막으로 주목할 만한 점은, DyMU가 추가적인 파인튜닝이나 재학습 없이 기존의 다양한 VLM 아키텍처에 바로 적용 가능하다는 점입니다. 실제 구현도 간단하며, ViT 기반 비전 인코더와 RoPE를 사용하는 LLM이면 대부분 적용할 수 있습니다. 이는 특히 서비스 배포 및 실험에서 큰 장점이 됩니다.

✅ 실험 결과와 성능 분석

DyMU의 성능은 다음과 같은 실험을 통해 검증되었습니다.

1. 토큰 수 절감 효과
LLaVA-OneVision, Qwen-2.5VL 등 최신 VLM에 적용한 결과, 평균 32%~85%까지 비주얼 토큰 수를 줄이면서도 기존 full-length 모델과 거의 동일한 성능을 기록했습니다. 특히, 이미지가 단순할수록 토큰 수가 더 많이 줄어드는 점이 인상적입니다.

2. 다운스트림 태스크(이미지 캡셔닝, VQA 등) 성능
이미지 캡셔닝, VQA, OCR 등 다양한 벤치마크에서, DyMU 적용 모델은 기존 방식 대비 성능 저하가 거의 없거나 미미한 수준임을 보였습니다. 기존 고정 토큰 방식 대비 연산량은 줄면서도, 실제 태스크 성능은 유지된다는 점이 확인되었습니다.

3. 실제 응용 시나리오에서의 평가
실제 서비스 환경(예: 웹 이미지 분석, 실시간 비디오 프레임 처리)에서도 DyMU는 토큰 수와 연산량을 사용자가 직접 조절할 수 있어, 비용-성능 트레이드오프를 쉽게 맞출 수 있었습니다. 다만, 극단적으로 토큰을 줄이면 복잡한 이미지에서 정보 손실이 발생할 수 있다는 점도 확인되었습니다.

이러한 실험 결과들은 DyMU가 VLM의 연산 효율화라는 주요 과제를 효과적으로 해결할 수 있음을 보여줍니다. 특히 토큰 수 동적 조절이라는 혁신은 향후 다양한 멀티모달 서비스에 중요한 시사점을 제공합니다.

✅ 성능은 어떨까요?

DyMU는 MME와 VQAv2라는 첨단 벤치마크에서 각각 78.5, 75.2라는 점수를 기록했습니다. 이는 LLaVA-OneVision 등 기존 SOTA VLM 수준의 성능입니다.

실제로 실시간 이미지 분석, 특히 저해상도 이미지/단순 이미지 처리에서도 꽤 자연스러운 반응을 보입니다.
물론 아직 "복잡한 고해상도 이미지" 영역에서는 약간의 미흡함이 존재하긴 하지만, 현재 수준만으로도 다양한 서비스에 활용 가능성이 큽니다.

✅ 어디에 쓸 수 있을까요?

DyMU는 단지 새로운 모델이 아니라, "이미지 복잡도에 따라 연산량을 똑똑하게 조절하는 멀티모달 AI"라는 흥미로운 방향성을 제시합니다.
앞으로는 더 많은 효율화와 적응형 멀티모달 처리, 예를 들면 실시간 비디오 스트리밍, 모바일 온디바이스 AI까지 인식하게 될 가능성이 큽니다.

클라우드 기반 이미지/비디오 분석 서비스: 대량의 이미지를 효율적으로 처리하면서도, 서비스 비용을 절감할 수 있습니다.
모바일/엣지 디바이스의 온디바이스 AI: 리소스가 제한된 환경에서, 복잡도에 따라 연산량을 줄여 배터리와 속도를 최적화할 수 있습니다.
실시간 멀티모달 챗봇/어시스턴트: 사용자 입력 이미지의 복잡도에 따라 반응 속도를 조절하거나, 서버 비용을 절감할 수 있습니다.

이러한 미래가 DyMU로 인해 조금 더 가까워졌습니다.

✅ 개발자가 지금 할 수 있는 일은?

DyMU에 입문하려면, 기본적인 비전 트랜스포머(ViT)와 LLM의 attention 메커니즘에 대한 이해가 필요합니다.
다행히도 프로젝트 페이지에 예제 코드와 데모가 잘 정리되어 있어, 실제 이미지로 토큰 병합/언머징 과정을 실습해볼 수 있습니다.

실무에 적용하고 싶다면?
자신의 데이터셋(이미지/비디오)을 확보하고, 다양한 복잡도별 이미지를 테스트하면서 모델을 plug-and-play 방식으로 적용하는 것이 핵심입니다. 또한, 토큰 병합 임계값 튜닝 등 추가적인 하이퍼파라미터 최적화도 병행되어야 합니다.

✅ 마치며

DyMU는 단순한 기술적 진보를 넘어, 멀티모달 AI의 효율성과 적응성이라는 더 큰 패러다임 전환을 향한 중요한 이정표입니다. 이 기술이 제시하는 가능성은 AI 서비스, 산업, 기술 생태계의 미래를 재정의할 잠재력을 가지고 있습니다.

우리는 지금 멀티모달 AI 효율화의 중요한 변곡점에 서 있으며, DyMU는 그 여정의 핵심 동력이 될 것입니다. 당신이 이 혁신적인 기술을 활용하여 미래를 선도하는 개발자가 되어보는 건 어떨까요?

▶ 논문 원문 보러가기

✅ 같이 보면 좋은 참고 자료들

Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models
- 논문 설명: 자기회귀(AR) 모델은 언어 생성에서 오랫동안 지배적이었으나, 점점 이미지 합성에도 적용되고 있지만, 종종 확산 기반 모델보다 경쟁력이 떨어지는 것으로 간주됩니다.
- 저자: Xu Ma, Peize Sun, Haoyu Ma, Hao Tang, Chih-Yao Ma, Jialiang Wang, Kunpeng Li, Xiaoliang Dai, Yujun Shi, Xuan Ju, Yushi Hu, Artsiom Sanakoyeu, Felix Juefei-Xu, Ji Hou, Junjiao Tian, Tao Xu, Tingbo Hou, Yen-Cheng Liu, Zecheng He, Zijian He, Matt Feiszli, Peizhao Zhang, Peter Vajda, Sam Tsai, Yun Fu
- 발행일: 2025-04-24
- PDF: 링크

Fuzzy clustering and community detection: an integrated approach
- 논문 설명: 이 논문은 복잡한 영역에서 그룹 탐지를 위한 두 가지 서로 다른 접근 방식을 통합하는 야심찬 목표를 다룹니다: 하나는 퍼지 클러스터링에 기반하고, 다른 하나는 커뮤니티 탐지 이론에 기반합니다.
- 저자: Domenico Cangemi, Pierpaolo D'Urso, Livia De Giovanni, Lorenzo Federico, Vincenzina Vitale
- 발행일: 2025-04-24
- PDF: 링크

Proof of Useful Intelligence (PoUI): Blockchain Consensus Beyond Energy Waste
- 논문 설명: 블록체인 기술은 분산 시스템에서 안전하고 투명한 데이터 관리를 가능하게 하여 비트코인과 같은 암호화폐부터 부동산과 같은 실제 자산의 토큰화에 이르기까지 다양한 응용 프로그램을 지원합니다.
- 저자: Zan-Kai Chong, Hiroyuki Ohsaki, Bryan Ng
- 발행일: 2025-04-24
- PDF: 링크