DiMeR: 분리된 메시 재구성 모델

channel_editor_icon 허깅 페이스

2025-04-28

DiMeR: Disentangled Mesh Reconstruction Model

개발자라면 누구나 한 번쯤은 상상해 봤을 겁니다.
"2D 이미지 한 장, 혹은 몇 장만으로 3D 메시(입체 모델)를 손쉽게 만들 수 있다면 얼마나 좋을까?"
"텍스처(색상/질감)와 형태(기하구조)를 따로따로, 더 똑똑하게 분리해서 처리할 수 있다면?"

DiMeR(Disentangled Mesh Reconstruction Model)는 바로 그 상상을 연구 수준에서 현실로 끌어내린 프로젝트입니다. 기존의 RGB 이미지 기반 3D 재구성 모델들이 대부분 이미지의 색상과 형태 정보를 한꺼번에 처리하는 데 집중했던 것과는 달리, DiMeR는 기하(geometry)와 텍스처(texture)를 완전히 분리(disentangle)해서 각각 최적화하는 방식을 지향합니다.

이 논문이 흥미로운 이유는 단순히 "이미지에서 3D 메시를 만드는 기술이 더 좋아졌다" 수준을 넘어서, 입력 데이터와 네트워크 구조 자체를 기하와 텍스처로 분리하는 혁신 안에서 사용자의 의도와 실제 3D 결과의 일관성에 반응할 수 있도록 설계되었다는 점입니다. 예를 들어, 주사위의 점이 표면에 그려진 경우와 실제로 파여있는 경우를 구분해내는 것처럼, "색상 정보와 형태 정보가 섞여서 생기는 혼란"을 원천적으로 줄여줍니다. 이제 진짜로 '2D에서 3D로의 마법'이 현실이 된 거죠.

✅ 어떻게 작동하나요? – DiMeR의 핵심 아이디어

DiMeR가 도입한 가장 눈에 띄는 개념은 바로 "기하와 텍스처의 완전 분리(Disentanglement)"입니다. 즉, 입력 단계부터 네트워크 구조, 학습 목표까지 기하(geometry)와 텍스처(texture)를 아예 따로따로 처리합니다.

이러한 분리 구조는 실제로 듀얼 스트림(dual-stream) 네트워크로 구현되며, 이를 통해 각각의 정보(형태/색상)에 특화된 학습이 가능해집니다. 덕분에 "기하 구조의 정확성"과 "텍스처의 자연스러움"을 동시에 잡는 게 DiMeR의 강점입니다.

이 모델은 총 두 단계의 분리된 처리 과정을 거쳐 만들어졌습니다:

Geometry Branch(기하 브랜치) – 입력으로 Normal Map(법선 맵)만을 받아 3D 형태(geometry)만을 집중적으로 재구성합니다. 이때 RGB 이미지는 사용하지 않습니다.
Texture Branch(텍스처 브랜치) – 입력으로 RGB 이미지를 받아, 이미 예측된 메시 위에 텍스처(색상/질감)를 입힙니다.

✅ 주요 기술적 특징과 혁신점

DiMeR의 핵심 기술적 특징은 크게 세 가지 측면에서 살펴볼 수 있습니다.

1. 기하-텍스처 완전 분리(Disentangled Dual-Stream)
이는 입력 데이터와 네트워크 구조를 기하(geometry)와 텍스처(texture)로 완전히 분리해 각각 독립적으로 학습시키는 방식입니다. 기존의 RGB 이미지 통합 입력 방식과 달리, Normal Map만으로 기하를, RGB만으로 텍스처를 학습시켜 학습의 혼란(ambiguity)을 최소화했습니다. 특히 Normal Map은 3D 표면의 방향 정보를 정확히 담고 있어, 기하 복원에 매우 효과적입니다.

2. 3D Ground Truth 및 Eikonal Loss 기반 메시 추출
두 번째 특징의 핵심은 정확한 3D 감독 신호와 안정적인 메시 추출에 있습니다. 기존 FlexiCubes 방식의 한계를 극복하기 위해, 3D Ground Truth(실제 3D 정답 메시)와 Eikonal Loss를 도입해 메시 추출의 정확성과 학습 안정성을 높였습니다. 이를 통해 실제 3D 환경에서의 활용도가 크게 향상되었습니다.

3. 효율적이고 단순화된 네트워크 구조
마지막으로 주목할 만한 점은 네트워크 구조의 단순화와 효율성입니다. 불필요한 복잡도를 줄이고, 각 브랜치가 자신의 역할(기하/텍스처)에만 집중하도록 설계해, 학습 효율과 추론 속도 모두에서 이점을 제공합니다. 이는 특히 대규모 데이터셋이나 실시간 응용에서 큰 장점이 됩니다.

✅ 실험 결과와 성능 분석

DiMeR의 성능은 다음과 같은 실험을 통해 검증되었습니다.

1. Chamfer Distance(기하 정확도) 평가
GSO 및 OmniObject3D 데이터셋에서 진행된 평가에서, DiMeR는 기존 모델 대비 30% 이상 향상된 Chamfer Distance 수치를 기록했습니다. 이는 LRM, MeshFormer 등과 비교했을 때 기하 복원 정확도가 크게 개선된 결과입니다. 특히 복잡한 표면 구조에서도 매끄러운 메시를 생성하는 것이 인상적입니다.

2. 텍스처 재현 성능
텍스처 품질 평가에서는, RGB 입력만을 사용하는 기존 방식보다 더 자연스럽고 일관된 텍스처를 구현했습니다. 특히 텍스처와 기하가 서로 영향을 주지 않아, 색상 정보가 형태 복원에 방해되지 않는 점이 두드러집니다.

3. 실제 응용 시나리오(단일 이미지/텍스트→3D)
실제 단일 이미지, 혹은 텍스트 프롬프트에서 3D 메시를 생성하는 테스트에서도, 실용적이고 자연스러운 결과를 확인할 수 있었습니다. 다만, 매우 복잡한 구조나 극단적 가림(occlusion) 상황에서는 여전히 한계가 일부 존재합니다.

이러한 실험 결과들은 DiMeR가 기하-텍스처 분리 기반 3D 재구성 과제를 효과적으로 해결할 수 있음을 보여줍니다. 특히 학습의 명확성, 결과의 일관성은 향후 다양한 3D 응용 분야에 중요한 시사점을 제공합니다.

✅ 성능은 어떨까요?

DiMeR는 GSO와 OmniObject3D라는 첨단 벤치마크에서 각각 30% 이상 향상된 Chamfer Distance와 우수한 텍스처 품질을 기록했습니다. 이는 LRM, MeshFormer 등 기존 비교 모델 수준을 뛰어넘는 성능입니다.

실제로 단일 이미지 입력, 혹은 텍스트 프롬프트 기반 3D 생성 등 실제 사용 시나리오에서도 꽤 자연스러운 반응을 보입니다.
물론 아직 "복잡한 가림/극단적 구조" 상황에서는 약간의 미흡함이 존재하긴 하지만, 현재 수준만으로도 다양한 서비스에 활용 가능성이 큽니다.

✅ 어디에 쓸 수 있을까요?

DiMeR는 단지 새로운 모델이 아니라, "3D 재구성에서 기하와 텍스처를 분리하여 처리하는 새로운 패러다임"이라는 흥미로운 방향성을 제시합니다.
앞으로는 더 많은 다양한 입력 소스의 통합, 예를 들면 텍스트→3D, 비디오→3D까지 인식하게 될 가능성이 큽니다.

게임/메타버스 아바타 생성: 단일 이미지나 텍스트 설명만으로 캐릭터/오브젝트의 3D 모델을 빠르게 생성할 수 있습니다.
AR/VR 콘텐츠 제작: 실제 사물의 사진만으로 3D 오브젝트를 만들어 증강현실/가상현실 콘텐츠에 바로 활용할 수 있습니다.
전자상거래/디지털 트윈: 제품 사진만으로 3D 모델을 생성해, 온라인 쇼핑몰의 3D 뷰어나 디지털 트윈 시스템에 적용할 수 있습니다.

이러한 미래가 DiMeR로 인해 조금 더 가까워졌습니다.

✅ 개발자가 지금 할 수 있는 일은?

DiMeR에 입문하려면, 기본적인 3D 딥러닝(NeRF, SDF 등)과 PyTorch 기반 모델 구현에 대한 이해가 필요합니다.
다행히도 프로젝트 페이지에 예제 코드와 데모가 잘 정리되어 있어, 실제 데이터셋(GSO, OmniObject3D 등)으로 바로 실습해볼 수 있습니다.

실무에 적용하고 싶다면?
Normal Map 생성 모델이나 RGB 이미지 등 필요한 데이터를 확보하고, 다양한 테스트 영역(단일 이미지, sparse-view, 텍스트 프롬프트 등)을 테스트하면서 모델을 파인튜닝/커스터마이즈하는 것이 핵심입니다. 또한, 실제 서비스 적용을 위해서는 후처리(메시 최적화, 텍스처 매핑 등)도 병행되어야 합니다.

✅ 마치며

DiMeR는 단순한 기술적 진보를 넘어, 3D 재구성의 새로운 패러다임 전환을 향한 중요한 이정표입니다. 이 기술이 제시하는 가능성은 산업, 사회, 기술 생태계의 미래를 재정의할 잠재력을 가지고 있습니다.

우리는 지금 3D 생성 AI의 중요한 변곡점에 서 있으며, DiMeR는 그 여정의 핵심 동력이 될 것입니다. 당신이 이 혁신적인 기술을 활용하여 미래를 선도하는 개발자가 되어보는 건 어떨까요?

▶ 논문 원문 보러가기

✅ 같이 보면 좋은 참고 자료들

PICO: Reconstructing 3D People In Contact with Objects
- 논문 설명: 단일 색상 이미지에서 3D 인간-객체 상호작용(HOI)을 복원하는 것은 깊이 모호성, 가림 현상, 그리고 객체의 형태와 외관의 큰 변동성 때문에 도전적입니다.
- 저자: Alpár Cseke, Shashank Tripathi, Sai Kumar Dwivedi, Arjun Lakshmipathy, Agniv Chatterjee, Michael J. Black, Dimitrios Tzionas
- 발행일: 2025-04-24
- PDF: 링크

Bolt: Clothing Virtual Characters at Scale
- 논문 설명: 의상 가상 캐릭터를 꾸미는 것은 시간 소모가 크고 종종 수작업으로 진행되는 과정입니다. 의상은 여러 개의 의복으로 구성될 수 있으며, 각 의복은 캐릭터의 독특한 형태에 맞게 조정되어야 합니다.
- 저자: Jonathan Leaf, David Sebastian Minor, Gilles Daviet, Nuttapong Chentanez, Greg Klar, Ed Quigley
- 발행일: 2025-04-24
- PDF: 링크

3DV-TON: Textured 3D-Guided Consistent Video Try-on via Diffusion Models
- 논문 설명: 비디오 착용은 비디오에서 의류를 목표 의상으로 교체합니다.
- 저자: Min Wei, Chaohui Yu, Jingkai Zhou, Fan Wang
- 발행일: 2025-04-24
- PDF: 링크