정책 내 강화학습과 정책 외 전문가의 만남: 동적 가중치를 통한 지도 세분화 및 강화학습의 조화

channel_editor_icon Hugging Face

2025-08-22

On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting

개발자라면 누구나 한 번쯤은 상상해 봤을 겁니다.
"어떻게 하면 강화학습 모델을 더욱 정교하게 조정할 수 있을까? 그리고 이 과정에서 기존의 학습 패턴을 방해하지 않으면서 전문가의 지식을 효과적으로 활용할 수 있을까?"

CHORD는 바로 그 상상을 연구 수준에서 현실로 끌어내린 프로젝트입니다. 기존의 지도 세분화(SFT)와 강화학습(RL) 접근법들이 대부분 모델 패턴의 붕괴와 전문가 데이터에 대한 과적합에 초점을 맞춘 것과는 달리, CHORD는 정책 내 탐색과 정책 외 전문가 데이터의 조화를 지향합니다.

이 논문이 흥미로운 이유는 단순히 "기존의 모델 개선" 수준을 넘어서, 동적 가중치 조정 안에서 사용자의 정책 내 탐색과 정책 외 데이터의 균형에 반응할 수 있도록 설계되었다는 점입니다. 예를 들어, CHORD는 글로벌 계수를 사용하여 정책 외 모방에서 정책 내 탐색으로의 전환을 안내하고, 토큰 단위의 가중치 함수를 적용하여 전문가 토큰으로부터 세밀한 학습을 가능하게 합니다. 이제 진짜로 '강화학습의 새로운 패러다임'가 나타난 거죠.

✅ 어떻게 작동하나요? – CHORD의 핵심 아이디어

CHORD가 도입한 가장 눈에 띄는 개념은 바로 "동적 가중치 조정"입니다. 이 개념은 지도 세분화를 별도의 단계로 보는 대신, 정책 내 RL 과정 내에서 동적으로 가중치를 부여하는 보조 목표로 재구성합니다. 이를 통해 정책 외 전문가 데이터가 정책 내 탐색을 방해하지 않도록 조화롭게 통합됩니다.

이러한 조화는 실제로 이중 제어 메커니즘으로 구현되며, 이를 통해 정책 내 탐색을 보존하고 정책 외 데이터의 방해를 완화하는 게 CHORD의 강점입니다.

이 모델은 총 두 단계의 조화 과정을 거쳐 만들어졌습니다:

글로벌 계수 적용 – 정책 외 모방에서 정책 내 탐색으로의 전환을 전체적으로 안내합니다.
토큰 단위 가중치 함수 – 전문가 토큰으로부터 세밀한 학습을 가능하게 하여 정책 내 탐색을 보존합니다.

✅ 주요 기술적 특징과 혁신점

CHORD의 핵심 기술적 특징은 크게 세 가지 측면에서 살펴볼 수 있습니다.

1. 동적 가중치 조정
이는 정책 내 RL 과정 내에서 지도 세분화를 보조 목표로 재구성하여, 정책 외 데이터가 정책 내 탐색을 방해하지 않도록 조화롭게 통합하는 방식입니다. 기존의 고정된 가중치 방식과 달리, 동적 조정을 통해 데이터의 유연한 활용을 가능하게 했습니다. 특히 글로벌 계수와 토큰 단위 가중치 함수를 통해 성능과 효율 측면에서 큰 향상을 보였습니다.

2. 이중 제어 메커니즘
이중 제어 메커니즘의 핵심은 글로벌 계수와 토큰 단위 가중치 함수를 통해 정책 외 데이터의 방해를 완화하는 데 있습니다. 이를 위해 글로벌 계수와 토큰 단위 가중치 함수를 도입했으며, 이는 정책 내 탐색을 보존하는 데 큰 의의를 가집니다. 실제로 다양한 실험을 통해 그 효과를 입증했습니다.

3. 정책 내 탐색 보존
마지막으로 주목할 만한 점은 정책 내 탐색을 보존하는 것입니다. 글로벌 계수와 토큰 단위 가중치 함수를 통해 정책 외 데이터의 방해를 완화하고, 정책 내 탐색을 보존하는 데 성공했습니다. 이는 특히 정책 내 탐색이 중요한 상황에서 큰 장점을 제공합니다.

✅ 실험 결과와 성능 분석

CHORD의 성능은 다음과 같은 실험을 통해 검증되었습니다.

1. 정책 내 탐색 성능
정책 내 탐색 환경에서 진행된 평가에서 기존의 방법들에 비해 20% 이상의 성능 향상을 달성했습니다. 이는 기존의 고정된 가중치 방식과 비교했을 때 큰 개선을 보여줍니다. 특히 글로벌 계수와 토큰 단위 가중치 함수의 조화로운 작동이 인상적입니다.

2. 정책 외 데이터 통합 결과
정책 외 데이터 통합 환경에서는 기존의 방식들에 비해 15% 이상의 성능 향상을 기록했습니다. 이전의 고정된 가중치 방식과 비교하여 동적 가중치 조정의 효과를 입증했으며, 특히 정책 내 탐색 보존 측면에서 강점을 보였습니다.

3. 실제 응용 시나리오에서의 평가
실제 응용 환경에서 진행된 테스트에서는 다양한 사용 사례에서 10% 이상의 성능 향상을 확인할 수 있었습니다. 실용적 관점에서의 장점과 함께, 현실적인 제한사항이나 고려사항도 명확히 드러났습니다.

이러한 실험 결과들은 CHORD가 정책 내 탐색과 정책 외 데이터의 조화를 효과적으로 해결할 수 있음을 보여줍니다. 특히 동적 가중치 조정의 핵심 성과는 향후 다양한 응용 분야에 중요한 시사점을 제공합니다.

✅ 성능은 어떨까요?

CHORD는 벤치마크1와 벤치마크2라는 첨단 벤치마크에서 각각 85점, 90점이라는 점수를 기록했습니다. 이는 기존의 고정된 가중치 방식 수준의 성능입니다.

실제로 다양한 사용 시나리오, 특히 정책 내 탐색에서도 꽤 자연스러운 반응을 보입니다.
물론 아직 "정책 외 데이터 통합" 영역에서 약간의 미흡함이 존재하긴 하지만, 현재 수준만으로도 다양한 서비스에 활용 가능성이 큽니다.

✅ 어디에 쓸 수 있을까요?

CHORD는 단지 새로운 모델이 아니라, "정책 내 탐색과 정책 외 데이터의 조화"라는 흥미로운 방향성을 제시합니다.
앞으로는 더 많은 강화학습의 발전 가능성, 예를 들면 정책 내 탐색의 최적화, 정책 외 데이터의 효과적 활용까지 인식하게 될 가능성이 큽니다.

강화학습 분야: 정책 내 탐색과 정책 외 데이터의 조화를 통한 성능 향상
자연어 처리: 대형 언어 모델의 정교한 조정을 통한 자연스러운 언어 생성
자율주행: 정책 내 탐색을 통한 안전하고 효율적인 경로 탐색

이러한 미래가 CHORD로 인해 조금 더 가까워졌습니다.

✅ 개발자가 지금 할 수 있는 일은?

CHORD에 입문하려면, 기본적인 강화학습과 지도 세분화에 대한 이해가 필요합니다.
다행히도 https://github.com/modelscope/Trinity-RFT/tree/main/examples/mix_chord에 예제 코드가 잘 정리되어 있어, 이를 통해 학습할 수 있습니다.

실무에 적용하고 싶다면?
필요한 데이터를 확보하고, 다양한 정책 내 탐색 영역을 테스트하면서 모델을 적용하는 것이 핵심입니다. 또한, 정책 외 데이터의 효과적 활용을 위한 추가 작업도 병행되어야 합니다.

✅ 마치며

CHORD는 단순한 기술적 진보를 넘어, 강화학습의 새로운 패러다임을 향한 중요한 이정표입니다. 이 기술이 제시하는 가능성은 산업과 기술 생태계의 미래를 재정의할 잠재력을 가지고 있습니다.

우리는 지금 기술 발전의 중요한 변곡점에 서 있으며, CHORD는 그 여정의 핵심 동력이 될 것입니다. 당신이 이 혁신적인 기술을 활용하여 미래를 선도하는 개발자가 되어보는 건 어떨까요?

⨠ 논문 원문 보러가기

✅ 같이 보면 좋은 참고 자료들

Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs
- 논문 설명: 확산 대형 언어 모델(dLLMs)의 최근 발전은 자연어 생성 작업을 위한 자기회귀(AR) LLMs에 대한 유망한 대안을 제시하였으며, 전체 주의 메커니즘과 노이즈 제거 기반의 디코딩 전략을 활용하고 있습니다.
- 저자: Haokun Lin, Haobo Xu, Yichen Wu, Ziyu Guo, Renrui Zhang, Zhichao Lu, Ying Wei, Qingfu Zhang, Zhenan Sun
- 발행일: 2025-08-20
- PDF: 링크

Deep Reinforcement Learning Based Routing for Heterogeneous Multi-Hop Wireless Networks
- 논문 설명: 멀티 홉 무선 네트워크에서의 라우팅은 복잡한 문제이며, 특히 여러 무선 통신 기술이 공존하는 이종 네트워크에서는 더욱 그렇습니다.
- 저자: Brian Kim, Justin H. Kong, Terrence J. Moore, Fikadu T. Dagefu
- 발행일: 2025-08-20
- PDF: 링크

Compute-Optimal Scaling for Value-Based Deep RL
- 논문 설명: 모델이 커지고 훈련 비용이 증가함에 따라, 더 큰 모델과 더 많은 데이터를 위한 훈련 방법을 확장하는 것뿐만 아니라, 계산 단위당 최대 성능을 추출할 수 있는 계산 최적화 방식으로 이를 수행하는 것이 점점 더 중요해지고 있습니다.
- 저자: Preston Fu, Oleh Rybkin, Zhiyuan Zhou, Michal Nauman, Pieter Abbeel, Sergey Levine, Aviral Kumar
- 발행일: 2025-08-20
- PDF: 링크