작은 추론 모델도 출처를 명확히 밝혀야 한다: Pleias-RAG 모델 패밀리 소개

channel_editor_icon 허깅 페이스

2025-04-29

547

Even Small Reasoners Should Quote Their Sources: Introducing the Pleias-RAG Model Family

개발자라면 누구나 한 번쯤은 상상해 봤을 겁니다.
"내가 만든 작은 AI가, 대형 모델 못지않게 신뢰할 만한 정보를 찾아내고, 그 근거까지 정확하게 제시해 주면 얼마나 좋을까?"

Pleias-RAG는 바로 그 상상을 연구 수준에서 현실로 끌어내린 프로젝트입니다. 기존의 Retrieval-Augmented Generation(RAG) 기반 소형 언어모델들이 대부분 응답 품질이나 속도에 초점을 맞춘 것과는 달리, Pleias-RAG는 정확한 출처 인용과 근거 제시(grounding)를 지향합니다.

이 논문이 흥미로운 이유는 단순히 "소형 언어모델도 쓸 만하다" 수준을 넘어서, 출처 인용 및 멀티링구얼 RAG 지원 안에서 사용자의 신뢰성·검증 가능성에 반응할 수 있도록 설계되었다는 점입니다. 예를 들어, Pleias-RAG는 답변을 생성할 때 실제 인용문(quote)과 그 출처를 함께 명시해주며, 다양한 유럽 언어에서도 일관된 성능을 보입니다. 이제 진짜로 '작은 모델도 믿고 쓸 수 있는 AI 비서'가 나타난 거죠.

✅ 어떻게 작동하나요? – Pleias-RAG의 핵심 아이디어

Pleias-RAG가 도입한 가장 눈에 띄는 개념은 바로 "출처 인용(grounded citation)"입니다. 즉, 모델이 답변을 생성할 때 단순히 정보를 요약하는 데 그치지 않고, 실제로 참조한 원문에서 인용구(quote)를 뽑아내어 답변에 포함시키고, 그 출처까지 명확히 표시합니다.

이러한 출처 인용 및 검증 가능성은 실제로 모델 학습 데이터와 아키텍처 설계로 구현되며, 이를 작은 모델에서도 높은 신뢰성과 멀티링구얼 지원하는 게 Pleias-RAG의 강점입니다.

이 모델은 총 4단계의 RAG(검색-생성) 과정을 거쳐 만들어졌습니다:

질문 분석 및 쿼리 라우팅(Query Routing) – 사용자의 질문을 분석하여 어떤 검색 전략이 적합한지 판단합니다.
검색 및 쿼리 리포뮬레이션(Query Reformulation) – 원 질문을 더 효과적으로 검색할 수 있도록 변형하고, 외부 지식 소스(예: Common Corpus)에서 관련 문서를 검색합니다.
소스 재정렬(Source Reranking) – 검색된 문서들의 관련성과 신뢰성을 평가해 우선순위를 정합니다.
출처 인용 및 답변 생성(Citation & Answer Generation) – 답변을 생성하면서 실제 인용문과 그 출처를 명확히 포함시킵니다.

✅ 주요 기술적 특징과 혁신점

Pleias-RAG의 핵심 기술적 특징은 크게 세 가지 측면에서 살펴볼 수 있습니다.

1. 출처 인용(grounded citation) 내장
이는 답변 생성 시 실제로 원문에서 인용구를 뽑아내고, 그 출처를 명확히 표시하는 기능입니다. 기존의 RAG 방식은 답변의 근거를 명확히 제시하지 못하거나, 후처리로만 출처를 붙였지만, Pleias-RAG는 모델이 직접 인용구와 출처를 생성하도록 학습되어 있습니다. 특히 chunk anchor 방식이 아닌, 실제 텍스트를 직접 인용하는 구조로, 신뢰성과 투명성이 크게 향상되었습니다.

2. 멀티링구얼 지원 및 커스텀 토크나이저
Pleias-RAG는 유럽 주요 언어(프랑스어, 독일어, 이탈리아어, 스페인어, 폴란드어 등)에서 높은 정확도를 보장합니다. 이를 위해 Llama 등 기존 모델보다 더 효율적이고 언어별 특성을 잘 반영하는 커스텀 토크나이저를 도입했습니다. 실제로 다양한 언어로 된 문서 검색 및 인용이 자연스럽게 이뤄집니다.

3. 완전 공개 데이터 기반 학습 및 감사 가능성
모든 학습 데이터는 Common Corpus라는 2조 토큰 규모의 공개 데이터셋(퍼블릭 도메인 또는 라이선스 허용)만 사용했습니다. 따라서 저작권 문제 없이, 데이터 출처와 품질을 완전히 감사할 수 있습니다. 이는 실제 서비스 적용 시 법적·윤리적 리스크를 크게 줄여줍니다.

✅ 실험 결과와 성능 분석

Pleias-RAG의 성능은 다음과 같은 실험을 통해 검증되었습니다.

1. HotPotQA(지식 기반 질의응답) 성능
표준 RAG 벤치마크인 HotPotQA에서, Pleias-RAG-350m과 Pleias-RAG-1B 모두 4B(40억) 파라미터 미만의 기존 SLM(Small Language Model)들을 압도하는 성능을 기록했습니다. 예를 들어, HotPotQA 기준으로 Pareto-optimal(성능-모델 크기 모두 우수) 모델로 평가되었습니다.

2. 2Wiki(다중 문서 기반 질의응답) 성능
2Wiki 등 다중 문서 기반 질의응답에서도, Qwen-2.5-7B, Llama-3.1-8B, Gemma-3-4B 등 대형 모델과 견줄 만한 결과를 보였습니다. 특히 멀티링구얼 환경에서도 일관된 성능을 유지하는 점이 두드러집니다.

3. 실제 응용 시나리오에서의 평가
실제 모바일·온디바이스 환경 등 제한된 인프라에서 테스트해도, 빠른 응답과 높은 신뢰성(출처 인용 포함)을 확인할 수 있었습니다. 실용적 관점에서, 저사양 환경에서도 RAG 기반 AI 서비스를 구현할 수 있다는 점이 큰 장점입니다. 다만, 극도로 복잡한 추론이나 비유럽권 언어에서는 아직 한계가 있습니다.

이러한 실험 결과들은 Pleias-RAG가 소형 모델의 한계(환각, 신뢰성 부족)를 효과적으로 극복할 수 있음을 보여줍니다. 특히 출처 인용 내장, 멀티링구얼 지원은 향후 다양한 AI 서비스에 중요한 시사점을 제공합니다.

✅ 성능은 어떨까요?

Pleias-RAG는 HotPotQA와 2Wiki라는 첨단 벤치마크에서 각각 최상위권(4B 미만 SLM 중 최고), 대형 모델(Qwen-2.5-7B, Llama-3.1-8B, Gemma-3-4B)과 유사이라는 점수를 기록했습니다. 이는 기존 소형 RAG 모델을 뛰어넘는 수준의 성능입니다.

실제로 모바일·온디바이스 환경, 특히 출처 인용이 중요한 질의응답 서비스에서도 꽤 자연스러운 반응을 보입니다.
물론 아직 "복잡한 추론" 분야에서 약간의 미흡함이 존재하긴 하지만, 현재 수준만으로도 다양한 서비스에 활용 가능성이 큽니다.

✅ 어디에 쓸 수 있을까요?

Pleias-RAG는 단지 새로운 모델이 아니라, "작은 AI도 신뢰성·투명성을 갖춘 정보 비서가 될 수 있다"는 흥미로운 방향성을 제시합니다.
앞으로는 더 많은 언어 확장, 예를 들면 비유럽권 언어 지원, 도메인 특화 RAG까지 인식하게 될 가능성이 큽니다.

모바일/온디바이스 AI 비서: 저사양 환경에서도 신뢰성 높은 질의응답, 출처 인용 챗봇 구현
법률·의료·교육 분야의 근거 기반 정보 제공: 답변의 출처를 명확히 제시해야 하는 분야에서 활용
멀티링구얼 검색 및 요약 서비스: 다양한 유럽 언어로 된 문서 검색·요약·인용 기능 제공

이러한 미래가 Pleias-RAG로 인해 조금 더 가까워졌습니다.

✅ 개발자가 지금 할 수 있는 일은?

Pleias-RAG에 입문하려면, 기본적인 RAG 파이프라인과 멀티링구얼 NLP에 대한 이해가 필요합니다.
(아직 공식 코드/모델이 공개되지 않았다면, 논문 및 Common Corpus, 기존 RAG 오픈소스 예제를 참고해보세요.)

실무에 적용하고 싶다면?
Common Corpus 등 공개 데이터를 확보하고, 다양한 질의응답/검색/요약 테스트를 테스트하면서 모델을 실제 서비스에 통합하는 것이 핵심입니다. 또한, 도메인별 추가 파인튜닝이나 출처 인용 포맷 커스터마이징도 병행되어야 합니다.

✅ 마치며

Pleias-RAG는 단순한 기술적 진보를 넘어, 신뢰성·투명성·멀티링구얼 RAG라는 더 큰 의미의 패러다임 전환을 향한 중요한 이정표입니다. 이 기술이 제시하는 가능성은 AI 서비스 산업, 정보 검증 생태계의 미래를 재정의할 잠재력을 가지고 있습니다.

우리는 지금 AI 신뢰성 혁신의 중요한 변곡점에 서 있으며, Pleias-RAG는 그 여정의 핵심 동력이 될 것입니다. 당신이 이 혁신적인 기술을 활용하여 미래를 선도하는 개발자가 되어보는 건 어떨까요?

▶ 논문 원문 보러가기

✅ 같이 보면 좋은 참고 자료들

TRACE Back from the Future: A Probabilistic Reasoning Approach to Controllable Language Generation
- 논문 설명: 대규모 언어 모델(LM)이 발전함에 따라, 그들의 출력을 인간의 가치(예: 독성 제거)나 원하는 속성(예: 개인화, 주제)에 맞추기 위한 필요성이 증가하고 있습니다.
- 저자: Gwen Yidou Weng, Benjie Wang, Guy Van den Broeck
- 발행일: 2025-04-25
- PDF: 링크

First upper limits on the 21-cm signal power spectrum of neutral hydrogen at $z=9.16$ from the LOFAR 3C196 field
- 논문 설명: 재이온화 시대(EoR)에서의 중성 수소의 적색편이 21cm 신호는 저주파 라디오 기기인 저주파 배열(LOFAR)을 사용하여 탐지될 가능성이 있습니다.
- 저자: E. Ceccotti, A. R. Offringa, F. G. Mertens, L. V. E. Koopmans, S. Munshi, J. K. Chege, A. Acharya, S. A. Brackenhoff, E. Chapman, B. Ciardi, R. Ghara, S. Ghosh, S. K. Giri, C. Höfer, I. Hothi, G. Mellema, M. Mevius, V. N. Pandey, S. Zaroubi
- 발행일: 2025-04-25
- PDF: 링크

Four Elements to Rule Them All: Abundances are Rigidly Coupled in the Milky Way Disk
- 논문 설명: 화학 태깅은 은하 고고학의 중심 과제이지만, 별 형성 장소를 독특하게 식별하기 위해서는 충분히 구별 가능한 원소의 풍부함이 필요합니다.
- 저자: Jennifer Mead, Rebeca De La Garza, Melissa Ness
- 발행일: 2025-04-25
- PDF: 링크