콘텐츠 (37)
한빛미디어
Loong: 대규모 검증기를 통한 긴 사고의 연쇄 합성
23 0한빛미디어
SATQuest: 논리적 추론 평가 및 강화 학습을 위한 검증기
58 0한빛미디어
56 0한빛미디어
DuPO: 신뢰할 수 있는 LLM 자기 검증을 가능하게 하는 이중 선호 최적화
94 0한빛미디어
IFDECORATOR: 검증 가능한 보상을 통한 지시 따르기 강화 학습 래핑
106 0한빛미디어
CompassVerifier: LLM 평가 및 결과 보상을 위한 통합적이고 강력한 검증기
93 0한빛미디어
Re:Form — 확장 가능한 형식적 소프트웨어 검증에서 인간의 선입견 감소: RL과 LLM을 활용한 Dafny에 대한 예비 연구
100 0한빛미디어
CompassJudger-2: 검증 가능한 보상을 통한 일반 판사 모델로의 도약
128 0한빛미디어
LLM 코드 생성 검증에 대한 재고: 생성에서 테스트로
213 0한빛미디어
RLVER: 검증 가능한 감정 보상을 통한 공감 에이전트 강화 학습
172 0한빛미디어
Aha 모멘트 재조명: VLM은 추론 시간 스케일링에서 진정한 자기 검증이 가능한가?
221 0한빛미디어
속성 기반 테스트를 사용하여 LLM 코드 생성과 검증 연결하기
165 0한빛미디어
146 0한빛미디어
218 0한빛미디어
EmoNet-Voice: 음성 감정 인식을 위한 세밀하고 전문가 검증된 벤치마크
239 0한빛미디어
보상 모델을 통한 확장 가능한 코드 검증: 정확성과 처리량의 균형
143 0한빛미디어
Med-PRM: 단계별 가이드라인 검증 프로세스 보상을 통한 의료 추론 모델
286 0한빛미디어
ViCrit: 시각적 인식을 위한 검증 가능한 강화 학습 프록시 작업
145 0한빛미디어
140 0한빛미디어
DyePack: LLM의 테스트 세트 오염을 백도어를 사용하여 검증 가능하게 표시하기
186 0한빛미디어
추론 체육관: 검증 가능한 보상을 갖춘 강화 학습을 위한 추론 환경
134 0한빛미디어
190 0한빛미디어
rStar-Coder: 대규모 검증 데이터셋을 활용한 경쟁적 코드 추론 확장
224 0한빛미디어
VerIPO: 비디오-LLM에서 검증자 가이드 반복 정책 최적화를 통한 장기 추론 육성
164 0