ai 효율성1 27배 작은 AI도 더 많이 생각하면 대형 모델을 이긴다: 추론 시간 확장성의 혁명 대규모 언어 모델(LLM)의 성능 향상을 위해 강화학습이 널리 활용되고 있는 가운데, DeepSeek-AI와 칭화대학교의 공동 연구에서 추론 시간 확장성의 중요성이 밝혀졌습니다. 연구진은 '자기 원칙 비평 튜닝'(SPCT)이라는 새로운 학습 방법을 통해 27배 작은 AI 모델이 병렬 샘플링을 활용해 대형 모델과 동등한 성능을 발휘할 수 있음을 증명했습니다. 특히 DeepSeek-GRM-27B 모델은 32개 샘플을 이용한 직접 투표로 671B 파라미터 크기의 모델과 비슷한 성능을 달성했으며, 메타 보상 모델이 안내하는 투표는 8개 샘플만으로도 최상의 결과를 얻었습니다. 이는 모델 크기를 확장하는 것보다 추론 시간을 확장하는 것이 더 효율적임을 보여주는 혁신적인 연구 결과입니다. 대규모 언어 모델과 강화학습.. 2025. 4. 17. 이전 1 다음