DeepSeek R1에서 사용했다고 하는 GRPO 강화학습 방법에 대해 공부해보자! 기존 LLM 학습 방식 : 사전 훈련 -> 지도 학습 (SFT) -> 강화 학습 (RL)DeepSeek 방식 : 사전 훈련 -> 강화 학습 (RL) DeepSeek 팀에서는 GRPO (Group Relative Policy Optimization) 이라는 새로운 강화학습 기법을 개발함. ✅ GRPO (Group Relative Policy Optimization) 작동 원리- 모델이 여러개의 답변을 생성함.- 미리 정의된 규칙에 따라 각각의 답변에 점수를 매김- 더 높은 점수를 받은 답변을 학습하여 개선함 (강화 학습) 💡 기존 RLHF 강화 학습 방식과 다르게 사람이 직접 피드백을 줄 필요 없이 자동화된 방식으로 훈련..