Super Kawaii Cute Cat Kaoani
728x90
SMALL

LangChain 14

[Reinforcement Learning] GRPO (Group Relative Policy Optimization)

DeepSeek R1에서 사용했다고 하는 GRPO 강화학습 방법에 대해 공부해보자! 기존 LLM 학습 방식 : 사전 훈련 -> 지도 학습 (SFT) -> 강화 학습 (RL)DeepSeek 방식 : 사전 훈련 -> 강화 학습 (RL) DeepSeek 팀에서는 GRPO (Group Relative Policy Optimization) 이라는 새로운 강화학습 기법을 개발함. ✅ GRPO (Group Relative Policy Optimization) 작동 원리- 모델이 여러개의 답변을 생성함.- 미리 정의된 규칙에 따라 각각의 답변에 점수를 매김- 더 높은 점수를 받은 답변을 학습하여 개선함 (강화 학습) 💡 기존 RLHF 강화 학습 방식과 다르게 사람이 직접 피드백을 줄 필요 없이 자동화된 방식으로 훈련..

NLP/LLM 2025.02.03

[paper] Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models (EMNLP 2024)

Prometheus 2: 다른 언어 모델 평가에 특화된 오픈 소스 언어 모델 [Abstract]GPT-4와 같은 독점 LM은 종종 다양한 LM의 응답 품질을 평가하는 데 사용됩니다. 그러나 투명성, 통제 가능성 및 경제성을 포함한 우려 사항은 평가에 특화된 오픈 소스 LM의 개발에 강력한 동기를 부여합니다. 반면에, 기존의 개방형 평가자 LM은 1) 인간이 할당한 점수와 크게 다른 점수를 발행하고, 2) 가장 널리 사용되는 두 가지 평가 형태인 직접 평가와 쌍별 순위 지정을 모두 수행할 수 있는 유연성이 부족하다는 치명적인 단점을 보이고 있습니다. 또한 맞춤형 평가 기준에 따라 평가할 수 있는 능력이 없는 경우가 많으며 대신 유용성 및 무해성과 같은 일반적인 속성에 중점을 둡니다. 이러한 문제를 해결하기..

NLP/paper 2024.12.09

[paper] StraGo : Harnessing Strategic Guidance for Prompt Optimization

[간단 내용 정리]STRAGO와 기존 프롬프트 최적화 방법의 차이점 STRAGO는 기존 프롬프트 최적화 방법들과 다음과 같은 주요 차이점을 가지고 있습니다. 편향 없는 반사적 최적화: STRAGO는 이전의 반사 기반 방법들과 달리 성공적인 사례와 실패한 사례를 모두 분석하여 편향을 방지합니다. 이를 통해 작업 성공에 필요한 핵심 요소를 식별하고 실패 원인을 이해하며, 보다 안정적이고 신뢰할 수 있는 프롬프트 개선을 가능하게 합니다.123 예를 들어, MedQA 작업에서 초기 프롬프트의 정확도가 77.83%일 때, APO는 STRAGO보다 더 많은 오류를 수정하지만 (90개의 오류 샘플 수정 vs 70개의 오류 샘플 수정), 더 많은 올바른 샘플에도 부정적인 영향을 미칩니다 (95개의 올바른 샘플에 부정적..

NLP/paper 2024.11.14
728x90
반응형
LIST