Super Kawaii Cute Cat Kaoani
728x90
SMALL

Rag 19

[Reinforcement Learning] GRPO (Group Relative Policy Optimization)

DeepSeek R1에서 사용했다고 하는 GRPO 강화학습 방법에 대해 공부해보자! 기존 LLM 학습 방식 : 사전 훈련 -> 지도 학습 (SFT) -> 강화 학습 (RL)DeepSeek 방식 : 사전 훈련 -> 강화 학습 (RL) DeepSeek 팀에서는 GRPO (Group Relative Policy Optimization) 이라는 새로운 강화학습 기법을 개발함. ✅ GRPO (Group Relative Policy Optimization) 작동 원리- 모델이 여러개의 답변을 생성함.- 미리 정의된 규칙에 따라 각각의 답변에 점수를 매김- 더 높은 점수를 받은 답변을 학습하여 개선함 (강화 학습) 💡 기존 RLHF 강화 학습 방식과 다르게 사람이 직접 피드백을 줄 필요 없이 자동화된 방식으로 훈련..

NLP/LLM 2025.02.03

[paper] DATAINF: EFFICIENTLY ESTIMATING DATA INFLUENCEIN LORA-TUNED LLMS AND DIFFUSION MODELS (ICLR 2024)

아래부터는 논문 전체 번역본입니다.  [Abstract]학습 데이터 포인트의 영향을 정량화하는 것은 머신러닝 모델의 출력을 이해하고 AI 파이프라인의 투명성을 향상시키는 데 매우 중요합니다. 영향 함수는 원칙적이고 대중적인 데이터 귀속 방법이지만, 그 계산 비용 때문에 종종 사용하기 어렵습니다. 이 문제는 대규모 언어 모델과 텍스트-이미지 모델 설정에서 더욱 두드러집니다. 본 연구에서는 대규모 생성 AI 모델에 실용적인 효율적인 영향 근사 방법인 DataInf를 제안합니다. 계산이 쉬운 폐쇄형 표현을 활용하여, DataInf는 계산 및 메모리 효율성 측면에서 기존의 영향 계산 알고리즘을 능가합니다. 우리의 이론적 분석은 DataInf가 LoRA와 같은 매개변수 효율적인 미세 조정 기술에 특히 적합하다는 ..

NLP/paper 2025.01.03

[paper] Data-efficient Fine-tuning for LLM-based Recommendation (SIGIR 202

데이터 Pruning 작업을 제안. LLM을 파인튜닝하기 위해 최적의 데이터만 남긴다!→ 이 선택된 데이터셋을 ‘코어셋(coreSet)’이라고 한다. coreset은 보통 사람이 선택하거나 비효율적인 방법뿐이었다.따라서, Pruning을 할때모델에 영향을 많이 주는 영향력있는 데이터셋을 고르도록 하고,Pruning을 낮은 cost로 진행 하는 것을 목표로 한다.이걸 위해서 이 논문에서는 아래 두가지 점수를 통합한 새로운 Pruning 방법을 제안한다.영향력 점수(Influence score) : 각 샘플을 제거하는 것이 전체 성능에 미치는 영향을 정확하게 추정하기 위해 도입된다. → pruning의 cost를 낮추고, 영향력 점수를 얻기 위해 작은 크기의 대리 모델(Surrogate Model)을 사용한..

NLP/paper 2024.12.30

[paper] Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models (EMNLP 2024)

Prometheus 2: 다른 언어 모델 평가에 특화된 오픈 소스 언어 모델 [Abstract]GPT-4와 같은 독점 LM은 종종 다양한 LM의 응답 품질을 평가하는 데 사용됩니다. 그러나 투명성, 통제 가능성 및 경제성을 포함한 우려 사항은 평가에 특화된 오픈 소스 LM의 개발에 강력한 동기를 부여합니다. 반면에, 기존의 개방형 평가자 LM은 1) 인간이 할당한 점수와 크게 다른 점수를 발행하고, 2) 가장 널리 사용되는 두 가지 평가 형태인 직접 평가와 쌍별 순위 지정을 모두 수행할 수 있는 유연성이 부족하다는 치명적인 단점을 보이고 있습니다. 또한 맞춤형 평가 기준에 따라 평가할 수 있는 능력이 없는 경우가 많으며 대신 유용성 및 무해성과 같은 일반적인 속성에 중점을 둡니다. 이러한 문제를 해결하기..

NLP/paper 2024.12.09

Claude MCP(Model Context Protocol) 내용 정리

참고 자료 : https://www.anthropic.com/news/model-context-protocol해당 글은 앤트로픽의 블로그를 참고하였습니다.  앤트로픽에서 저장소, 비즈니스 도구, 개발 환경 등과 같은 데이터가 있는 시스템에 AI 비서를 연결하기 위한 새로운 표준인 'MCP(Model Context Protocol)'을 오픈소스로 공개했다!MCP의 목적은 프론티어 모델이 더 나은, 관련성 있는 응답을 생성하도록 돕는 것이다.  새로운 데이터 소스가 왔을 때 사용자가 커스텀 개발하는 것이 불가피하기 때문에 진정한 커넥티드 시스템을 확장하기가 어렵다.-> 이를 MCP로 해결할 수 있다.  AI 시스템을 데이터 소스와 연결하기 위한 보편적인 개방형 표준을 제공하여 단일 프로토콜로 대체한다. 그러..

NLP/LLM 2024.12.09

[paper] StraGo : Harnessing Strategic Guidance for Prompt Optimization

[간단 내용 정리]STRAGO와 기존 프롬프트 최적화 방법의 차이점 STRAGO는 기존 프롬프트 최적화 방법들과 다음과 같은 주요 차이점을 가지고 있습니다. 편향 없는 반사적 최적화: STRAGO는 이전의 반사 기반 방법들과 달리 성공적인 사례와 실패한 사례를 모두 분석하여 편향을 방지합니다. 이를 통해 작업 성공에 필요한 핵심 요소를 식별하고 실패 원인을 이해하며, 보다 안정적이고 신뢰할 수 있는 프롬프트 개선을 가능하게 합니다.123 예를 들어, MedQA 작업에서 초기 프롬프트의 정확도가 77.83%일 때, APO는 STRAGO보다 더 많은 오류를 수정하지만 (90개의 오류 샘플 수정 vs 70개의 오류 샘플 수정), 더 많은 올바른 샘플에도 부정적인 영향을 미칩니다 (95개의 올바른 샘플에 부정적..

NLP/paper 2024.11.14

[paper] Assisting in Writing Wikipedia-like Articles From Scratchwith Large Language Models (NAACL 2024)

[간단 내용 정리]우리는 사전 작성 단계를 자동화하는 새로운 시스템인 스톰을 제안합니다. 스톰은 주제를 다시 검색하고 LLM을 사용하여 날카로운 질문을 던지고 인터넷에서 신뢰할 수 있는 정보를 다시 검색하여 개요를 만듭니다.LLM으로 긴~ 형식의 아티클(like 위키피디아)을 처음부터 작성한다.→ 다양한 분야의 전문가 관점 답변을 거친 뒤, 합성하여 글쓰기를 한다.본격적으로 작성하기 전에 웹 조사를 하고 개요를 어떻게 쓸건지 준비하는 과정을 거친다.(1) 다양한 관점에서 사전 작성 단계를 모델링 및 사전조사(2) 그 다양한 전문가들이 답변을 하기 위해 신뢰할 수 있는 인터넷 자료들에 기반하여 대화를 시뮬레이션한다.(3) 수집된 정보를 큐레이팅하여 문서를 작성한다. (검색 및 다각적인 질문 요청을 통한 주..

NLP/paper 2024.10.09
728x90
반응형
LIST