Super Kawaii Cute Cat Kaoani
728x90
SMALL

NLP/LLM 3

[Reinforcement Learning] GRPO (Group Relative Policy Optimization)

DeepSeek R1에서 사용했다고 하는 GRPO 강화학습 방법에 대해 공부해보자! 기존 LLM 학습 방식 : 사전 훈련 -> 지도 학습 (SFT) -> 강화 학습 (RL)DeepSeek 방식 : 사전 훈련 -> 강화 학습 (RL) DeepSeek 팀에서는 GRPO (Group Relative Policy Optimization) 이라는 새로운 강화학습 기법을 개발함. ✅ GRPO (Group Relative Policy Optimization) 작동 원리- 모델이 여러개의 답변을 생성함.- 미리 정의된 규칙에 따라 각각의 답변에 점수를 매김- 더 높은 점수를 받은 답변을 학습하여 개선함 (강화 학습) 💡 기존 RLHF 강화 학습 방식과 다르게 사람이 직접 피드백을 줄 필요 없이 자동화된 방식으로 훈련..

NLP/LLM 2025.02.03

Claude MCP(Model Context Protocol) 내용 정리

참고 자료 : https://www.anthropic.com/news/model-context-protocol해당 글은 앤트로픽의 블로그를 참고하였습니다.  앤트로픽에서 저장소, 비즈니스 도구, 개발 환경 등과 같은 데이터가 있는 시스템에 AI 비서를 연결하기 위한 새로운 표준인 'MCP(Model Context Protocol)'을 오픈소스로 공개했다!MCP의 목적은 프론티어 모델이 더 나은, 관련성 있는 응답을 생성하도록 돕는 것이다.  새로운 데이터 소스가 왔을 때 사용자가 커스텀 개발하는 것이 불가피하기 때문에 진정한 커넥티드 시스템을 확장하기가 어렵다.-> 이를 MCP로 해결할 수 있다.  AI 시스템을 데이터 소스와 연결하기 위한 보편적인 개방형 표준을 제공하여 단일 프로토콜로 대체한다. 그러..

NLP/LLM 2024.12.09

[LLM] 테스트케이스 작성

모델은 7B부터 13B 사이 크기만 사용!최신 LLM들의 특징들을 기록할 예정이다. [EEVE-instruct] (=Solar)- 한국어 모델 중 가장 뛰어난 성능을 보임 [Qwen2-7B]- 한국어 파인튜닝된 모델을 사용. - 기본 질의에도 제대로 답을 못함- 종종 중국어가 섞여서 출력됨. 맘에 안듬 [Ko-PlatYi-6B]- 한국어 파인튜닝된 모델- 사이즈가 작아서 성능이 잘 안나오는 겅향이 있음  [Lamma3-8B]- 굉장히 좋은 듯- 답변에 자신이 없으면 이모티콘을 같이 내뱉는 편- 무료! [Mistral]- 낫벧 [GPT4o]- 조흥ㅁ- 근데 이제 비싸다 [Claude 3.5 Sonnet]하이쿠(가장 작음) -> 소네트(중간) -> 오푸스(가장 큼)- 우와 왜이렇게 빨라 - 문장 질도 좋다...

NLP/LLM 2024.07.02
728x90
반응형
LIST