Super Kawaii Cute Cat Kaoani
728x90
SMALL

nlp 35

[paper] One Fits All:Power General Time Series Analysis by Pretrained LM 논문 리뷰

최근까지의 시계열 Foundation 모델 연구를 살펴보면, 크게 거대 언어 모델(Large Language Model, LLM)을 활용하는 방법론과, 시계열을 위한 자체 거대 모델을 고안하는 방법론으로 분류할 수 있습니다. (그림 1) 거대 언어 모델 기반의 방법론은 어떻게 거대 언어 모델을 활용하는지에 따라 1) Without Adaptation, 2) Adapt LLM, 3) Adapt to LLM 3가지로 분류됩니다. 그리고 자체 언어 모델을 구축하려는 연구에서는 거대 시계열 데이터를 수집하기 위한 노력과, 다양한 시계열 데이터를 학습하기 위한 하나의 통일된 모델을 만들려는 노력이 존재합니다.  [Abstract]시계열 분석 모델의 주요 과제 -> 학습을 위한 많은 양의 데이터가 부족하다ㅠ따라서 ..

NLP/paper 2025.04.01

[Reinforcement Learning] GRPO (Group Relative Policy Optimization)

DeepSeek R1에서 사용했다고 하는 GRPO 강화학습 방법에 대해 공부해보자! 기존 LLM 학습 방식 : 사전 훈련 -> 지도 학습 (SFT) -> 강화 학습 (RL)DeepSeek 방식 : 사전 훈련 -> 강화 학습 (RL) DeepSeek 팀에서는 GRPO (Group Relative Policy Optimization) 이라는 새로운 강화학습 기법을 개발함. ✅ GRPO (Group Relative Policy Optimization) 작동 원리- 모델이 여러개의 답변을 생성함.- 미리 정의된 규칙에 따라 각각의 답변에 점수를 매김- 더 높은 점수를 받은 답변을 학습하여 개선함 (강화 학습) 💡 기존 RLHF 강화 학습 방식과 다르게 사람이 직접 피드백을 줄 필요 없이 자동화된 방식으로 훈련..

NLP/LLM 2025.02.03

[paper] DATAINF: EFFICIENTLY ESTIMATING DATA INFLUENCEIN LORA-TUNED LLMS AND DIFFUSION MODELS (ICLR 2024)

아래부터는 논문 전체 번역본입니다.  [Abstract]학습 데이터 포인트의 영향을 정량화하는 것은 머신러닝 모델의 출력을 이해하고 AI 파이프라인의 투명성을 향상시키는 데 매우 중요합니다. 영향 함수는 원칙적이고 대중적인 데이터 귀속 방법이지만, 그 계산 비용 때문에 종종 사용하기 어렵습니다. 이 문제는 대규모 언어 모델과 텍스트-이미지 모델 설정에서 더욱 두드러집니다. 본 연구에서는 대규모 생성 AI 모델에 실용적인 효율적인 영향 근사 방법인 DataInf를 제안합니다. 계산이 쉬운 폐쇄형 표현을 활용하여, DataInf는 계산 및 메모리 효율성 측면에서 기존의 영향 계산 알고리즘을 능가합니다. 우리의 이론적 분석은 DataInf가 LoRA와 같은 매개변수 효율적인 미세 조정 기술에 특히 적합하다는 ..

NLP/paper 2025.01.03

[paper] Data-efficient Fine-tuning for LLM-based Recommendation (SIGIR 202

데이터 Pruning 작업을 제안. LLM을 파인튜닝하기 위해 최적의 데이터만 남긴다!→ 이 선택된 데이터셋을 ‘코어셋(coreSet)’이라고 한다. coreset은 보통 사람이 선택하거나 비효율적인 방법뿐이었다.따라서, Pruning을 할때모델에 영향을 많이 주는 영향력있는 데이터셋을 고르도록 하고,Pruning을 낮은 cost로 진행 하는 것을 목표로 한다.이걸 위해서 이 논문에서는 아래 두가지 점수를 통합한 새로운 Pruning 방법을 제안한다.영향력 점수(Influence score) : 각 샘플을 제거하는 것이 전체 성능에 미치는 영향을 정확하게 추정하기 위해 도입된다. → pruning의 cost를 낮추고, 영향력 점수를 얻기 위해 작은 크기의 대리 모델(Surrogate Model)을 사용한..

NLP/paper 2024.12.30

[paper] Training Large Language Models to Reason in aContinuous Latent Space (meta)

- 언어적 추론 OUT 잠재공간 추론 IN -Meta에서 LLM의 추론 능력을 상당히 향상시키는 COCONUT(Chain of CONtinUous Thought) 패러다임을 공개했습니다. LLM의 last hidden state를 "continuous thought"라고 부르는 reasoning state로 취급하고 이를 다시 직접 모델에 feed back 함으로써 잠재 공간에서의 추론 (latent reasoning)을 유도하는 기법입니다. 분석 결과, 너비우선탐색(BFS)과 비슷한 양상의 추론 패턴을 띄었다고 합니다. Coconut: 모델인가 프롬프팅 기법인가?Coconut은 대규모 언어 모델(LLM)의 추론 능력을 향상시키기 위한 새로운 패러다임으로, 연속 잠재 공간에서 추론을 수행하는 방법입니다...

NLP/paper 2024.12.11

[paper] Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models (EMNLP 2024)

Prometheus 2: 다른 언어 모델 평가에 특화된 오픈 소스 언어 모델 [Abstract]GPT-4와 같은 독점 LM은 종종 다양한 LM의 응답 품질을 평가하는 데 사용됩니다. 그러나 투명성, 통제 가능성 및 경제성을 포함한 우려 사항은 평가에 특화된 오픈 소스 LM의 개발에 강력한 동기를 부여합니다. 반면에, 기존의 개방형 평가자 LM은 1) 인간이 할당한 점수와 크게 다른 점수를 발행하고, 2) 가장 널리 사용되는 두 가지 평가 형태인 직접 평가와 쌍별 순위 지정을 모두 수행할 수 있는 유연성이 부족하다는 치명적인 단점을 보이고 있습니다. 또한 맞춤형 평가 기준에 따라 평가할 수 있는 능력이 없는 경우가 많으며 대신 유용성 및 무해성과 같은 일반적인 속성에 중점을 둡니다. 이러한 문제를 해결하기..

NLP/paper 2024.12.09

[paper] StraGo : Harnessing Strategic Guidance for Prompt Optimization

[간단 내용 정리]STRAGO와 기존 프롬프트 최적화 방법의 차이점 STRAGO는 기존 프롬프트 최적화 방법들과 다음과 같은 주요 차이점을 가지고 있습니다. 편향 없는 반사적 최적화: STRAGO는 이전의 반사 기반 방법들과 달리 성공적인 사례와 실패한 사례를 모두 분석하여 편향을 방지합니다. 이를 통해 작업 성공에 필요한 핵심 요소를 식별하고 실패 원인을 이해하며, 보다 안정적이고 신뢰할 수 있는 프롬프트 개선을 가능하게 합니다.123 예를 들어, MedQA 작업에서 초기 프롬프트의 정확도가 77.83%일 때, APO는 STRAGO보다 더 많은 오류를 수정하지만 (90개의 오류 샘플 수정 vs 70개의 오류 샘플 수정), 더 많은 올바른 샘플에도 부정적인 영향을 미칩니다 (95개의 올바른 샘플에 부정적..

NLP/paper 2024.11.14

[paper] Assisting in Writing Wikipedia-like Articles From Scratchwith Large Language Models (NAACL 2024)

[간단 내용 정리]우리는 사전 작성 단계를 자동화하는 새로운 시스템인 스톰을 제안합니다. 스톰은 주제를 다시 검색하고 LLM을 사용하여 날카로운 질문을 던지고 인터넷에서 신뢰할 수 있는 정보를 다시 검색하여 개요를 만듭니다.LLM으로 긴~ 형식의 아티클(like 위키피디아)을 처음부터 작성한다.→ 다양한 분야의 전문가 관점 답변을 거친 뒤, 합성하여 글쓰기를 한다.본격적으로 작성하기 전에 웹 조사를 하고 개요를 어떻게 쓸건지 준비하는 과정을 거친다.(1) 다양한 관점에서 사전 작성 단계를 모델링 및 사전조사(2) 그 다양한 전문가들이 답변을 하기 위해 신뢰할 수 있는 인터넷 자료들에 기반하여 대화를 시뮬레이션한다.(3) 수집된 정보를 큐레이팅하여 문서를 작성한다. (검색 및 다각적인 질문 요청을 통한 주..

NLP/paper 2024.10.09
728x90
반응형
LIST