Super Kawaii Cute Cat Kaoani
728x90
SMALL

NLP 40

[paper] LLaRA : Large Language Recommendation Assistant (SIGIR 2024)

해당 논문에서 LLM은 Llama2-7B를 사용하였음.  1. Hybrid Prompt Design 2. Curriculum Prompt Tuning    -> 학습의 전반부에는 쉬운 데이터, 학습이 거듭됨에 따라 어려운 데이터를 활용하는 학습 전략 - 전반부 : text only prompt 활용, LLM을 워밍업시키며, sequential recommendation에 대한 기본 패턴을 알려주는 단계 - 후반부 : hybrid prompt 활용, behavior knowledge를 LLM에 주입시키는 단계

NLP/paper 2024.08.09

RAG 프로세스 개념 정리

참고 : 테디노트, LangChain밋업 발표자료[ RAG 프로세스 ]과 으로 나눌 수있다. 에서는 4가지 파트로 나눌 수 있다.(실제 LLM 서비스를 만들 때 사전에 처리하는 작업이기 때문)문서 로드(document loader),다양한 형태의 문서를 로드 →스플릿 : 긴 문서의 경우 LLM이 한번에 입력을 받을 수 없기 때문에 문서를 작은 조각으로 나누게 된다. 이 작업을 ‘청킹 작업’ 이라고 한다. →이제 벡터 DB 공간에 저장하기 위해서 임베딩 과정 수행 → 벡터 DB에 저장   (실시간으로 유저가 질문을 하고 실시간 처리를 수행)유저의 입력 →입력 문장 임베딩 처리 →Retrieve 검색을 통해 원하는 문서의 내용을 가져옴 →프롬프트를 통해 LLM에 전달해서 원하는 답변을 출력 → Answer...

NLP/RAG 2024.07.12

[LLM] 테스트케이스 작성

모델은 7B부터 13B 사이 크기만 사용!최신 LLM들의 특징들을 기록할 예정이다. [EEVE-instruct] (=Solar)- 한국어 모델 중 가장 뛰어난 성능을 보임 [Qwen2-7B]- 한국어 파인튜닝된 모델을 사용. - 기본 질의에도 제대로 답을 못함- 종종 중국어가 섞여서 출력됨. 맘에 안듬 [Ko-PlatYi-6B]- 한국어 파인튜닝된 모델- 사이즈가 작아서 성능이 잘 안나오는 겅향이 있음  [Lamma3-8B]- 굉장히 좋은 듯- 답변에 자신이 없으면 이모티콘을 같이 내뱉는 편- 무료! [Mistral]- 낫벧 [GPT4o]- 조흥ㅁ- 근데 이제 비싸다 [Claude 3.5 Sonnet]하이쿠(가장 작음) -> 소네트(중간) -> 오푸스(가장 큼)- 우와 왜이렇게 빨라 - 문장 질도 좋다...

NLP/LLM 2024.07.02

[concept] Retrieval-Augmented Generation (RAG)

(아 뭐야 알고보니 해봤던거였음 Langchain은 RAG 시스템을 구축하기 위해 사용하는 툴이다..!) LLM에 학습 과정에 포함되지 않은 지식을 주입하는 방법은 크게 2가지. 1. Fine-Tuning : 새로운 지식에 관한 텍스트 데이터 소스를 이용해서 LLM의 파라미터를 파인튜닝한다.2. RAG : 새로운 지식에 관한 텍스트 데이터를 임베딩해서 vector stores에 저장하고, 프롬프트 구성을 진행할 때 외부 데이터로부터 가져온 텍스트 데이터를 함께 이용해여 프롬프트를 구성한뒤 LLM으로부터 답변을 얻어낸다. 즉, 외부 텍스트데이터와 LLM에 주어진 질문을 결합해서 질문에 대한 답변을 생성해내는 방법론이다.   RAG는 기본적으로 외부의 정보를 참조하여 작동하는 구조이므로 인터넷 연결이 필요하..

NLP/RAG 2024.02.28

[paper] 거대 언어 모델과 In-context learning을 이용한 자연어 추론 학습 데이터 자동 생성 (KCC 2023)

Automated Generation of Natural Language Inference Training Data using Large Language Models and In-context Learning [요약] 자연어 추론은 주어진 두 문장(전제, 가설) 사이의 논리적인 관계를 분석하는 자연어처리 태스크이며, 두 문장(전제, 가설) 사이에 연관성이 있으면 ‘함의’, 모순이 있으면 ‘모순’, 연관성이 없으면 ‘중립’으로 분류된다. 딥러닝 모델은 자연어 추론 분야에서 우수한 성능을 보이고 있지만, 모델의 복잡한 구조로 인해 어떤 근거(Rationale)를 가지고 결론을 도출하였는지 해석하기 어렵다는 문제가 있으며, 특정 도메인의 경우에는 학습 데이터가 존재하지 않거나 이를 구축하는 데 많은 시간과 자..

NLP/paper 2023.07.27

[paper] Verify-and-Edit: A Knowledge-Enhanced Chain-of-Thought Framework (arxiv2023)

Verify-and-Edit A Knowledge-Enhanced Chain-of-Thought Framework [Abstract] 대형 언어 모델(LLM)이 NLP의 표준이 되면서 생성 및 추론 작업에서 우수한 성능을 보여주므로 가장 치명적인 단점 중 하나는 사실 정확성이 부족하다는 것입니다. 사실이 아닌 텍스트를 생성하면 성능이 저하될 뿐만 아니라 응용 프로그램의 신뢰성과 유효성이 저하됩니다. 체인 오브생각(CoT) 프롬프트는 해석 가능한 추론 체인을 생성하여 복잡한 추론 작업에 대한 신뢰와 모델 성능을 향상시키지만 여전히 지식 집약적인 작업에서 사실성 문제로 어려움을 겪고 있습니다. 본 논문에서는 외부 지식에 따라 추론 체인을 사후 편집하여 예측 사실성을 높이려는 CoT 프롬프트에 대한 검증 및 ..

NLP/paper 2023.07.05

[paper] Synthetic Prompting Generating Chain of Thought Demonstrations for Large Language Models (arxiv2023)

[Abstract] 대형 언어 모델은 단계별 시연을 통해 답을 찾도록 안내하는 생각의 사슬 프롬프트를 사용하여 다양한 추론 작업을 수행할 수 있습니다. 그러나 프롬프트의 품질은 모델에 제공된 데모에 따라 달라지며, 많은 프롬프트를 수작업으로 생성하는 데 비용이 많이 듭니다. 우리는 모델이 스스로 더 많은 예제를 생성하도록 유도하기 위해 몇 가지 수작업 예제를 활용하고 더 나은 추론을 이끌어내기 위해 효과적인 시연을 선택하는 방법인 합성 프롬프트를 소개합니다. 우리의 방법은 새로운 예제를 생성하기 위해 역방향 프로세스와 순방향 프로세스를 번갈아 사용합니다. 역방향 프로세스는 샘플링된 추론 체인과 일치하는 질문을 생성하여 질문을 해결할 수 있고 명확하게 합니다. 전진 프로세스는 질문에 대한 보다 상세한 추론..

NLP/paper 2023.07.04

[paper] Large Language Models are Human-Level Prompt Engineers (ICLR2023)

[Abstract] 자연어 명령어를 조건화함으로써 LLM(Large Language Model)은 범용 컴퓨터로서 인상적인 기능을 보여주었습니다. 그러나 작업 성능은 모델을 조종하는 데 사용되는 프롬프트의 품질에 크게 좌우되며, 가장 효과적인 프롬프트는 사람이 직접 만든 것입니다. 고전적인 프로그램 합성과 신속한 엔지니어링에 대한 인간 접근 방식에서 영감을 받아 자동 명령 생성 및 선택을 위한 자동 프롬프트 엔지니어1(APE)을 제안합니다. 우리의 방법에서, 우리는 선택된 점수 함수를 최대화하기 위해 LLM이 제안한 명령 후보 풀을 검색하여 최적화된 명령을 "프로그램"으로 취급합니다. 선택한 명령의 품질을 평가하기 위해 선택한 명령에 이어 다른 LLM의 제로샷 성능을 평가합니다. 광범위한 실험에 따르면 ..

NLP/paper 2023.06.15
728x90
반응형
LIST