Super Kawaii Cute Cat Kaoani
728x90
SMALL

GPT 3

[paper] 거대 언어 모델과 In-context learning을 이용한 자연어 추론 학습 데이터 자동 생성 (KCC 2023)

Automated Generation of Natural Language Inference Training Data using Large Language Models and In-context Learning [요약] 자연어 추론은 주어진 두 문장(전제, 가설) 사이의 논리적인 관계를 분석하는 자연어처리 태스크이며, 두 문장(전제, 가설) 사이에 연관성이 있으면 ‘함의’, 모순이 있으면 ‘모순’, 연관성이 없으면 ‘중립’으로 분류된다. 딥러닝 모델은 자연어 추론 분야에서 우수한 성능을 보이고 있지만, 모델의 복잡한 구조로 인해 어떤 근거(Rationale)를 가지고 결론을 도출하였는지 해석하기 어렵다는 문제가 있으며, 특정 도메인의 경우에는 학습 데이터가 존재하지 않거나 이를 구축하는 데 많은 시간과 자..

NLP/paper 2023.07.27

[paper] Verify-and-Edit: A Knowledge-Enhanced Chain-of-Thought Framework (arxiv2023)

Verify-and-Edit A Knowledge-Enhanced Chain-of-Thought Framework [Abstract] 대형 언어 모델(LLM)이 NLP의 표준이 되면서 생성 및 추론 작업에서 우수한 성능을 보여주므로 가장 치명적인 단점 중 하나는 사실 정확성이 부족하다는 것입니다. 사실이 아닌 텍스트를 생성하면 성능이 저하될 뿐만 아니라 응용 프로그램의 신뢰성과 유효성이 저하됩니다. 체인 오브생각(CoT) 프롬프트는 해석 가능한 추론 체인을 생성하여 복잡한 추론 작업에 대한 신뢰와 모델 성능을 향상시키지만 여전히 지식 집약적인 작업에서 사실성 문제로 어려움을 겪고 있습니다. 본 논문에서는 외부 지식에 따라 추론 체인을 사후 편집하여 예측 사실성을 높이려는 CoT 프롬프트에 대한 검증 및 ..

NLP/paper 2023.07.05

[paper] Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (NeurIPS 2022)

대형 모델이 많이 연구되고 있고 일부는 상용화가 되고 있다. 우선 간단한 배경먼저 설명. 자연어처리 분야에서 최근 혁신을 일으켰던 것 중 하나가 large scale LM이었음. 초대형 혹은 거대 모델이라고도 불리는데 흔히 GPT3, lamda같이 이런 모델사이즈가 상당히 큰 모델들을 가지고 연구 많이 진행. 이런 것들이 잘된 이유는 결론적으로 진행해왔던 자연어처리의 많은 태스크들은 많은 학습데이터 필요 없이 단순히 모델 사이즈만 키웠을 때 모든 태스크에서 대부분의 성능이 좋게 나온 것을 알 수 있다. 대부분 모델 사이즈를 키워서 연구를 진행하고 있고 앞으로 더 초거대형모델들이 발전할 가능성이 높다. 하지만 이럼에도 불구하고 자연어처리 분야에서 잘 처리를 못했던 분야가 있는데 그 중 하나가 arithme..

NLP/paper 2023.03.30
728x90
반응형
LIST