Super Kawaii Cute Cat Kaoani
728x90
SMALL

xai 3

[paper] Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (NeurIPS 2022)

대형 모델이 많이 연구되고 있고 일부는 상용화가 되고 있다. 우선 간단한 배경먼저 설명. 자연어처리 분야에서 최근 혁신을 일으켰던 것 중 하나가 large scale LM이었음. 초대형 혹은 거대 모델이라고도 불리는데 흔히 GPT3, lamda같이 이런 모델사이즈가 상당히 큰 모델들을 가지고 연구 많이 진행. 이런 것들이 잘된 이유는 결론적으로 진행해왔던 자연어처리의 많은 태스크들은 많은 학습데이터 필요 없이 단순히 모델 사이즈만 키웠을 때 모든 태스크에서 대부분의 성능이 좋게 나온 것을 알 수 있다. 대부분 모델 사이즈를 키워서 연구를 진행하고 있고 앞으로 더 초거대형모델들이 발전할 가능성이 높다. 하지만 이럼에도 불구하고 자연어처리 분야에서 잘 처리를 못했던 분야가 있는데 그 중 하나가 arithme..

NLP/paper 2023.03.30

[paper] Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference (EACL 2021)

[Abstract] 일부 NLP 작업은 자연어로 된 "작업 설명"과 함께 사전 훈련된 언어 모델을 제공하여 완전히 감독되지 않은 방식으로 해결할 수 있다(예: Radford 등, 2019). 이 접근 방식은 감독된 대응 방식보다 성능이 떨어지지만, 이 작업에서 우리는 두 가지 아이디어가 결합될 수 있음을 보여준다: 언어 모델이 주어진 작업을 이해하는 데 도움이 되도록 입력 예제를 클로즈 스타일의 구문으로 재구성하는 준지도 교육 절차인 PET(PatternExploiting Training)를 소개한다. 그런 다음 이러한 구문은 레이블이 지정되지 않은 예제의 큰 집합에 소프트 레이블을 할당하는 데 사용됩니다. 마지막으로, 표준 감독 훈련은 결과 훈련 세트에 대해 수행된다. 몇 가지 작업과 언어의 경우, P..

NLP/paper 2023.03.14

[paper] Rationale-Inspired Natural Language Explanations with Commonsense (ICML 2022)

Rationale-Inspired Natural Language Explanations with Commonsense – 논문 정리 [Abstract] @ NLE -> 모델이 예측한 결과에 대한 설명을 사람이 이해할 수 있는 자연어로 생성해서 제공하는 방법. @ ER(추출 합리성, 추출 근거) -> 입력의 의미있는 부분 (하위집합) Extractive rationales와 NLE는 기계학습 모델에 대한 두가지 설명 유형이다. NLE는 ER보다 더 포괄적일 수 있지만 기계 생성 NLE는 상식 지식 측면에서 부족한 것으로 나타났다. 이 논문에서 상식 지식이 ER과 NLE 사이의 다리 역할을 하여 두 유형의 설명을 더 잘 만들 수 있음을 보여준다. 자기 합리화 프레임 워크인 RExC를 소개한다. (엔드투엔드 ..

NLP/paper 2023.02.27
728x90
반응형
LIST