Super Kawaii Cute Cat Kaoani

NLP/paper

[paper] 거대 언어 모델과 In-context learning을 이용한 자연어 추론 학습 데이터 자동 생성 (KCC 2023)

zozni 2023. 7. 27. 13:13
728x90
반응형
SMALL

Automated Generation of Natural Language Inference Training Data using Large Language Models and In-context Learning

 

[요약]

 자연어 추론은 주어진 두 문장(전제, 가설) 사이의 논리적인 관계를 분석하는 자연어처리 태스크이며, 두 문장(전제, 가설) 사이에 연관성이 있으면 함의’, 모순이 있으면 모순’, 연관성이 없으면 중립으로 분류된다. 딥러닝 모델은 자연어 추론 분야에서 우수한 성능을 보이고 있지만, 모델의 복잡한 구조로 인해 어떤 근거(Rationale)를 가지고 결론을 도출하였는지 해석하기 어렵다는 문제가 있으며, 특정 도메인의 경우에는 학습 데이터가 존재하지 않거나 이를 구축하는 데 많은 시간과 자원이 필요할 수 있다. 본 논문에서는 학습 데이터가 존재하지 않는 신규 도메인에서 자연어 추론 학습 데이터를 자동으로 생성할 수 있는 방법을 제안하고, 동시에 자연어 추론의 해석 가능성을 높이기 위한 근거 데이터를 함께 자동으로 생성하는 방법을 제안한다.

 

1.  

 

자연어 추론(Natural Language Inference, NLI)은 주어진 두 문장(전제, 가설) 사이의 논리적인 관계를 분석하는 자연어처리 태스크이다. 두 문장(전제, 가설) 사이에 연관성이 있으면 함의(Entailment), 모순이 있으면 모순(Contradiction), 연관성이 없으면 중립(Neutral)으로 분류된다. 자연어 추론은 다양한 응용 분야에 사용될 수 있다. 예를 들어, 질의응답 시스템에서 질문과 답변 사이의 일치 여부를 파악하여 정확한 답변을 제공할 수 있고, 또한 기계 번역에서는 원문과 번역문 사이의 일치 여부를 파악하여 번역의 정확도를 높일 수 있다.

최근 자연어 처리 분야에서 뛰어난 성능을 보이는 딥러닝 방법 중 하나는 Large Scale Language Model이다. 이 모델은 GPT-3, Lambda와 같은 초대형 모델로 알려져 있으며, 이를 중심으로 많은 연구가 진행되고 있다.

이러한 딥러닝 모델은 복잡한 구조로 인해 모델이 어떤 근거(Rationale)를 가지고 결론을 도출하였는지 해석하기 어렵다는 문제가 있다[2]. 또한, 특정 도메인의 경우에는 학습 데이터가 존재하지 않거나 이를 구축하는 데 많은 시간과 자원이 필요할 수 있다.

본 논문에서는 거대 언어 모델과 In-context learning을 이용하여, 학습 데이터가 존재하지 않는 신규 도메인에서 자연어 추론 학습 데이터를 자동으로 생성할 수 있는 방법을 제안하고, 동시에 자연어 추론의 해석 가능성을 높이기 위한 근거 데이터를 함께 자동으로 생성하는 방법을 제안한다.

 

2. 관련 연구

 

일반적으로 교사 학습 기반의 자연어 추론(Supervised NLI)에서는 {전제(P), 가설(H), 레이블(L: E, C, N)}로 구성된 데이터 세트(PHL)를 학습에 사용한다. 그러나 비교사 학습 기반의 자연어 추론(Unsupervised NLI)에서는 레이블을 사용할 수 없으므로 NLI 모델을 학습하는데 어려움이 있다. [1]에서는 문장 변환 규칙을 활용하여 자연어 추론 모델 학습에 사용할 수 있는 PHL Triplet을 절차적으로 생성하는 방법을 제안하였다.

본 논문에서는 [1]의 문장 변환 규칙을 수정하여 자연어 추론 근거 데이터를 함께 추출할 수 있도록 하였으며, [1]의 문장 변환 규칙 대신에 거대 언어 모델과 In-context learning을 이용하여 자연어 추론 학습 데이터와 근거를 자동으로 추출하는 방법을 제안한다.

 

3. PHL + Rationale (PHLR) 생성

 

본 논문에서는 [1]에서 제안한 PHL Triplet 생성 규칙을 수정하여 자연어 추론 근거 데이터를 함께 추출할 수 있도록 하고, [1]의 문장 변환 규칙 대신에 거대 언어 모델과 In-context learning을 이용하여 자연어 추론 학습 데이터와 근거를 자동으로 추출하는 방법을 제안한다.

[1]과 유사하게 MS-COCO 텍스트 데이터에서 문장만을 추출하여 전제(Premise) 문장으로 사용하고, 문장 변환 기법을 활용하여 가설(Hypothesis) 문장과 레이블(Label)을 추출하고, 추가적으로 근거(Rationale)를 함께 추출한다.

 

3.1 규칙 + BERT 기반 학습 데이터 자동 생성

 

다음은 규칙 + BERT를 사용한 NLI 레이블에 대한 문장 변환 예시 중 일부를 보여준다. 예시 문장에 포함된 *word*는 생성된 NLI 데이터에 대한 근거(Rationale)가 된다.

 

1)   함의(Entailment)

-      Pronoun Substitution: 문장의 명사를 대명사로 대체하여 가설을 만든다. 예를 들어, “*boy* has a dog”이라는 전제로부터 “*He* has a dog”이라는 가설을 만든다.

-      Counting: 문장에서 공통 상위어를 가진 명사의 개수를 세고 “There are {count} {상위어}s present”와 같은 여러 템플릿을 사용하여 가설을 만든다. 예를 들어, “There are *elephants* and *giraffes* in the zoo”라는 전제로부터 “There are *two* *animals* present”라는 가설을 만든다.

 

2)   모순(Contradiction)

-      Contradictory Words (adj): WordNet을 사용하여 문장의 해당 형용사를 반의어로 대체하여 가설을 만든다. 예를 들어, “A *tall* girl is standing”이라는 전제로부터 “A *short* girl is standing”이라는 가설을 만든다.

-      Subject Object Swap: 문장의 subjectobject에 해당하는 단어의 자리를 바꾼다. 예를 들어, “A *clock* is standing on top of a concrete *pillar*”라는 전제로부터 “A *pillar* is standing on top of a concrete *clock*”이라는 가설을 만든다.

-      Irrelevant Hypothesis: 전제 문장과 전혀 관련 없는 다른 문장을 가설로 샘플링 한다. 이 경우는 근거를 추출하지 않는다. 예를 들어, “An old man is wearing an odd hat”이라는 전제로부터 “A man jumping skis at a ski area”라는 가설을 만든다.

 

3)   중립(Neutral)

-      Adding Modifiers: 문장에서 해당 명사에 대한 수식어를 추가하여 가설을 만든다. 예를 들어, “Cute cat is sleeping” 이라는 전제로부터 “Cute *gray* cat is sleeping”이라는 가설을 만든다. 또 다른 예로, “A man is exercising”이라는 전제로부터 “A man is exercising *in the park*”라는 가설을 만든다.

 

3.2 거대 언어 모델과 In-context learning 기반 학습 데이터 자동 생성

 

 다음은 거대 언어 모델과 In-context learning을 이용하여 자연어 추론 학습 데이터와 근거를 자동으로 추출하는 방법으로, GPT3.5 모델 중 ‘text-davinci-003’ 모델을 사용하여 각 NLI 레이블에 대한 문장 변환 예시 중 일부를 보여준다. 예시 문장에 포함된 *word*는 생성된 NLI 데이터에 대한 근거(Rationale)가 된다.

 

1)   함의(Entailment)

-      Hypernym Substitution: prompt로 다음 문장을 사용한다. “In a sentence, a noun with a parent word is changed to a parent word, and a sentence with * attached to both sides of the word is output. Print only one sentence. Examples include: Input: {a black dog is sleeping} Output: {a black *animal* is sleeping} what is the output when the input sentence is Premise?”

 

2)   모순(Contradiction)

-      Negation Introduction: prompt로 다음 문장을 사용한다. “Apply negation to the sentence and output the sentence with * on either side of the changed words. Print only one sentence. Examples include: Input: {Empty fog covered streets in the night} output: {Empty fog *did not* cover streets in the night} what is the output when the input sentence is Premise?

-      Number Substitution: “Find the word whose dependency tag is nummod in the sentence, change it to another nummod, and output the sentence with * on both sides of the changed word. Examples include: Input: {Two women waiting at a bench} output: {*Five* women waiting at a bench} what is the output when the input sentence is Premise?

 

3)   중립(Neutral)

-      Adding Modifiers: prompt로 다음 문장을 사용한다. “Add modifiers to decorate nouns in sentences, and output sentences with * on both sides of the added words. Print only one sentence. Examples include: Input: {A car parked near the fence} output: {A *silver* car parked near the fence} what is the output when the input sentence is Premise?

 

4. 실험 및 결과

 

[1]과 유사하게 MS-COCO 데이터셋을 이용하여 NLI 학습 데이터를 자동 생성하여, 학습 데이터로 (E: 1,010, C: 1,050, N: 1,000) 3,060개를 사용하였으며, 자동 생성한 데이터 중에서 각 레이블 당 60개씩 총 180개를 수작업으로 오류를 수정하여 평가 데이터로 사용하였다.

1은 규칙 기반 변환 방법과 거대 언어 모델(LLM) 기반 변환 방식의 학습 데이터 생성 정확도를 측정한 것으로, 각 규칙 당 30개씩 샘플링하여 정확도를 측정하였다. 이를 통해 거대 언어 모델과 In-context learning을 이용하여 PHLR 데이터를 생성한 것이 더 정확도가 높다는 사실을 알 수 있다.

2BERT(baseline)은 거대 언어 모델 기반 변환 방식으로 생성한 학습 데이터로, BERT 기반의 NLI 분류 모델로 성능을 평가한 것이고, BERT+Rationale 모델은 [2]에서 제안한 모델로 근거 분석 결과를 이용하여 모델의 각 레이어의 입력마다 근거 임베딩을 더해준 모델이다. BERT+Rationale 모델의 성능이 BERT(baseline) 모델보다 6.6%P 높은 것으로 보아, 자동 생성된 근거 데이터가 유용함을 알 수 있다.

 3은 규칙 기반 변환 방법과 거대 언어 모델(LLM) 기반 변환 방식으로 생성한 학습 데이터를 학습한 모델을 다른 도메인인 eSNLI의 평가 데이터로 성능을 측정한 결과이다. 도메인이 바뀌어 전체적인 성능은 하락하였지만, 거대 언어 모델 기반 변환 방식으로 생성한 학습 데이터의 품질이 더 우수함을 알 수 있다.

 

표 1. PHLR 데이터 생성 정확도 성능

 

표 2. LLM 기반 생성 데이터의 NLI 성능 (F1)

 

표 3. 규칙 기반과 LLM 기반의 eSNLI 도메인 성능(F1)

5. 결론

 

 본 논문에서는 [1]에서 제안한 PHL Triplet 생성 규칙을 수정하여 자연어 추론 근거 데이터를 함께 추출할 수 있도록 하고, [1]의 문장 변환 규칙 대신에 거대 언어 모델과 In-context learning을 이용하여 자연어 추론 학습 데이터와 근거를 자동으로 추출하는 방법을 제안하였다. 실험 결과, 거대 언어 모델과 In-context learning을 이용하여 생성한 데이터가 품질이 더 우수하였으며, 함께 추출한 근거 데이터도 유용함을 보였다.

 향후 연구로는, NLI 추출 휴리스틱을 더욱 다양화하고, 학습 데이터와 함께 추출한 근거 데이터를 활용하여 NLI 결과의 해석 가능성을 높일 수 있는 방법을 연구할 예정이다.

 

감사의 글

 

 이 논문은 2023년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구임(No. 2023-0-00369, (4세부) 전문지식 대상 판단결과의 이유/근거를 설명 가능한 전문가 의사결정 지원 인공지능 기술개발)

 

참 고 문 헌

 

[1] Neeraj Varshney et al., “Unsupervised Natural Language Inference Using PHL Triplet Generation.” ACL, pp. 2003-2016, 2022.

[2] Y. Jung and C. Lee, “Korean Sentiment Analysis using Rationale.” Proc. of the 34th Annual Conference on Human and Cognitive Language Technology, pp. 160-163, 2022. (In Korean)

728x90
반응형
LIST