[Abstract]
트랜스포머 기반 모델은 각 훈련 데이터 세트에 대해 훈련될 때 수많은 자연어 추론(NLI) 벤치마크에서 인상적인 성능을 달성한다. 그러나 경우에 따라 교육용 샘플을 사용할 수 없거나 수집하려면 시간이 많이 걸리고 리소스가 많이 소모될 수 있습니다. 본 연구에서, 우리는 위의 과제를 해결하고 인간 주석 훈련 샘플을 사용할 수 없는 패러다임인 비지도 NLI에 대한 탐색적 연구를 제시한다. 우리는 학습에 사용할 수 있는 레이블이 없는 데이터의 범위가 다른 PH, P 및 NPH의 세 가지 설정으로 그것을 조사한다. 해결책으로, 우리는 일련의 문장 변환을 활용하여 인간 주석 훈련 데이터의 필요성을 우회하여 NLI 모델을 훈련하기 위한 PHL(Premise, Hyposis, Label) 삼중항들을 수집하는 절차적 데이터 생성 접근 방식을 제안한다. 여러 NLI 데이터 세트에 대한 포괄적인 실험은 제안된 접근 방식이 PH, P 및 NPH 설정에서 각각 최대 66.75%, 65.9%, 65.39%의 정확도로 나타나 기존의 모든 비지도 기준선을 능가한다는 것을 보여준다. 또한 인간 주석 훈련 데이터 세트(500개 인스턴스)의 0.1%에 불과한 것으로 모델을 미세 조정하면 동일한 500개 인스턴스에서 처음부터 훈련된 모델보다 12.2% 높은 정확도를 얻을 수 있다. 이러한 우수한 성능에 힘입어 고품질 작업별 데이터를 수집하기 위한 권장 사항으로 결론을 내린다.
[1. Introduction]
자연어 추론(NLI)은 "가설"이 "전제"가 주어졌을 때 "가설"이 참인지, 거짓인지, 또는 결정되지 않은 "중립"인지를 결정하는 작업이다. 최첨단 모델은 SNLI(Bowman et al., 2015), Multi-NLI(Williams et al., 2018) 및 Dialogue NLI(Wellleck et al., 2019)와 같은 여러 NLI 벤치마크에서 인간 성과와 일치했다. 이러한 고성능은 부분적으로 SNLI(570k), Multi-NLI(392k) 및 Dialog-NLI(310k)와 같은 대규모 교육 데이터 세트의 가용성에 기인할 수 있다. 새로운 도메인의 경우, 이러한 교육 데이터를 수집하는 것은 시간이 많이 걸리고 상당한 리소스가 필요할 수 있다. 사용 가능한 교육 데이터가 전혀 없다면 어떻게 될까요?
그림 1: 감독되지 않은 NLI에 대한 절차적 데이터 생성 접근 방식 설명 문장은 전제로 취급되며, 문장 변환 세트를 사용하여 각 레이블 (Entailment-E, 모순-C, 중립-N)에 조건화된 여러 가설이 생성된다.
이 연구에서, 우리는 위의 질문을 해결하고 과제 학습을 위해 인간 주석 훈련 데이터가 제공되지 않는 패러다임인 비지도 NLI를 탐구한다. 우리는 학습에 사용할 수 있는 레이블이 없는 데이터의 범위가 다른 PH, P 및 NPH의 세 가지 비지도 설정을 연구한다. PH 설정에서는 레이블이 지정되지 않은 전제-가설 쌍을 사용할 수 있다. 즉, 실측 자료 레이블이 없는 데이터를 사용할 수 있다. P-설정에서, 단지 일련의 전제들, 즉 라벨이 부착되지 않은 부분 입력들만을 사용할 수 있다. 세 번째 설정 NPH는 교육 데이터 세트에 대한 액세스를 제공하지 않으므로 이 작업에서 고려된 세 가지 비지도 설정 중 가장 어렵다.
우리는 절차적 데이터 생성 접근법을 사용하여 이러한 감독되지 않은 설정을 해결할 것을 제안한다. 주어진 문장을 전제(P)로 취급하는 우리의 접근 방식은 문장 변환 집합을 사용하여 각 레이블(L = 수반, 모순, 중립)에 해당하는 다중 가설(H)을 생성한다(그림 1 참조). 이로 인해 NLI 모델 교육에 사용할 수 있는 PHL(Premise-Hypothesis-Label) 삼중항이 생성된다. P 및 PH 설정에서 우리는 PHL 삼중항 생성을 위해 사용 가능한 전제에 문장 변환을 직접 적용한다. 그러나 NPH 설정에서는 구내를 사용할 수 없습니다. 우리는 위키피디아와 단편과 같은 다양한 원시 텍스트 말뭉치에서 문장을 추출하는 전제 생성 단계를 통합하여 이 과제를 해결한다. 우리는 이러한 추출된 문장을 PHL 삼중항 생성의 전제로서 사용한다. 그림 2에서는 네 가지 설정(감독된 설정과 비감독된 설정 3개)을 비교하고 각 설정에 대한 NLI 모델을 개발하는 접근 방식을 보여준다.

그림 2: 감독된 NLI와 감독되지 않은 세 가지 설정을 비교합니다. 감독되지 않은 설정의 경우, 우리는 NLI 모델을 훈련시키기 위해 절차적으로 PHL 삼중항들을 생성한다. NPH 설정에서 전제 풀은 위키피디아와 같은 원시 텍스트 말뭉치에서 수집되어 PHL 삼중항 생성에 사용된다. P 설정에서, 우리는 이러한 변환을 사용 가능한 전제에 직접 적용한다. PH 설정에서, 우리는 P 설정 모델을 활용하여 제공된 레이블이 없는 PH 쌍을 유사 레이블링하고 필터링한 다음 이 유사 레이블링된 데이터 세트를 사용하여 NLI 모델을 훈련시킨다.
제안된 접근 방식의 효과를 평가하기 위해, 우리는 여러 NLI 데이터 세트를 사용하여 포괄적인 실험을 수행한다. 우리는 우리의 접근 방식이 PH, P 및 NPH 설정에서 SNLI 데이터 세트에서 각각 66.75%, 65.9%, 65.39%의 정확도로 나타나 기존의 모든 비지도 방법을 ~13% 능가한다는 것을 보여준다. 또한 몇 가지 인간 주석이 달린 레이블이 있는 인스턴스가 제공되는 낮은 데이터 체제에서 실험을 수행하고 이러한 인스턴스로 모델을 추가로 미세 조정하면 처음부터 미세 조정된 모델보다 일관되게 더 높은 성능을 달성한다는 것을 보여준다. 예를 들어, 레이블이 지정된 인스턴스가 500개뿐인 경우, 우리 모델은 SNLI 및 MNLI 데이터 세트에서 각각 8.4%, 10.4% 더 높은 정확도를 달성한다. 마지막으로 무작위로 선택된 인간 주석 인스턴스 대신 '적대적' 인스턴스로 미세 조정하면 모델의 성능이 더욱 향상된다는 것을 보여준다. SNLI와 MNLI에서 각각 12.2%, 10.41% 더 높은 정확도로 이어진다.
요약하면, 우리의 기여는 다음과 같습니다.
1. 우리는 NLI에 대한 세 가지 비지도 설정을 탐색하고 기존 접근 방식을 최대 13% 능가하고 SNLI의 최첨단 비지도 성능을 66.75%로 높이는 절차적 데이터 생성 접근법을 제안한다.
2. 또한 우리는 낮은 데이터 체제에서 실험을 수행하고 제공된 인스턴스로 모델을 추가로 미세 조정하면 SNLI 및 MNLI 데이터 세트에서 각각 8.4%, 10.4% 더 높은 정확도를 달성한다는 것을 입증한다.
3. 마지막으로 무작위로 선택한 인스턴스 대신 미세 조정을 위해 '적대적' 인스턴스를 사용하면 정확도가 더욱 향상된다는 것을 보여준다. SNLI와 MNLI에서 각각 12.2%, 10.41% 더 높은 정확도로 이어진다. 이러한 우수한 성능에 힘입어 고품질 작업별 데이터를 수집하기 위한 권장 사항으로 결론을 내린다.
우리는 절차적 데이터 생성 접근법의 구현1을 공개하고 우리의 작업이 작업별 모델을 훈련하기 위해 값비싼 인간 주석 데이터에 대한 의존도를 줄이는 기술 개발에 대한 연구를 장려하기를 바란다.
[2. 관련 연구]
감독 되지 않은 질문-답변 : 학습을 위한 인간 주석 훈련 데이터가 제공되지 않는 비지도 패러다임은 NLP의 QA(Question Answering) 작업에 대해 대부분 탐구되었다. 두드러진 접근 방식에는 QA 쌍을 합성하고 합성 생성된 데이터에 대한 모델을 교육하는 것이 포함된다. 루이스 외 연구진(2019); Dhingra et al.(2018); Fabbri et al.(2020)은 템플릿 기반 접근법을 제안하고 Puri et al.(2020)은 GPT-2(Radford et al., 2019)와 같은 생성 모델을 활용하여 QA 쌍을 합성한다. 배너지와 바랄(2020)은 상식적 지식을 위한 합성 그래프를 만들고 지식 삼중항 학습을 제안한다. Wang et al.(2021)은 GPT-3(Brown et al., 2020)의 몇 안 되는 샷 추론 기능을 활용하여 SuperGLUE(Wang et al., 2019) 작업에 대한 훈련 데이터를 합성한다. 시각적 질문 답변을 위해 Gokhale 등(2020)은 부정, 연결 및 배너지 등을 위한 템플릿 기반 데이터 확대 방법을 사용하고, Banerjee 등(2021)은 이미지 캡션을 사용한다. Gokhale et al.(2021)은 시각 및 언어 추론 모델에 대한 분산 강력한 최적화 설정에서 언어 변환을 사용한다.
비지도 NLI : NLI에서 Cui et al. (2020)은 멀티모달 정렬 대조 분리 학습 방법(MACD)을 제안하고 BERT 기반 텍스트 인코더를 훈련시킨다. 그들은 텍스트 인코더에 의해 학습된 전제 표현과 가설 사이의 코사인 유사성을 기반으로 레이블(E, C, N)을 할당한다. 우리의 접근 방식은 일련의 문장 변환에 기반한 절차적 데이터 생성 단계를 활용하고 다른 양식의 데이터를 활용하지 않기 때문에 MACD와 다르다. 우리는 실험에서 MACD를 기준선 중 하나로 사용한다.
[3. Unsupervised NLI]
NLI에서 전제-가설 쌍(P,H)은 입력으로 제공되며 시스템은 P와 H 사이의 관계 L {Entailment(함의), 모순, 중립}을 결정해야 한다. 감독된 설정에서, 일반적으로 사람이 사용하는 M개의 인스턴스로 구성된 레이블링된 데이터 세트

를 훈련에 사용할 수 있다. 그러나 감독 되지 않은 설정에서는 Li 레이블을 사용할 수 없으므로 NLI 시스템을 훈련하는 데 상당한 어려움이 있다. 이 표준 비지도 설정(PH라고 함)과 함께, 우리는 학습에 사용할 수 있는 레이블이 없는 데이터의 범위가 다른 두 가지 새로운 비지도 설정(P 및 NPH)을 고려한다.
PH 설정:

의 레이블이 없는 데이터 세트가 제공되는 표준 비지도 설정에 해당한다.
P-설정: 이 설정에서는 Dtrain의

만 제공됩니다. SNLI(Bowman et al., 2015) 및 MultiNLI(Williams et al., 2018)와 같은 대규모 NLI 데이터 세트가 군중 작업자에게 전제만 제시하고 각 레이블에 해당하는 가설을 작성하도록 요청하여 수집되었기 때문에 흥미로운 설정이다. 또한, 이 설정은 부분 입력만 제공되기 때문에 PH 설정보다 NLI 시스템을 훈련시키는데 더 어려운 과제를 제시한다.
NPH 설정: 여기서는 (부분 입력이 있더라도) 데이터 세트가 제공되지 않는다. 따라서, 그것은 본 연구에서 고려된 가장 어려운 감독되지 않은 NLI 설정에 해당한다. 이 설정은 테스트 데이터 세트에 대해 추론을 해야 하지만 해당 교육 데이터 세트는 어떤 형태로도 사용할 수 없는 시나리오에 관심이 있다.
[3. Unsupervised NLI]
NLI에서 전제-가설 쌍(P,H)은 입력으로 제공되며 시스템은 P와 H 사이의 관계 L {Entailment(함의), 모순, 중립}을 결정해야 한다. 감독된 설정에서, 일반적으로 사람이 사용하는 M개의 인스턴스로 구성된 레이블링된 데이터 세트
Dtrain= 를 훈련에 사용할 수 있다. 그러나 감독 되지 않은 설정에서는 Li 레이블을 사용할 수 없으므로 NLI 시스템을 훈련하는 데 상당한 어려움이 있다. 이 표준 비지도 설정(PH라고 함)과 함께, 우리는 학습에 사용할 수 있는 레이블이 없는 데이터의 범위가 다른 두 가지 새로운 비지도 설정(P 및 NPH)을 고려한다.
PH 설정: PH 쌍 의 레이블이 없는 데이터 세트가 제공되는 표준 비지도 설정에 해당한다.
P-설정: 이 설정에서는 Dtrain의 전제( )만 제공됩니다. SNLI(Bowman et al., 2015) 및 MultiNLI(Williams et al., 2018)와 같은 대규모 NLI 데이터 세트가 군중 작업자에게 전제만 제시하고 각 레이블에 해당하는 가설을 작성하도록 요청하여 수집되었기 때문에 흥미로운 설정이다. 또한, 이 설정은 부분 입력만 제공되기 때문에 PH 설정보다 NLI 시스템을 훈련시키는데 더 어려운 과제를 제시한다.
NPH 설정: 여기서는 (부분 입력이 있더라도) 데이터 세트가 제공되지 않는다. 따라서, 그것은 본 연구에서 고려된 가장 어려운 감독되지 않은 NLI 설정에 해당한다. 이 설정은 테스트 데이터 세트에 대해 추론을 해야 하지만 해당 교육 데이터 세트는 어떤 형태로도 사용할 수 없는 시나리오에 관심이 있다.
[3. Unsupervised NLI]
NLI에서 전제-가설 쌍(P,H)은 입력으로 제공되며 시스템은 P와 H 사이의 관계 L {Entailment(함의), 모순, 중립}을 결정해야 한다. 감독된 설정에서, 일반적으로 사람이 사용하는 M개의 인스턴스로 구성된 레이블링된 데이터 세트
Dtrain= 를 훈련에 사용할 수 있다. 그러나 감독 되지 않은 설정에서는 Li 레이블을 사용할 수 없으므로 NLI 시스템을 훈련하는 데 상당한 어려움이 있다. 이 표준 비지도 설정(PH라고 함)과 함께, 우리는 학습에 사용할 수 있는 레이블이 없는 데이터의 범위가 다른 두 가지 새로운 비지도 설정(P 및 NPH)을 고려한다.
PH 설정: PH 쌍 의 레이블이 없는 데이터 세트가 제공되는 표준 비지도 설정에 해당한다.
P-설정: 이 설정에서는 Dtrain의 전제( )만 제공됩니다. SNLI(Bowman et al., 2015) 및 MultiNLI(Williams et al., 2018)와 같은 대규모 NLI 데이터 세트가 군중 작업자에게 전제만 제시하고 각 레이블에 해당하는 가설을 작성하도록 요청하여 수집되었기 때문에 흥미로운 설정이다. 또한, 이 설정은 부분 입력만 제공되기 때문에 PH 설정보다 NLI 시스템을 훈련시키는데 더 어려운 과제를 제시한다.
NPH 설정: 여기서는 (부분 입력이 있더라도) 데이터 세트가 제공되지 않는다. 따라서, 그것은 본 연구에서 고려된 가장 어려운 감독되지 않은 NLI 설정에 해당한다. 이 설정은 테스트 데이터 세트에 대해 추론을 해야 하지만 해당 교육 데이터 세트는 어떤 형태로도 사용할 수 없는 시나리오에 관심이 있다.
[3. Unsupervised NLI]
NLI에서 전제-가설 쌍(P,H)은 입력으로 제공되며 시스템은 P와 H 사이의 관계 L {Entailment(함의), 모순, 중립}을 결정해야 한다. 감독된 설정에서, 일반적으로 사람이 사용하는 M개의 인스턴스로 구성된 레이블링된 데이터 세트
Dtrain= 를 훈련에 사용할 수 있다. 그러나 감독 되지 않은 설정에서는 Li 레이블을 사용할 수 없으므로 NLI 시스템을 훈련하는 데 상당한 어려움이 있다. 이 표준 비지도 설정(PH라고 함)과 함께, 우리는 학습에 사용할 수 있는 레이블이 없는 데이터의 범위가 다른 두 가지 새로운 비지도 설정(P 및 NPH)을 고려한다.
PH 설정: PH 쌍 의 레이블이 없는 데이터 세트가 제공되는 표준 비지도 설정에 해당한다.
P-설정: 이 설정에서는 Dtrain의 전제( )만 제공됩니다. SNLI(Bowman et al., 2015) 및 MultiNLI(Williams et al., 2018)와 같은 대규모 NLI 데이터 세트가 군중 작업자에게 전제만 제시하고 각 레이블에 해당하는 가설을 작성하도록 요청하여 수집되었기 때문에 흥미로운 설정이다. 또한, 이 설정은 부분 입력만 제공되기 때문에 PH 설정보다 NLI 시스템을 훈련시키는데 더 어려운 과제를 제시한다.
NPH 설정: 여기서는 (부분 입력이 있더라도) 데이터 세트가 제공되지 않는다. 따라서, 그것은 본 연구에서 고려된 가장 어려운 감독되지 않은 NLI 설정에 해당한다. 이 설정은 테스트 데이터 세트에 대해 추론을 해야 하지만 해당 교육 데이터 세트는 어떤 형태로도 사용할 수 없는 시나리오에 관심이 있다.
위의 공식으로부터, 점점 더 적은 정보를 사용할 수 있게 됨에 따라 각 연속적인 설정(PH→P→NPH)에 따라 작업의 경도가 증가한다는 것을 추론할 수 있다. 각 설정의 과제를 해결하기 위해, 우리는 각 설정에 제공된 제한된 정보로부터 PHL 삼중항(섹션 4)을 절차적으로 생성하기 위한 파이프라인을 포함하는 2단계 접근 방식을 제안하고, 이어서 이 절차적으로 생성된 데이터를 사용하여 NLI 모델을 훈련시킨다(섹션 5). 그림 2는 4개의 NLI 설정(감독된 설정과 비감독된 설정 3개)의 차이를 강조하고 각 설정에 대한 NLI 모델을 개발하기 위한 우리의 접근 방식을 요약한다.
[4. PHL Triplet Generation]
레이블이 지정된 교육 데이터의 부재를 보완하기 위해, 우리는 일련의 문장 변환을 활용하고 NLI 모델 교육에 사용할 수 있는 PHL 삼중항들을 절차적으로 생성한다. P 및 PH 설정에서, 우리는 제공된 전제 문장에 이러한 변환을 적용한다. 전제가 제공되지 않는 NPH 설정에서, 우리는 다양한 원시 텍스트 말뭉치에서 문장을 추출하고 이러한 변환을 적용하여 PHL 삼중항체를 생성한다.
[4.1 P: Premise Generation]
우리는 COCO 캡션(Lin et al., 2014), ROC 스토리(Mostafazade et al., 2016) 및 Wikipedia와 같은 원시 텍스트 소스에서 문장을 추출하여 NPH 설정에 대한 전제 세트를 컴파일한다. 우리는 이러한 텍스트 소스를 쉽게 사용할 수 있고 여러 도메인의 다양한 문장을 많이 포함하고 있기 때문에 사용한다.
ROC Stories는 각각 5개의 문장으로 구성된 단편 소설 모음집이다. 우리는 이 모든 문장을 우리의 전제 풀에 포함한다. MS-COCO는 각각 5개의 캡션이 있는 이미지로 구성된 데이터 세트입니다.
우리는 모든 캡션을 우리의 전제 풀에 추가합니다. 위키피디아에서, 우리는 단락들을 개별 문장으로 분할하고 그것들을 우리의 전제 풀에 추가한다.
우리는 전제 수집 과정 동안 어떠한 문장 필터링도 수행하지 않는다. 그러나 각 변환(4.2항에서 설명)에는 PHL 삼중항 생성에 사용할 수 없는 전제 풀에서 자동으로 문장을 걸러내는 동사/형용사/명사의 존재와 같은 전제 조건이 있다.
[4.2 T: Transformation]
이제 각 NLI 레이블에 대한 문장 변환을 제시한다. 표 1은 이러한 변환으로부터 생성된 PHL 삼중수소의 예를 보여준다.
[4.2.1 Entailment(수반)]
NLI에서, 전제가 참이면 가설이 참이어야 할 때 레이블은 수반된다.
패러프레이징(PA): 패러프레이징은 다른 단어를 사용하여 텍스트(재 진술)의 의미를 표현하는 것에 해당하므로 수반 전제-가설 쌍을 초래한다. 우리는 페가수스(Zang et al., 2019) 도구를 사용하여 문장의 최대 10개의 패러프레이즈를 생성하고 원본 문장을 전제로 하여 가설로 사용한다.
스니펫 추출(ES): 의존성 구문 분석 트리를 사용하여 문장에서 의미 있는 스니펫을 추출하고 원본 문장을 전제로 가설로 사용한다. 구체적으로, 우리는 완전한 구문 또는 문장을 형성하는 하위 트리를 추출한다.
예를 들어 "빨간 셔츠를 입은 사람이 정원 근처를 달리고 있다"는 문장에서부터 "사람이 정원 근처를 달리고 있다", "사람이 뛰고 있다", "사람이 정원 근처에 있다" 등의 얽힌 가설을 만들어낸다. 우리는 스페이스를 사용하여 10가지 기술을 구현한다(Honnibal et al., 2020).
하이퍼닉 치환(HS): 단어의 하이퍼닉은 슈퍼타입이며, 예를 들어 "동물"은 "개"의 하이퍼닉이다. 우리는 WordNet(Miller, 1995)을 사용하여 하이퍼닉스를 수집하고 문장의 명사를 해당 하이퍼닉스로 대체하여 수반 가설을 만든다. 예를 들어 "검은 개가 자고 있다"는 전제로부터 "검은 동물이 자고 있다"를 만들어낸다. 이 경우 전제와 가설을 교환하면 '중립' 관계를 갖는 또 다른 PH 쌍을 제공한다는 점에 유의하십시오.
대명사 대체(PS): 여기서는 공간의 POS(Part-of-Speech) 태깅을 활용하여 명사를 매핑된 대명사로 경험적으로 대체한다. 예를 들어, "boy is dancing in arena" 문장에서 "boy"를 "he"로 대체하면 "boy is dancing in arena"라는 얽히고설킨 가설이 나온다.
카운트(CT): 여기서는 공통 하이퍼닉스를 가진 명사를 카운트하고 "There are {count} {hypernym}s present"와 같은 여러 템플릿을 사용하여 얽힘 가설을 생성한다. 예를 들어, "오토바이와 자동차가 주차되어 있다"라는 문장에서 "자동차 두 대가 주차되어 있다"는 가설을 만들어낸다. 우리는 또한 "차가 5대 있다"와 같은 카운트 값을 단순히 변경함으로써 동일한 템플릿을 사용하여 모순 가설을 만든다.
[4.2.2 Contradiction(모순)]
전제가 참이라면 가설이 절대 참일 수 없을 때 레이블은 모순이다.
모순어(CW): 우리는 명사(들) 및/또는 형용사(들)(공간 POS 태깅을 사용하여 식별됨)를 해당하는 모순어로 교체한다. 예를 들어 '큰 집에 산다'에서 '큰'을 '작은'으로 대체하면 '작은 집에 산다'는 모순된 가설이 나온다. 모순되는 형용사의 경우 워드넷에서 반의어를 수집하고 명사의 경우 gensim에서 'most_similar'라는 함수를 사용한다(Rehurek and Sojka, 2011).
모순동사(CV): 우리는 gensim으로부터 모순된 동사를 수집하고 다음과 같은 두 가지 방법으로 가설을 만든다: (i) 모순된 동사를 그것의 모순된 동사로 동사를 대체한다: 예를 들어, "A girl is walking"에서 우리는 "A girl is driving"이라는 가설을 만들고, (ii) 원래의 주어가 같은 전제 풀에서 다른 문장을 선택한다.예를 들어, "어린 소녀가 길에서 빠르게 운전하고 있다"와 "어머니와 스키를 타는 소녀가 있다"와 같은 문장이 있다. 두 번째 접근 방식은 인공적으로 생성된 PHL 세 쌍둥이에 다양성을 추가한다.
SOS(Subject Object Swap): 우리는 모순된 가설을 만들기 위해 문장의 주어와 객체를 교환한다. 예를 들어 "시계가 콘크리트 기둥 위에 서 있다"는 문장에서 "기둥이 콘크리트 시계 위에 서 있다"는 모순된 가설을 만들어낸다.
부정 입문(NI): 모순된 가설을 만들기 위해 문장에 부정을 도입한다.
예를 들어, "밤의 거리를 덮은 빈 안개"라는 문장에서 "밤의 거리를 덮은 빈 안개가 아니다"라는 가설을 만든다.
NS(Number Substitution): 여기서 우리는 문장에서 숫자(파스 트리에서 종속성 태그 'nummod'가 있는 토큰)를 변경합니다. 예를 들어 '차는 4개의 빨간불이 있다'라는 문장에서 '4'를 '7'로 바꾸면 모순된 가설이 나온다.
관련 없는 가설(IrH): 우리는 전제 문장과는 주어와 객체가 다른 문장을 샘플링한다. 예를 들어, "길가에 있는 고대 기념물에 서명하라"는 전제 하에, 우리는 "한 남자가 테니스공을 치러 간다"를 모순된 가설로 표본화한다.
[4.2.3 Neutral (중립)]
전제가 PH 쌍을 수반 또는 모순으로 분류하기에 충분한 정보를 제공하지 않을 때 레이블은 중립적이다.
수식자 추가(AM): 중립 가설을 생성하기 위해 명사에 대한 관련 수식자를 전제로 도입한다. 예를 들어, "펜스 근처에 주차된 차"라는 문장에서 명사 '카'에 수식어 '은'을 삽입하고 "펜스 근처에 주차된 은색 차"라는 가설을 만든다. 우리는 전제 풀에서 문장을 구문 분석하고 의존성 태그 'amod'와 POS 태그 'ADJ'가 있는 토큰을 선택하여 명사에 대한 관련 수식어를 수집한다.
ConceptNet(Con): ConceptNet(Speer et al., 2017) 관계('AtLocation', 'DefinedAs' 등)의 관련 정보를 전제에 추가하고 중립 가설을 만든다. 예를 들어, "바나나 한 묶음이 테이블 위에 있다"라는 문장에서 우리는 가설을 만든다.'AtLocation' 관계를 사용하여 "주방 테이블 위에 바나나 한 다발이 있다".
주어는 같지만 모순되지 않는 동사(SSNCV): 전제를 위해, 전제와 동일한 주어를 가지고, 추가적인 명사를 포함하지만 모순되는 동사가 없는 전제 풀에서 문장을 선택한다. 예를 들어 "어린 아이가 침대 커버를 씌운 침대에서 자고 있다"는 전제 하에 "가까운 의자를 끼고 침대에 누워 자는 아이"를 가설로 표본화한다.
우리는 수집된 PHL 삼중수소의 전제 및 가설을 교환하여 더 많은 예를 만들고 그에 따라 레이블을 변경합니다. 예를 들어, HS, ES 등에서 P와 H를 스왑하면 중성 예제가 되고, AM에서 P와 H를 스왑하면 Con이 수반 예제가 된다. 또한 변환 ES, HS, PS, SOS, NI는 전제 문장과 가설 문장 사이에 단어 중첩이 높은 PH 쌍을 초래하는 반면 변환 PA, CV, IrH, SSNCV 등은 단어 중첩이 낮은 PH 쌍을 초래한다는 점에 주목한다. 예제에 다양성을 더하기 위해 표 1과 같이 PA + ES (L = E), PA + CW (L = C)와 같은 동일한 문장에 복합 변환을 사용한다.

[4. Data Validation]
절차적으로 생성된 PHL 트리플렛의 정확성을 측정하기 위해 각 변환에 대해 무작위로 샘플링된 50개의 인스턴스를 검증한다. 우리는 PA, HS, PS, NI, NS, IrH, AM 변환의 경우 거의 모든 인스턴스가 올바른 레이블 할당을 받는다는 것을 발견했다. 변환 CW, Con, SSNCV는 레이블이 잘못된 몇 가지 인스턴스를 초래한다.
특히, SSNCV 변환은 최대 오류(5)를 초래합니다. 부록 B에는 그러한 사례의 예가 수록되어 있다. 소음이 없는 훈련 예를 갖는 것이 유익하지만, 그렇게 하는 것은 더 많은 인적 노력이 필요하고 데이터 수집 비용이 증가할 것이다. 따라서 본 연구에서는 인스턴스를 생성하거나 소음을 제거하는 데 인간의 노력을 투자하지 않고 절차적으로 생성된 데이터만 얼마나 잘 사용할 수 있는지 연구한다.
[5. Training NLI Model]
이 섹션에서는 감독되지 않은 각 설정에 대해 NLI 모델을 개발하기 위한 접근 방식을 설명합니다. (부록의) 표 13은 각 설정에 대해 생성된 PHL 데이터 세트의 크기를 보여준다.
[5.1 NPH-Setting]
우리는 COCO 캡션, ROC 스토리 및 위키피디아, 즉 P(COCO), P(ROC), P(Wiki)와 같은 원시 텍스트 소스에 대한 Premise Generation 함수(P)를 사용하여 일련의 전제를 컴파일하고 변환(T)을 적용하여 PHL 트리플렛을 생성한다. 그런 다음 NLI 작업에 대해 생성된 PHL 트리플렛을 사용하여 변압기 기반 3등급 분류 모델(섹션 6.1)을 교육한다.
[5.2 P-Setting]
이 약간 완화된 비지도 설정에서, 훈련 데이터 세트의 전제가 제공된다. 우리는 주어진 전제에 변환 함수(T)를 직접 적용하고 PHL 삼중항체를 생성한다. NPH 설정과 유사하게, 생성된 PHL 삼중항들을 사용하여 3등급 분류 모델이 훈련된다.
[5.3 PH-Setting]
이 설정에서는 레이블이 지정되지 않은 교육 데이터가 제공됩니다.
우리는 이 설정에 대한 모델을 개발하기 위한 2단계 접근법을 제시한다. 첫 번째 단계에서, 우리는 구내에서 PHL 삼중항들을 생성하고 생성된 PHL 삼중항들을 사용하여 모델을 훈련시킨다(P-설정과 동일).
두 번째 단계에서는 1단계에서 훈련된 모델을 사용하여 레이블이 지정되지 않은 PH 쌍을 유사 레이블링한다.
여기서 NLI 모델을 개발하기 위한 순진한 접근 방식은 이 유사 레이블링된 데이터 세트를 사용하여 훈련하는 것이다.
이 접근법은 확인 편향, 즉 모델에 의해 예측된 잘못된 유사 레이블에 과적합에 의해 제한된다(Arazo et al., 2020). 우리는 모델의 예측 신뢰도에 기초하여 유사 레이블링된 데이터 세트에서 인스턴스를 필터링하여 이를 해결한다. 우리는 최대 소프트맥스 확률(max Prob)을 신뢰 측도로 사용하고 최종 NLI 모델을 훈련하기 위해 예측 신뢰도가 높은 인스턴스만 선택한다. 이 접근법은 올바르게 분류된 예가 잘못 분류된 예보다 최대 소프트맥스 확률이 더 큰 경향이 있음을 보여주는 이전 연구(헨드릭스와 김펠, 2017)를 기반으로 한다. 또한, 우리는 최종 NLI 모델을 훈련시키는 두 가지 방법을 조사한다.
T(P)로 보강하기: 선택한 유사 레이블 데이터 세트 및 1단계에서 생성된 PHL 트리플렛을 사용하여 훈련합니다.
P-모델의 세부 조정: 처음부터 미세 조정하는 대신 선택한 유사 레이블 데이터 세트를 사용하여 1단계에서 얻은 모델을 추가로 미세 조정하십시오.
[6. Experiments]
[6.1 Experimental Setup]
데이터 세트: SNLI(Bowman et al., 2015), Multi-NLI(Williams et al., 2018), Dialogue NLI(Welleck et al., 2019), Breaking NLI(Glockner et al., 2018) 등 다양한 NLI 데이터 세트를 사용하여 포괄적인 실험을 수행한다.(versarial instance.
모델: 3등급 분류 모델을 훈련하기 위해 [CLS] 토큰 표현 위에 선형 레이어가 있는 BERT-BASE 모델(Devlin et al., 2019)을 사용한다. 배치 크기가 32이고 학습 속도가 {1-5}e-5인 5세기를 위한 모델을 교육했다. 모든 실험은 엔비디아 V100 16GB GPU로 수행된다.
기준 방법: 우리는 멀티모달 정렬 대조 분리 학습(MACD) (Cui et al., 2020), 싱글모달 사전 훈련 모델 BERT (Devlin et al., 2019), 멀티모달 사전 훈련 모델 LXMERT (Tan and Bansal, 2019), 빌버트 (Lu et al, 2019)와 우리의 접근 방식을 비교한다.
[6.2 Results]
NPH-설정: 우리는 COCO, ROC 및 Wikipedia의 세 가지 원시 텍스트 소스를 사용하여 전제 풀을 컴파일한 다음 해당 전제에서 PHL 삼중항(PHL tripet)을 생성한다. 표 2는 이 설정에서 모델의 정확도를 보여줍니다. 우리는 NLI 모델을 훈련시키기 위해 동일한 수의 PHL 삼중항(150k 클래스 균형)을 사용한다.
우리는 COCO 캡션에서 생성된 PHL 트리플렛에 대해 훈련된 모델이 모든 데이터 세트에서 ROC 및 위키백과 모델을 능가한다는 것을 발견했다. 우리는 이러한 우수한 성능을 Flickr30K(Plummer et al., 2015) 데이터 세트에서 수집된 SNLI의 전제와 유사한 COCO에 있는 짧고 단순하며 다양한 문장 덕분이라고 본다. 대조적으로, 위키백과는 SNLI, MNLI 등에 존재하는 것과 다른 전제를 초래하는 장황하고 구성적인 문장을 포함하고 있다. 또한 COCO와 ROC의 PHL 삼중항 결합은 SNLI(65.39%), BNLI(77.37%) 데이터 세트에서 성능이 약간 향상된다는 것을 발견했다.
P-설정: Cui et al. (2020)은 감독되지 않은 NLI 작업에 대해 COCO 및 Flick30K 캡션 데이터를 사용하여 다중 모드 사전 훈련을 수행하는 MACD를 제시했다. SNLI 데이터 세트에서 52.63%를 달성한다. 우리의 접근 방식은 표 3에 표시된 것처럼 SNLI에서 MACD 및 기타 단일 모드 및 다중 모드 기준선을 최대 13% 능가한다. 우리는 또한 COCO와 ROC에서 생성된 PHL 삼중항들을 훈련 데이터 세트에 추가하여 실험하여 정확도를 65.90%로 더욱 향상시키고 이 설정에서 새로운 최첨단 성능을 확립한다.
PH-설정: 여기서는 먼저 P-모델을 사용하여 레이블이 지정되지 않은 주어진 PH 쌍을 유사 레이블링한 다음 최대 소프트맥스 확률을 기반으로 인스턴스를 선택한다(섹션 5.3). 우리는 이 선택된 인스턴스 세트를 MaxProbFilt 데이터 세트라고 한다. 이 접근 방식은 표 4와 같이 SNLI 데이터 세트에서 66.67%의 정확도를 달성한다. 우리는 NLI 모델을 훈련시키는 두 가지 접근 방식을 추가로 조사한다.
첫 번째 접근 방식에서, 우리는 구내에서 생성된 MaxProbFilt와 PHL 삼중항들을 사용하여 훈련한다. 두 번째 접근 방식에서는 MaxProbFilt 데이터 세트를 사용하여 P-모델을 추가로 미세 조정한다. 우리는 첫 번째 접근 방식이 66.75%로 정확도를 약간 향상시킨다는 것을 발견했다.
이것은 또한 모든 감독되지 않은 설정에서 최고의 성능을 나타낸다. 또한 도메인 외 데이터 세트(MNLI 일치 데이터 세트 및 불일치 데이터 세트 각각 53.37% 및 55.17%)의 개선을 관찰한다.


[6.3 Low-Data Regimes(낮은 데이터 체제)]
우리는 또한 몇 가지 레이블이 지정된 인스턴스가 제공되는 낮은 데이터 체제에서 실험을 수행한다. 우리는 다음 두 가지 전략을 사용하여 SNLI/MNLI의 교육 데이터 세트에서 이러한 인스턴스를 선택한다.
랜덤: 여기서는 해당 교육 데이터 세트에서 인스턴스를 무작위로 선택한다. 선택된 인스턴스로 NPH 모델을 추가로 미세 조정하면 표 5에 나온 것처럼 처음부터 미세 조정된 모델보다 일관되게 더 높은 성능을 얻을 수 있다. 교육 데이터 세트의 약 0.1%인 500개의 SNLI 인스턴스만으로 우리 모델은 SNLI(도메인)와 MNLI(도메인 외)에서 각각 8.4%, 8.32% 더 높은 정확도를 달성한다. 또한 500 MNLI 인스턴스를 사용하여 우리 모델은 MNLI(도메인 내)와 SNLI(도메인 외)에서 각각 10.37%와 18.07% 더 높은 정확도를 달성한다.
적대적: 여기서 우리는 NPH 모델이 잘못된 예측을 하는 훈련 데이터 세트에서 해당 인스턴스를 선택한다. 이는 모델을 속이는 사례가 수집되는 적대적 데이터 수집 전략(Nie et al., 2020; Kiela et al., 2021)과 유사하다. 여기서 우리는 NPH 모델을 단순히 적대적 사례와 미세 조정하지 않는다. 이는 치명적인 망각을 초래할 수 있기 때문이다. 생성된 PHL 삼중항으로부터 무작위로 샘플링된 인스턴스 2만 개를 포함시키고 결합된 데이터 세트에서 미세 조정함으로써 이를 해결한다. 500개의 인스턴스로 SNLI와 MNLI에서 각각 70.85%, 58.46%로 성능을 더욱 향상시킨다.


[6.4 Analysis]
절제 연구: 우리는 NLI 성능에 대한 개별 변환의 기여를 이해하기 위해 절제 연구를 수행한다. 표 6은 NPH-Setting에서 단일 변환을 사용하여 생성된 PHL 삼중항 제거 시 관찰된 성능 저하를 보여줍니다. 우리는 모순을 발견한다.단어(CW)와 모순동사(CV)는 각각 5.88%와 3.07%로 최대 성능 저하로 이어진다. 대조적으로, 대명사 치환(PS) 변환은 성능에 큰 영향을 미치지 않는다. 이는 이 변환이 효과적이지 않다는 것을 의미하지 않으며, SNLI(평가 데이터 세트)에 이 변환을 필요로 하는 인스턴스가 포함되어 있지 않다는 것을 의미한다.
NC 및 RS 평가: 엔티티와 역할을 구별할 수 있는 능력을 테스트하는 (Mitra et al., 2020)에 제시된 NER-Changed(NC) 및 Roles-Switched(RS) 데이터 세트에 대한 모델을 평가한다.
우리의 모델은 이러한 데이터 세트에서 높은 성능을 달성한다. 구체적으로 표 8에 나타낸 것과 같이 NC는 84.22%, SNLI-NC는 75.39%이다.
레이블별 분석: 표 7은 모델이 달성한 정밀도 및 리콜 값을 보여줍니다.
우리는 우리의 모델이 중립적인 예보다 수반과 모순에서 더 잘 수행된다는 것을 관찰한다.
이는 중립적인 예가 상대적으로 더 어렵다는 것을 시사한다. 우리는 우리 모델이 잘못된 예측을 하고 부록에서 오류 분석을 수행하는 사례의 예를 제공한다.
[7. Conclusion and Discussion]
우리는 비지도 NLI에서 세 가지 다른 설정을 탐색하고 기존의 비지도 방법을 ~13% 능가하는 절차적 데이터 생성 접근법을 제안했다. 그런 다음, 몇 가지 인간 작성 인스턴스로 모델을 미세 조정하면 성능이 상당히 향상된다는 것을 보여주었다. 우리는 또한 무작위로 선택된 인스턴스 대신 이 미세 조정 단계에 적대적 인스턴스를 사용하여 실험했고 성능을 더욱 향상시킨다는 것을 보여주었다. 구체적으로, 단지 500개의 적대적인 인스턴스가 있는 상황에서, 제안된 방법은 SNLI에서 70.85%의 정확도를 달성했는데, 이는 동일한 500개의 인스턴스에서 처음부터 훈련된 모델보다 12.2% 더 높았다.
이러한 성능 향상은 고품질 데이터 인스턴스를 생성할 뿐만 아니라 리소스 효율성이 높은 대체 데이터 수집 전략의 가능성을 시사합니다. 루프 내 모델 기법을 사용하는 것이 적대적 데이터 수집에 효과적인 것으로 나타났다(Nie 등, 2020; Kiela 등, 2021; Li 등, 2021; Seng 등, 2021; Arunkumar 등, 2020). 이러한 기술에서 모델은 먼저 대규모 데이터 세트에 대해 교육을 받은 다음 인간은 모델을 속여 잘못된 예측을 하도록 적대적 샘플을 생성하도록 지시받는다. 따라서 크라우드소싱 노력이 두 번 필요합니다. 그러나 우리의 방법에서 데이터 세트 설계자는 모델에 대한 훈련 데이터를 절차적으로 생성하기 위한 일련의 간단한 기능(또는 변환)을 개발할 수 있으며 훈련된 모델을 속이기 위해 적대적 샘플을 생성하도록 인간에게 직접 지시할 수 있다. 이것은 자원 효율적이며 데이터 세트 설계자가 데이터 세트의 품질을 제어할 수 있게 한다.
Ethical Considerations (윤리적 고려사항)
우리는 위키피디아, ROC Stories, MS-COCO와 같은 기존 공개 도메인 텍스트 말뭉치를 사용하고 프로토콜에 따라 연구 데이터를 사용하여 약한 레이블이 지정된 데이터 세트를 생성한다. 우리는 우리의 데이터 세트를 생성하기 위해 코드를 공개할 것이다. 우리의 방법을 사용하여 훈련된 NLI 시스템에서 관찰된 편향은 소스 데이터와 변환 기능에 기인할 수 있다. 그러나, 우리의 방법에 의해 특별히 강조되거나 감소되는 특정한 사회정치적 편향은 없다.