Super Kawaii Cute Cat Kaoani

NLP/paper

[paper] Rationale-Inspired Natural Language Explanations with Commonsense (ICML 2022)

zozni 2023. 2. 27. 14:55
728x90
반응형
SMALL

Rationale-Inspired Natural Language Explanations with Commonsense 논문 정리

 

[Abstract]

@ NLE -> 모델이 예측한 결과에 대한 설명을 사람이 이해할 수 있는 자연어로 생성해서 제공하는 방법.

@ ER(추출 합리성, 추출 근거) -> 입력의 의미있는 부분 (하위집합)

Extractive rationalesNLE는 기계학습 모델에 대한 두가지 설명 유형이다. NLEER보다 더 포괄적일 수 있지만 기계 생성 NLE는 상식 지식 측면에서 부족한 것으로 나타났다.

이 논문에서 상식 지식이 ERNLE 사이의 다리 역할을 하여 두 유형의 설명을 더 잘 만들 수 있음을 보여준다.

자기 합리화 프레임 워크인 RExC를 소개한다. (엔드투엔드 프레임워크)

예측을 위한 가장 책임있는 feature로 합리성을 추출하고

상식을 사용하여 ER을 확장하고

가장 적합한 상식을 선택하여 NLE를 생성하고 최종 예측을 제공한다.

우리의 프레임워크인 RExC는 자연어와 비전 언어 이해 모두에서 다섯가지 작업에 걸쳐 NLE를 생성하는 이전 기술을 능가한다. 상식을 갖춘 자기 합리화는 설명을 생성하는 이전 sota모델보다 품질을 크게 향상시킨다.

[Introduction]

설명 가능한 AI에서 현재 두가지 접근 방식은 1. ER 2. NLE 이다.

ER은 간결하고 사용자가 모델을 신뢰하기에 충분히 빠른 설명을 제공한다는 장점이 있다. 하지만 ER이 전체상을 그리지 못하거나 전문가에 의해서도 이해하기 어려울 수 있다.

이러한 경우 NLE는 인간(자연어)이 가장 접근하기 쉬운 형태로 보다 상세한 정당성을 허용하기 때문에 상호 보완적일 수 있다. 그러나 기계 생성 NLE는 다른 생성된 텍스트와 마찬가지로 상식이 부족하기 쉽다. 이는 일부 NLE가 모델을 정확하게 설명하지 않거나 모델이 의사결정을 위해 상식적 지식을 사용하지 않았기 때문일 수 있다.

ERNLE의 이점을 모두 얻기 위해, 그림1에 설명된 통일된 프레임워크로 결합한다.

예를 들어 그림1 (b)에서 입력 이미지의 슈퍼 픽셀의 하위집합은 질문 응답 작업에서 예측의 이면에 있는 ER(추출 합리성)을 형성한다. NLE(상식질문답변)를 합성하기 위해서는 의미론적 이해를 보호하는 것이 도움이 된다.

이를 달성하기 위해 RExC 프레임워크는 상식자원을 통합하며 이는 합리성에 대한 상식 정보를 가져오기 위해 모델 추출 합리성으로 쿼리된다. 그런 다음 프레임워크는 최종 답변과 NLE를 안내하기 위해 유용한 지식 스니펫의 하위 세트를 스스로 선택한다.

(그림1 (a)자연어 및 (b)비전 언어작업에 대한 RExC의 예시)

RExC 프레임워크는 ERNLE의 품질을 크게 향상시키고 작업 성능과 설명 가능성 사이의 격차를 해소한다.

RExC는 이론적 추출이나 상식적 지식의 일부 선택에 대한 직접적인 감독을 요구하지 않는다. 우리는 일련의 이진 잠재 변수로 이러한 선택을 모델링하고 variational learning (변형학습)을 사용하여 상식적 지식의 이유와 유익한 부분을 샘플링 한다. 감독작업 supervision은 작업레이블과 NLE에서 수행한다. 지식 선택 단계는 작업 성능, NLE 생성 및 이론적 추출에 긍정적인 정규화 효과를 제공한다. 또한 RExC의 자체 제공 설명이 예측 레이블과 강하게 연관되어 충실성을 나타낸다는 것을 보여준다. 본 연구의 기여는 다음과 같이 요약된다.

상식적인 자원을 통합하고 ERNLE 라는 두 가지 보완적인 유형의 기계설명을 제공하는 자체 합리화 프레임워크를 제안. 또한 RExC는 제로샷 설정에서 설명으로 사용될 수 있는 설정인 NLE의 감독 없이도 관련 상식을 선택할 수 있다.

자연어(NL)과 비전언어(VL) 영역 모두에 걸쳐 5가지 작업에 걸쳐 NLE 생성에서 sota 성능을 달성한다. 또한 RExCER은 이전 sota 모델에 비해 품질이 더 좋다.

예측 작업의 경우 우리는 적어도 하나의 ER 또는 NLE를 생성하는 최고의 성능 모델을 지속적으로 능가한다. 또한 설명을 제공하지 않는 sota 모델과 유사하게 수행함으로써 설명 가능성과 작업 성능 사이의 격차를 해소한다.

우리는 출력과 두 유형의 설명 사이의 높은 연관성을 관찰하여 RExC가 필요한 충실도 테스트를 통과하도록 보장한다.

 

[2. RExC: 상식적 접지를 통한 자기 합리화]

우리는 입력이 주어진 예측 작업을 해결하고 ERNLE를 모두 통해 예측에 대한 설명을 가져오는 것을 목표로 한다.

더 정확히 말하면, 모델 RExC는 입력에서 근거를 자체 추출하고 이를 사용하여 통합된 지식 모듈을 쿼리하고 최종 예측과 NLE 생성을 돕는 가장 관련성이 높은 지식 조각을 선택한다. 그림 1 (a)를 실행 예시로 사용하고 NL VL 작업에 대한 자세한 내용은 3.2절에.

 

[2.1 이진 잠재 변수를 통한 추출적 근거]

입력에서 근거를 추출하는 신경모듈 R을 정의한다. ER은 모델 예측의 중요한 지표인 입력 단위의 최소한의 하위 집합이다. 그림 1 (a)에서 자연어 추론 과제의 예를 볼 수 있는데 여기서 ER은 라벨의 핵심 특징인 전제 및 가설의 토큰 세트이다.

우리는 N개의 입력 단위에 대해 정의된 일련의 이진 잠재 변수 를 사용하여 합리성을 모델링 한다.

변수가 해당 단위에 대한 값 1을 취할 경우 입력 단위는 이론적 근거가 된다. 우리는 역전파를 사용하여 이러한 이진 잠재 선택기를 직접 학습하기 위해 매개 변수 재설정 전략을 채택한다. 베르누이 분포를 사용하여 각 잠재 변수를 모델링하는 대신, 이진 결과를 허용하고 역전파를 통해 최적화를 용이하게 하는 하드 쿠마라스와미 분포를 사용한다. 신경망 R의 매개변수는 각 입력 단위에 대한 하드쿠마 변수를 추정하는 세타r로 표시된다. 또한 이론적 근거를 더 낫게 하고 다루기 쉬운 쿠마라스와미 CDF에 의해 정의된 L1 이완을 사용하여 희소성을 제어한다.

 
 

[2.2 ER (추출근거) 에 대한 상식]

우리는 추출된 근거에 대한 상식이 예측과 암시적으로 NLE에 대한 가장 중요한 정보라고 가정한다.

따라서 상식 확장에 대한 추출 근거만 노출하기 위해

을 상식 모듈로 전달한다. 예를들어 그림 1 (a)에서 예측과 NLE 생성에 영향을 미치는 이론적 근거(자전거 경주)에 대한 관련 상식 지식을 얻는다.

더 정확히 말하면, RExC는 텍스트 또는 이미지로부터의 입력을 지원하는 상식 지식 모듈 K를 통합한다. RExCKER을 쿼리하여 관력 지식 S의 큰 풀을 얻는다. 우리는 NL입력을 위한 COMET과 이미지 입력을 위한 VisualCOMET과 같이 주어진 엔티티에 대한 상식적인 지식을 제공할 수 있는 생성모델의 최근 발전을 활용한다.

예를들어 실체 “car”가 주어지면 COMET“car is made up of car engine, front wheel 과 같은 상식적인 지식을 출력할 것이다. 생성 상식 모듈은 일반적으로 비모수(non-parametric)(검색) 설정에서 발생하는 노히트 문제로 어려움을 겪지 않는다. 더욱이, 지식 모듈의 매개변수 형식은 우리의 엔드투엔드 프레임워크에 쉽게 통합될 수 있다. 우리는 K의 매개변수를

로 나타내며 이는 RExC의 훈련동안 동결된다.

엔드투엔드 훈련을 용이하게 하기위해 ER의 소프트 표현을 K에 대한 쿼리로 사용한다. 이를 위해

(입력)의 임베딩 레이어를 사용하여 입력을 내장하고

로 요소별 곱셈을 수행하여 최종적으로 K로 전달되는 ER에 대한 동등한 소프트 표현을 얻는다.

 

[2.3 대상 지식 선택]

지식 모듈은 여러개의 상식적 지식 S를 생성하지만 모두 예측에 중요한 것은 아니다. 따라서 우리는 지식 선택 단계를 도입한다. 또한 선택한 지식은 생성된 NLE 외에도 뒷받침하는 증거로 나타날 수 있으며 이는 NLE만 생성하는 모델에 비해 RExC의 장점이다. 따라서 RExC는 예측과 NLE 생성 전에 S로부터 지식 집합을 선택하는 방법을 명시적으로 학습한다.

지식의 실제값 선택은 일반적으로 데이터에서 사용할 수 없으므로 우리는 간격 [0,1]에서 값을 얻고 하드쿠마 분포로 실현되는 다른 잠재 선택기

세트를 통해 선택 단계를 모델링 한다. 우리는 하나 이상의 지식 스니펫이 관련이 있을 수 있다고 가정하지만 우리는 지식 선택이 희박하기를 원한다. 우리는 L1 정규화를 사용하여 선택한 지식의 희소성을 제어한다. 잠재 선택기

의 값을 예측하는 파라미터는

로 표시된다.

다시 말하지만 엔드투엔드 훈련을 용이하게 하기 위해 우리는 상식적인 지식을 자연어로 디코딩하지 않는다.

 

오히려 지식모듈에서 각 상식의 최종 숨겨진 표현을

로 유지한다. 선택한 지식을 사용하기 위해 요소별 곱셈 크기를 수행하고

마스크된 지식 벡터를 작업 예측 및 NLE 생성 단계에 융합한다.

추론 시간에 우리는 선택된 상식을 추가로 디코딩하고 RExC+ 라고 부르는 변형된 RExC에서 NLE와 함께 뒷받침 증거로 제공한다. human 평가 중에 우리는 이 증거가 NLE가 더 나은 품질 점수를 받도록 만든다는 것을 발견했다. (4.2절참고)

 

[2.4 작업 예측 및 NLE 생성]

RExC는 작업 예측과 NLE 생성을 위해 선택한 최적의 상식을 사용한다.

임베딩 계층에서 융합된 지식의 soft한 표현을 인코딩하고 NLE로 디코딩하는 자연어 설명자 G를 사용한다. 또한 NLE의 최종 숨겨진 표현을 가져와서 작업 예측을 위해 출력 공간에 투영하는 소프트맥스를 가진 선형레이어인 예측 모듈 P를 추가한다. 이것은 예측 과정을 NLE와 암묵적으로 ER에 따라 조절한다. 우리는 GP의 매개변수를 각각 세타g와 세타p로 타나낸다. 최종 단계에서는 ground-truth NLEground-truth task 출력 모두에서 다이렉트 supervision을 사용한다.

 

[2.5 training]

R, G, P 및 지식 선택을 위한 매개변수는 원래 예측 작업과 NLE에 대한 음의 로그우도라는 두가지 손실을 합산하여 역전파와 함께 엔드두엔드 joint 훈련을 받을 수 있다. 우리는 K에 대한 매개변수를 업데이트하는 것이 최소한의 향상으로 이어진다는 것을 발견했다. 따라서 K는 계산의 용이성을 위해 고정되어 있다.

그러나 R

가 존재하기 때문에 원래의 로그우도의 하한

를 최적화 해야 한다.

우리는

를 따르고 두 번째 조건이 L1 패널티이고 세 번째 조건이 융합된 Lasso인 경우 최적화하여 컴팩트성을 위한 총 전환 수를 제어하며

은 하이퍼파라미터이다. R과 유사하게 우리는 지식 선택 단계에서

변수에 최적화하기위한 또다른 하한을 가지고 있다.

여기서 두 번째 용어는 희소지식선택을 위한 L1정규화를 나타낸다.

마지막으로 우리는 하한을

로 결합한다.

여기서 알파 [0,1]은 하이퍼파라미터이다. 우리는 재측정된 하드쿠마 변수에서 몬테카를로 샘플링의

의 기울기를 추정한다.

R, G, P 및 지식 선택을 위한 매개변수는 원래 예측 작업과 NLE에 대한 음의 로그우도라는 두가지 손실을 합산하여 역전파와 함께 엔드두엔드 joint 훈련을 받을 수 있다. 우리는 K에 대한 매개변수를 업데이트하는 것이 최소한의 향상으로 이어진다는 것을 발견했다. 따라서 K는 계산의 용이성을 위해 고정되어 있다.

그러나 R

가 존재하기 때문에 원래의 로그우도의 하한

를 최적화 해야 한다.

우리는

를 따르고 두 번째 조건이 L1 패널티이고 세 번째 조건이 융합된 Lasso인 경우 최적화하여 컴팩트성을 위한 총 전환 수를 제어하며

은 하이퍼파라미터이다. R과 유사하게 우리는 지식 선택 단계에서

변수에 최적화하기위한 또다른 하한을 가지고 있다.

여기서 두 번째 용어는 희소지식선택을 위한 L1정규화를 나타낸다.

마지막으로 우리는 하한을

로 결합한다.

여기서 알파 [0,1]은 하이퍼파라미터이다. 우리는 재측정된 하드쿠마 변수에서 몬테카를로 샘플링의

의 기울기를 추정한다.

R, G, P 및 지식 선택을 위한 매개변수는 원래 예측 작업과 NLE에 대한 음의 로그우도라는 두가지 손실을 합산하여 역전파와 함께 엔드두엔드 joint 훈련을 받을 수 있다. 우리는 K에 대한 매개변수를 업데이트하는 것이 최소한의 향상으로 이어진다는 것을 발견했다. 따라서 K는 계산의 용이성을 위해 고정되어 있다.

그러나 R

가 존재하기 때문에 원래의 로그우도의 하한

를 최적화 해야 한다.

우리는

를 따르고 두 번째 조건이 L1 패널티이고 세 번째 조건이 융합된 Lasso인 경우 최적화하여 컴팩트성을 위한 총 전환 수를 제어하며

은 하이퍼파라미터이다. R과 유사하게 우리는 지식 선택 단계에서

변수에 최적화하기위한 또다른 하한을 가지고 있다.

여기서 두 번째 용어는 희소지식선택을 위한 L1정규화를 나타낸다.

마지막으로 우리는 하한을

로 결합한다.

여기서 알파 [0,1]은 하이퍼파라미터이다. 우리는 재측정된 하드쿠마 변수에서 몬테카를로 샘플링의

의 기울기를 추정한다.

 

[3. 실험]

우리는 자연어 이해의 세가지 작업과 비전언어의 이해의 두가지 작업에 대해 RExC로 실험한다.

 

[3.1 작업]

ComVE : ComVE는 상식 검증작업을 위한 데이터셋이며 여기서 모델은 한 쌍의 문장중에서 상식에 어긋나는 문장을 선택해야 한다. (그림 3 참조) 데이터셋에는 NLE도 함께 제공된다.

e-SNLI : SNLI는 텍스트 수반을 인식하는 작업을 위한 데이터셋이며 여기서 한쌍의 문장(전제와 가설)이 주어지면 모델은 그 관계를 수반, 모순 또는 중립으로 분류해야 한다. 우리는 SNLI에 대한 NLE를 포함하는 e-SNLI 데이터셋을 사용한다. (그림 3 참조)

COSe : CQA는 다중 선택 상식 질문-답변 데이터셋이다. COSe는 각 정답에 대해 NLE를 제공하는 CQA의 확장이다. 우리는 COSe를 다중 클래스 분류로 취급하며, 여기서 우리는 각 정답 선택을 문맥과 연결하고 선택 로짓에 대해 소프트맥스를 수행한다.

e-SNLI-VE : SNLI-VESNLI 데이터셋에 해당하는 컴퓨터 비전이다. SNLI-VE는 이미지를 전제로 (SNLI에서처럼 텍스트 대신)하고 텍스트를 가설로 간주하며 수반, 중립 및 모순의 동일한 세가지 레이블을 가지고 있다. e-SNLI-VENLESNLI-VE를 확장한다.

VCR : VCR은 시각적 질문 답변 설정에서 상식 추론을 위한 데이터셋이다. 답을 예측하는 것 외에도, 우리는 처음부터 NLE를 생성한다. (데이터셋이 도입되었을 때 선택풀에서 NLE를 선택하는 것 대신)

 

[3.2 구현 세부 정보 및 기준선]

NL 작업을 위한 RExC의 구성요소는 다음과 같다.

@ 근거 추출 (Rationale extraction) : 우리는 잠재 선택기에 대한 분포를 생성하기 위해 선형레이어와 소프트맥스가 있는 노이즈제거 인코더-디코더 바트기반을 사용한다.

@ 상식적인 리소스 : 우리는 R에 사용된 토큰화체계와 일치하는 COMET의 동일한 설정으로 11.47 vs 11.14의 프록시로 바트기반모델을 사전교육한다.

@ NLE 및 작업 출력 : 우리는 핵 샘플링 (p=0.95)으로 디코딩된 NLE를 생성하기 위해 다른 바트기반모델을 사용한다. 선형레이어와 소프트맥스는 작업레이블을 예측하기 위해 P로 사용된다.

 

VL 작업을 위한 RExC의 구성요소는 다음과 같다.

@ 근거 추출(Rationale extraction) : 우리는 이미지 텍스트 입력쌍에 대한 상황별 표현을 학습하기 위해 자기 주의를 사용하는 transformer기반 VL모델인 UNITER를 사용한다. UNITER 위에 두 개의 MLP를 추가하여 이미지와 텍스트 입력으로부터 각 잠재 이론적 선택기에 대한 분포를 생성하는데 사용된다.

@ 상식적인 리소스 : 우리는 ATOMIC에서 미세 조정된 이미지 기반 상식 모듈로 VisualCOMET을 사용한다. 텍스트 합리성의 경우 NL 설정과 동일한 구조를 따른다.

@ NLE 및 작업 출력 : 이미지-텍스트 쌍을 위한 인코더인 UNITER와 언어 디코더인 GPT2를 이어서 결합한다. 우리는 VL 입력을 위해 UNITER가 학습한 표현을 조건으로 GPT2를 채택한다. 우리는 GPT2에서 NLE를 디코딩하기위해 핵 샘플링(p=0.95)를 사용한다. NL작업과 마찬가지로 작업예측에는 softmax를 따르는 선형 레이어가 사용된다.

 

NL 베이스라인 -> 우리는 모든 NL 작업에 대한 sota로 범용 NLE생성모델인 WT5를 사용한다. ComVE의 경우, 사소한 휴리스틱 기준선을 추가로 조사하는데, 여기서 우리는 무의미한 입력 문장을 부정함으로써 NLE를 구성한다.(작업의 특성과 짧고 간단한 입력을 활용했기 때문에 부정하는 것이 쉬웠기 때문에 이 경우 not을 추가한다. 예를들어 “Cars can fly”라고 모델이 예측한다면 사소한 정당화는 “Cars cannot fly”가 될 수 있다. e-SNLICOSe의 경우 NLE를 생성하는 각각의 sota모델 각각 NILE, GPT2와도 비교한다.

 

VL 베이스라인 -> 우리는 모든 VL 작업과 FME, 입력 이미지에서 정보를 추출하기 위해 off-the-self 컴퓨터 비전 알고리즘을 사용하는 사후 설명자 RVT, E-Kays, E유니터를 사용하여 VL입력을 인코딩하고 GPT2를 사용하여 NLE를 생성하는 NLE생성 측면에서 현재 sota이다...

 

[Ablations of RExC] 축소

우리는 ER(rationales없음), 상식모듈(CS없음) 및 지식 선택(CS sel없음)의 효과를 조사하기 위해 RExC를 축소한다. 또한 우리는 RExC를 검색 증강 NLE 생성모델 (RAG)와 비교하여 생성 상식 자원의 선택을 정당화한다. 또한 지식 선택을 학습하기위해 작업예측 손실(NLE손실이 아닌 NLE의 제로샷)만 사용하는 기준선(RExC-ZS)을 고려한다. 선택한 지식만 NLE로 사용할 수 있도록 연결된다.

 

[4. 결과 및 토론]

(1) NLE 생성, (2) RE (3)예측작업의 성능과 관련하여 RExC를 평가한다.

 

[4.1 자동 평가]

우리는 생성된 NLE(예측 레이블이 올바른 경우) 얼마나 밀접하게 실측 진실을 따르는지를 포착하기 위해 언어 생성에 널리 사용되는 일련의 매트릭으로 실험한다. 여기서는 인간 평가와 가장높은 상관관계를 보인 METEOR, BERTScore BLEURT를 보고한다.

NL 작업의 경우, RExC는 표1의 세가지 자동 metrics에서 모두 최상의 값을 달성한다. 사전 훈련된 언어모델(BART WT5)의 미세조정버전과 같이 상식적인 지식을 사용하지 않는 모델과 RExC 사이의 급격한 점프를 볼 수 있다. 이는 상식이 더 정확한 NLE에 유용한 구성요소임을 확인한다. CS sel이 없는 RExC에 비해 RExC의 이득은 명시적 지식 선택이 정규화 효과를 제공한다는 것을 보여준다.

VL 작업에서도 마찬가지로 RExC는 이전의 sota 모델보다 성능이 우수하다. 보다 구체적으로, RExC는 외부 상식 자원을 활용하는 경쟁 모델인 RVT를 능가하는데 이는 (1) ER(추출적합리성)이 관련 상식을 수집하는데 유용하고 (2) 출력과 NLE에 대한 joint 훈련이 사후 설명 가능성 접근 방식보다 우수하다는 것을 나타낸다.

RExC는 더 나은 논리를 도출한다. ER의 품질을 평가하기 위해 ERground-truth(진짜값)를 비교하는 프레임워크인 ERASER를 사용한다. ERASER은 추출된 사실과 ground-truth사이의 중첩을 측정하기 위해 intersection(교차)-Over-Union 스팬(IOU) 또는 토큰 레벨에서 정확도와 F1 점수를 사용한다. 3에서 e-SNLICOSe에 대한 결과를 보여주는데 이는 우리의 목록에 있는 유일한 실측자료이다. 우리는 RExCNLE의 신호나 상식을 사용하여 이론적 추출에 영향을 주지 않는 모델과 비교하여 훨씬 우수한 품질 ER로 이어진다는 것을 관찰한다. 따라서 RExC는 두 데이터셋에 대한 추출 합리에서 새로운 sota를 달성한다. 이에 대한 가능한 설명은 다음과 같다.

(1) NLE에 대해 추가로 최적화하는 것은 RExC가 더 많은 정보적 합리성을 생성하도록 제약하고,

(2) 예측과 NLE에 대해 더 적합한 상식을 얻기 위해 RExC는 고품질 추출합리성을 생성해야 한다.

 

[4.2 인간 평가 NLE]

생성된 NLE의 품질을 측정하기 위한 사용자 연구를 설계 했다.

우리는 인간 주석자가 NLE를 평가하기 전에 예측작업을 해결할 수 있는지 확인한다. NLE에 대해 우리는 묻는다. 입력이 주어지면 설명이 답을 정당화합니까? 그리고 4가지 옵션을 제공한다. 그렇다, 살짝그렇다, 살짝아니다, 아니다.

우리는 각 옵션에 대한 결과를 결합한 e-ViL점수를 보고한다. 우리는 정확한 예측을 위해 NLE만 고려하고 각 모델과 각 데이터셋에 대해 250개의 무작위 예를 수집한다.

NL 태스크의 경우 표1은 이전 sota모델보다 RExC가 분명히 선호된다는 것을 보여준다. 자동 metrics 추세와 유사하게 지식선택이 없는 RExC는 큰 하락을 보여주며 이는 지식선택이 NLE의 품질에 긍정적인 영향을 미친다는 것을 나타낸다. ComVENeg-Heu는 다른 기준선에 비해 eViL 점수가 높지만 NLE는 인간에 의한 다른 모델의 그것보다 훨씬 더 사소한 것으로 평가된다.

VL 태스크의 경우 이전 sota모델의 NLE가 골드 참조보다 훨씬 낮게 평가되어 개선의 필요성이 훨씬 더 큰 것으로 나타났다. 우리는 RVT와 같은 외부상식지식을 이미 사용하는 경쟁모델과 비교하여 RExCNLE에 대한 상당한 이득을 관찰한다. 이것은 합리성에 대한 상식적인 지식이 우리의 틀에서 중요한 역할을 한다는 가설을 강화한다.

 

[오류 분석]

그림 4는 모델 및 데이터셋에 걸쳐 생성된 NLE(평균)의 주요 단점을 요약한 것이다. 주요 관찰로, 우리는 RExC에서 상식적인 지식과 지식선택을 추가하면 NLE가 점차 더 포괄적이고 입력과 더 관련이 있다는 것을 알 수 있다. RExC+는 모든 데이터셋에서 다른 모델에 대해 승리하지만 인간 판사는 종종 생성된 NLE의 정보를 반복할 수 있는 지원지식스니펫의 존재로인해 너무 장황하다고 생각했다.

 

[Qualitative 정성 분석]

그림 3은 다섯가지작업에 대한 RExC의 샘플 출력을 보여준다. 인간 평가에서 관찰한 결과를 반영하면 (그림4) RExC에서 생성된 NLE는 이전 sota모델의 NLE보다 상식에 더 기초한다. (: COSe에서 음악은 집에 혼자있을 때 지루함을 완화할 수 있다.”) RExC는 상식적으로 NLE를 접지하는 동안 뒷받침 증거로 사용할 관련 지식 집합을 선택하는 방법을 배운다. 더욱이 NLE를 생성하는데 대한 이전의 sota모델은 포괄적인 NLE(: COSe에 대한 사람들이 음악을 듣는다”)를 생성하는데 미치지 못하는데, 이는 추출이성(:“지루함”)에 의존하지 않기 때문일 수 있다.

 

[4.3 논의]

RExC는 작업 성과와 설명 가능성 사이의 간극을 메운다. 지금까지 다섯가지 작업에 대한 작업 정확도 측면에서 sota모델은 설명가능성을 제공하지 않는 모델이었다. (4 참조) 설명(NLE or ER)을 제공하려고 시도하는 모델은 정확도가 떨어졌다. RExCsota작업성능을 5개 중에 4개 작업에 일치시키고 e-SNLI-VE에 대한 새로운 sota를 달성함으로써 이 중요한 격차를 해소하는 동시에 두가지 유형의 설명을 제공하며 두가지 모두 설명이 있는 이전 sota모델보다 품질이 우수하다. 분명히 RExC는 작업성능측면에서 설명을 제공하는 이전의 모든 최고 성능 모델을 능가한다.

 

제로샷 설정에서 선택한 지식을 NLE로 사용한다. 종종 RExCNLE와 선택한 지식 스니펫사이에 높은 중첩이 존재한다. 우리는 NLE와 예측이 RExC에서 선택된 지식에 의존하기를 원하기 때문에 이것은 예상된 것이다. 이는 선택된 스니펫만으로 충분한 NLE를 형성할 수 있는지에 대한 의문문을 제기한다. 우리는 일반적으로 상식적인 자원의 정보가 예측 이면의 전체 추론이 아닐 수 있기 때문에 그렇지 않다고 주장한다. 이 정보는 가치를 추가하기 위한 것일뿐 생성된 NLE를 대체하기 위한 것은 아니다. 그러나 ground-truth NLE가 주로 상식적인 지식의 조각으로 구성된 경우 선택된 스니펫은 충분한 설명이 될 수 있다. 데이터셋을 조사하기 위해 우리는 작업 예측 손실만을 사용하여 관련 지식을 선택하고 이후 NLE로 사용하기 위해 연결된 기준 RExC-ZS를 가지고 있다. 1과 표2는 유창성과 컴팩트성부족으로 인해 자동 매트릭에서 이 기준선의 성능이 좋지 않음을 보여준다.

그러나 인간평가에서 우리는 RExC-ZS NLERExC에서 생성된 NLE보다 선호되지 않았더라도 다른 모든 기준선의 NLE보다 일관되게 선호되었다는 것을 알 수 있다. 이러한 결과는 다음과 같이 나타낸다.

(1) RExC의 생성 모듈은 NLE를 유창하고 더 이해하기 쉽게 만드는 중요한 조건부 생성 단계로 작용한다.

(2) 덜 유창함에도 불구하고 연결된 지식 스니펫은 ground-truth NLE가 없는 경우 그럴듯한 NLE로 작용할 수 있다.

이는 제로샷 합리화를 위한 RExC의 잠재력을 보여준다.

 

[Ablation study for RExC]

RExC에 대한 절제연구. NLE 생성 (1, 2)과 예측 과제(4)에서 성능 향상의 기여 요인을 정확히 파악하기 위해 이론적 추출과 상식 확장을 담당하는 모듈을 개별적으로 폐기하고 상대적 성능 변화를 연구한다. NL VL 작업 모두에서 외부 상식 리소스를 지속적으로 사용하지 않는 ablative baseline(NL의 경우 BART/T5 VL의 경우 RVT)RExC에 비해 NLE 품질에서 뒤떨어진다는 것을 발견했다. 마찬가지로 표4에서 우리는 상식과 이론적 추출로 각각 조정할 때 모든 예측 작업에서 (: VCR2.72.5) 성능 저하를 관찰한다. 지식을 선택하지 않으면 NLE와 작업 예측 모두에서 RExC의 성능이 떨어진다. 따라서, 우리는 (1)상식뿐만아니라 NLE가 모델의 예측 성능을 향상시킬 수 있고 (2) 지식 선택은 대규모 지식 풀을 효과적으로 활용하는데 유용한 귀납적 편향으로 작용한다는 것을 추론할 수 있다.

 

[생성 상식 모듈 사용]

생성상식 지식 모듈(COMET VisualCOMET)을 선택하는 주요 이유 중 하나는 인덱싱된 지식 기반 또는 데이터베이스의 무히트 문제를 피하기 위함이다. 예를 들어 COMETComceptNet으로 대체했을 때 e-SNLI 데이터셋의 경우 23%의 인스턴스가 모든 이론적 기반 쿼리에 대한 상식적인 스니펫을 검색하지 않는다는 것을 발견했다. 또한 생성적 대응물 대신 ConceptNet Visual 상식 그래프를 사용하는 Maximum Inner Product Search를 사용하여 훈련된 검색 증강 생성(RAG) 프레임워크와 RExC를 비교했다. 예상대로 RAGRExC보다 성능이 나빴으며 이는 히트하지 않은 문제와 검색된 지식의 다양성 부족 때문일 수 있다.

 

[5. RExC 설명의 충실성]

우리는 RExC가 제공하는 두가지 유형의 설명의 충실성을 평가하는 데 관심이 있다.

[NLE의 충실성]

NLE의 충실도를 평가하는 것은 도전적인 공개 질문이다. 최근 충실성을 달성하기 위한 필수조건으로 NLE와 출력 라벨간의 연관 정도를 살펴보았다. 우리는 그들의 메트릭 즉 견고성 동등성과 기능 중요도 합의를 사용하여 RExC에서 NLE의 충실성을 검사한다. 이를 위해 다양한 입력 조건에서 출력 예측과 NLE 생성 모두에 대한 모델 동작을 분석한다. 모델 동작의 변화를 포착하기 위해 우리는 시뮬레이션 가능성을 사용하여 작업 정확도의 변화와 NLE의 변화를 관찰한다. , NLE가 입력으로 주어졌을 때와 그렇지 않았을 때의 작업 정확도의 차이이다.

그림 5a,b에서 출력 라벨과 NLE 사이의 견고성 동등성을 확인할 수 있다. 우리는 모든 데이터셋에 대해 작업 출력과 NLE가 입력 노이즈 범위에 대해 유사하게 안정적(또는 불안정)이라는 것을 관찰한다. 예를들어 e-SNLI의 경우 예측에 대한 NLE의 최소 기여 지점은

로 작업 정확도에 대한 가장 급격한 하락과 일치한다. 그림 5c,d에서는 작업 예측에 중요한 입력 부품(토큰, 슈퍼픽셀)NLE 생성에 중요한지 여부, 그 반대인 기능 중요도 일치를 확인할 수 있다. 그림 5c에서 우리는 모든 데이터셋에 대해 NLE 생성에 중요한 부품의 폐색이 작업 정확도를 크게 떨어뜨린다는 것을 알 수 있다. 마찬가지로 그림 5d에서 작업예측에 중요한 입력부분의 폐색은 데이터셋 전반에 걸친 NLE 시뮬레이션의 큰 감소에 기여한다. 따라서 우리의 실험은 RExC가 충실도 건전성 검사를 통과하여 작업 출력과 NLE 간의 강한 연관성을 보인다는 것을 확인한다.

[ER의 충실성]

우리는 또한 RExC가 예측을 위해 추출된 합리성(ER)을 존중하는지 무시하는지 조사한다. 우리는 ER에 대한 포괄성과 충분성 메트릭을 측정한다. 포괄성은 추출 논리에 예측이 필요한 모든 신호가 포함되어있는지 여부를 측정한다. 예측에 전체 입력을 사용한 경우와 예측하기 전에 추출 논리가 입력에서 명시적으로 떨어지거나 이미지에 대해 마스킹된 경우 사이의 정확도 변화로 측정된다. 차이가 클수록 충실도가 높아진다. 충분성은 ER이 모형이 결정을 내리기에 충분한지 여부를 측정한다. 이는 예측에 전체 입력을 사용한 경우와 추출이성만 사용한 경우의 정확도 차이로 계산된다. 값이 0에 가까울수록 충실도가 높아진다. 5RExCER이 포괄적이고 충분하다는 것을 보여준다.

 

[6. 관련 연구]

NLEs : 자연어처리 및 컴퓨터비전 분야의 점점 더 많은 작업이 이러한 모델을 사용자가 액세스할 수 있도록 하기위해 예측을 위해 NLE를 생성하는 신경 모델을 설계하는데 집중하고 있다. 최근연구는 언어모델로 사전훈련된 transformer 인코더-디코더를 사용하여 NL작업에 대한 NLE에 대한 sota를 달성했다. 낮은 수준의 특징을 VL 도메인의 NLE에 연결하는데 있어 의미론의 중요성을 보여준다. NL VL의 현재 NLE 데이터셋에서 RExC를 벤치마킹하고 NLE의 자동 및 인간 평가 모두에서 sota를 달성한다.

추출 이성(ER): 기계 설명의 또 다른 형태는 추출 합리 즉 예측 입력기능세트이다. 초기연구는 입력(:리뷰에서 감정을 나타내는 토큰)에서 직접 이론적 추출을 조사했고 이후 NLVL작업에 대한 연구가 성공적으로 이어졌다. 우리는 ERNLE를 품질을 향상시키는 새로운 프레임워크에서 공동으로 모델링한다.

텍스트 생성의 상식 : 상식은 자유 텍스트 생성에서 중요한 구성요소이다. 상식이 사용되는 대표적인 시나리오는 대화생성, 창의적 텍스트 생성, 스토리 생성, 반사실적 생성이다. 최근 연구진은 낮은 수준의 기능을 VL 도메인의 NLE에 연결하기 위한 의미론적 이해 도구로 상식 리소스를 사용했다. 이 연구에서 우리는 상식이 ERNLE를 연결하는데 중요한 역할을 하고 상식에 더 기반을 둔 NLE를 달성하는데 도움이 된다는 것을 확립한다.(그림4)

 

[7 결론]

이 연구에서 우리는 상식적인 자원을 통합하고 추출 합리성(ER)NLE라는 두가지 대표적인 유형의 설명을 제공하는 자기합리화 프레임워크인 RExC를 제안했다.

자연어와 비전언어영역에서 다섯가지 작업을 사용하여 우리는 RExCNLE 생성과 ER 모두에 대해 새로운 sota성능을 얻는다는 것을 보여준다. 또한 작업 성능과 NLE 생성간의 중요한 절충을 줄이고 작업 중 하나에 대한 새로운 sota를 획득한다. 현재 우리는 상식적인 자원만을 사용하지만 향후 연구는 법률 및 의료와 같은 더 전문화된 것을 포함하여 다른 유형의 지식 자원을 추가하는 것을 검토할 수 있다. 또한 RExC는 퓨샷 및 제로샷 설정에서 NLE 생성 가능성을 열어준다.

 
728x90
반응형
LIST