Super Kawaii Cute Cat Kaoani

NLP/paper

[paper] Verify-and-Edit: A Knowledge-Enhanced Chain-of-Thought Framework (arxiv2023)

zozni 2023. 7. 5. 15:59
728x90
반응형
SMALL

Verify-and-Edit A Knowledge-Enhanced Chain-of-Thought Framework

 

[Abstract]

대형 언어 모델(LLM)NLP의 표준이 되면서 생성 및 추론 작업에서 우수한 성능을 보여주므로 가장 치명적인 단점 중 하나는 사실 정확성이 부족하다는 것입니다. 사실이 아닌 텍스트를 생성하면 성능이 저하될 뿐만 아니라 응용 프로그램의 신뢰성과 유효성이 저하됩니다. 체인 오브생각(CoT) 프롬프트는 해석 가능한 추론 체인을 생성하여 복잡한 추론 작업에 대한 신뢰와 모델 성능을 향상시키지만 여전히 지식 집약적인 작업에서 사실성 문제로 어려움을 겪고 있습니다. 본 논문에서는 외부 지식에 따라 추론 체인을 사후 편집하여 예측 사실성을 높이려는 CoT 프롬프트에 대한 검증 및 편집 프레임워크를 제안합니다. GPT-3을 기반으로 구축된 우리의 프레임워크는 여러 개방형 도메인 질문 답변 작업의 정확도를 향상시킵니다. 결과를 재현하고 프레임워크를 더욱 확장하기 위해 코드베이스를 https://github.com/RuochenZhao/Verify-andEdit 에서 사용할 수 있도록 합니다

[Introduction]

대규모 언어 모델(LLM)은 많은 다운스트림 NLP 작업에서 새로운 표준이 되었습니다. 이러한 LLM을 활용할 때, 생각의 사슬(CoT) 프롬프트(Wei et al., 2022)는 수학 단어 문제, 상식 추론 및 기호 조작과 같이 복잡한 추론이 필요한 작업에 대한 성능을 향상시키는 것으로 밝혀졌습니다. 동시에 해석 가능한 추론 체인을 생성할 수 있습니다. 최근 연구는 이러한 추론 체인을 사용하여 더 나은 예측을 선택하는 방법을 추가로 탐구했습니다.

그러나 이러한 방법의 주요 초점은 생성된 CoT를 그대로 활용하여 최종 작업 성능을 향상시키는 것이었습니다. 예를 들어, YeDurrett(2022)은 이론적 점수를 기반으로 예측 확률을 조정하는 교정기를 훈련합니다. Wang (2022)은 가장 일반적인(일관적인) 예측을 찾기 위해 여러 추론 경로를 샘플링합니다. Creswell et al. (2022) Zhou et al.와 같은 소수만.

(2022), CoT 자체의 품질을 개선하는 방법을 모색했습니다.

그림 1: 검증 및 편집 프레임워크는 5단계로 구성되어 있습니다. (1) 일관성이 낮은 예측을 그대로 유지하면서 다음 단계로 전달; (2) 검증 질문 생성; (3) 외부 지식 검색; (4) 정보에 입각한 답변으로 추론 편집; (5) 새로운 예측 생성.
 

 

사실, CoT 품질을 개선하는 것은 해석 가능성과 최종 작업 성능 모두를 향상시키는 데 도움이 될 수 있습니다. YeDurrett(2022)는 인간이 좋다고 판단한 설명이 종종 더 정확한 예측을 나타낸다고 지적합니다. 직관적으로, 더 나은 CoT 프롬프트 세트는 더 나은 기초와 논리적으로 일관된 사고 과정을 제공하여 더 정확한 예측으로 이어질 수 있습니다.

 

세대 품질을 개선하기 위해 한 가지 중요한 측면은 사실의 정확성이며, 이는 현재 LLM의 가장 치명적인 단점 중 하나입니다(Open AIBlog, 2022; Zhao et al., 2023). GPT-3(Brown et al., 2020)과 같은 LLM은 사용자 쿼리에 응답할 때 사실과 세부 정보를 구성하는 경향이 있으며, 이는 현재 API 사용에서 주요 경고로 플래그가 지정되어 있습니다.

LLM의 주요 활용 사례는 기존의 검색 엔진을 대체하고 질문 답변을 통한 보다 직접적인 정보 접근을 위한 사용의 전망이므로, 사실주의적인 우려는 LLM의 유효성을 크게 훼손하고 사용자의 신뢰 수준을 저하시킬 수 있습니다(Marcus, 2022). 이 문제를 해결하는 것은 어렵고 모델이 인간의 피드백에 따라 지시 조정된 후에도 우려는 여전히 지속됩니다(Ouyang et al., 2022). 미세 조정 과정에서 진리의 근원을 이용할 수 없기 때문입니다( OpenAI-Blog, 2022).

 

따라서 세대를 더 잘 제어하고 예측의 사실적 정확성을 높이는 것이 시급합니다. LLM이 지식 기반 기능을 수행할 때 정확한 세부 정보를 기억하지 못할 수 있으므로(Ye and Durrett, 2022; Creswell et al., 2022), 가능하면 외부 소스의 지식을 지원으로 도입할 수 있습니다. 보조적 사고 과정은 인간의 추론에서도 일반적입니다. 인간은 질문에 대답할 때 종종 (내부) 기억을 새로 고치기 위해 외부 지식 소스를 검색(또는 다시 방문)하여 사실을 뒷받침합니다.

 

이에 영감을 받아 본 연구에서는 보다 사실적으로 정렬된 예측을 위해 추론 체인을 사후 편집하는 검증 및 편집(VE) 프레임워크를 제안합니다.

그림 1과 같이, 우리는 우선 다수결 미만의 일치성을 갖는 편집할 불확실한 인스턴스를 선택합니다. 왕 외 연구진(2022)이 암시한 이러한 사례는 그림 1"존 나이스코후스가 노르웨이 축구팀 오드 그린란드에서 뛰었습니다"라는 문장과 같이 종종 그럴듯한 진술로 구성됩니다. 편집할 때 먼저 "John Nyskohus가 어느 팀에서 뛰었습니까?"와 같은 질문을 생성하여 이 세부 사항을 확인합니다 그런 다음 이 쿼리에 답하기 위해 개방형 도메인 검색 시스템을 통해 외부 지식을 소개합니다. 예를 들어, "존 나이스코후스... "이 경우 애들레이드 시티에서 재생되었습니다."가 검색됩니다. 그런 다음 프롬프트에서 검색된 사실을 메모리 새로 고침으로 제공하여 이유를 편집합니다. 따라서, 편집된 이유는 검색된 사실에 따라 업데이트될 수 있습니다(그림 1). 편집된 추론을 고려할 때, 보다 사실적으로 정렬된 추론 추적을 고려하는 새로운 예측이 생성됩니다.

 

우리가 아는 한, 우리의 작업은 예측 성능을 향상시키기 위해 CoT 스타일 추론 체인을 게시한 첫 번째 작업입니다. 우리는 추론이 필요한 두 가지 개방형 도메인 질문 응답(QA) 작업에 대해 실험을 수행합니다: 적대적 HotpotQA(Yang et al., 2018)2Wiki Multihop(Ho et al., 2020).

또한 Fever(Thorne et al., 2018)를 사용하여 팩트 검증 작업에서 성능을 테스트합니다. 우리는 모델이 더 많은 사실적 추론 체인의 이점을 얻을 수 있으므로 더 정확한 예측을 생성할 수 있다는 것을 발견했습니다.

예를 들어, 개방형 도메인 QA의 경우, 우리 모델은 AdvHotpot의 유사한 검색 증강 모델과 비교하여 3.8배의 정확도 향상을 보여줍니다. 2Wiki Multihop에서 Verify-and-Edit는 오픈 도메인 검색으로 33.6%의 정확도에 도달한 반면 CoT 자체 일관성은 27.7%에 달합니다.

 

[Related Work]

생각의 사슬(Chain of Thought) 또는 CoT(Wei et al., 2022)LLM이 복잡한 문제를 여러 중간 단계로 분해할 수 있도록 하는 LLM의 추론 능력을 향상시키는 촉진 방법입니다. CoT는 해석 가능성을 제공하며 표준 프롬프트 방법보다 복잡한 문제를 더 잘 해결할 수 있는 것으로 입증되었습니다.

그러나 환각은 특히 LLM의 경우 NLP에서 오랜 문제로 연구계의 상당한 관심을 끌고 있습니다.

LLM의 디코딩 프로세스는 자동회귀적이므로 제어된 생성 없이 비사실 콘텐츠를 출력할 수밖에 없습니다(Ye Durrett, 2022; Wiegreffe et al., 2022). 이와 같이 CoT의 생성 과정에서 뒷받침하는 사실이 부족하면 최종 답변의 타당성이 크게 훼손될 수 있습니다(Golovneva et al., 2022). YeDurrett(2022)은 최종 답변의 정확성이 추론 설명의 사실성과 일관성과 크게 관련이 있음을 보여줍니다. CoT 추론 프로세스의 사실성을 개선하기 위해 일반적으로 제안되는 방법은 신속한 엔지니어링 및 결과 보정의 두 가지 범주로 그룹화할 수 있습니다.

신속한 엔지니어링 방법은 일반적으로 LLM이 더 나은 중간 추론 설명을 생성하도록 안내하기 위해 적용됩니다. 우리의 작업과 가장 유사한 ReAct(Yao et al., 2022)는 추론 단계가 모델이 행동을 유도하고 업데이트하는 데 도움이 되는 LLM에서 추론과 행동을 시너지 효과를 발휘하며, 행동 단계는 모델이 사실 확인을 위해 위키백과의 추가 정보를 참조할 수 있도록 합니다. ReAct와 비교하여 더 나은 해석 가능성과 더 쉬운 학습을 위해 더 자연스럽고 대화 가능한 CoT를 생성합니다. 이와 같이, 우리의 프레임워크는 배우기 위해 훨씬 더 짧은 프롬프트를 요구합니다.

(2022)을 눌러 초기 질문에 답하기 전에 LLM이 후속 질문을 명시적으로 자신에게 질문하고 답변하도록 지시하여 자가 질문을 제안합니다. 복잡한 문제를 해결하는 한 가지 자연스러운 방법은 문제를 하위 문제로 분해하고 순차적으로 해결하는 것입니다. 저우 외.

(비공식적으로) 그 아이디어를 채택하고 가장 덜 자극적인 제안을 합니다. 그러나 자기 질문과 가장 적게 요청하는 것 모두 여전히 외부 지식에 연결하는 대신 LLM이 학습한 내부 지식을 반복적으로 검색하는 데 의존합니다. 따라서, 그들의 사실성 향상 능력은 제한적입니다.

결과 보정은 LLM의 출력에서 작동합니다. YeDurrett(2022)은 생성된 설명의 사실성과 일관성을 기반으로 최종 답변의 가중치를 보정하도록 교정기를 훈련하여 결과를 효율적으로 개선합니다.

CoT의 디코딩 방법은 단순한 탐욕으로, 가장 높은 확률로 다음 토큰을 출력합니다. Wang (2022)은 다양한 추론 경로 세트를 샘플링한 다음 샘플링된 추론 경로를 주변화하여 가장 일관성 있는 답변을 선택하는 자체 일관성 디코딩 방법을 제안합니다. 선택 추론(SI)(Creswell et al., 2022) 프레임워크는 LLM을 일반 처리 모듈로 활용하는 또 다른 최첨단 방법입니다. 모든 방법 중에서 CoT의 사실적 정확성을 체계적으로 개선하여 보다 정확하게 예측하는 것이 첫 번째 방법입니다. 그것은 선택과 추론을 번갈아 가며 최종 답변으로 이어지는 일련의 해석 가능한 인과적 추론 단계를 생성하여 효율적인 것으로 입증되었습니다. 그러나 개방형 도메인 또는 상식적인 질문 답변용으로 설계되지 않았습니다.

또한, 다른 유사한 작업 라인은 먼저 외부 지식 소스에서 문서를 검색한 다음 검색된 문서를 활용하여 질문 응답 작업을 처리하는 검색 증강 언어 모델 사전 교육(RELM, Guu et al., 2020)을 탐구하고 있습니다. Lazaridou (2022)은 생성된 답변의 사실성을 개선하기 위해 질문의 구글 검색 결과를 프롬프트에 포함할 것을 제안합니다. 그러나 이러한 방법은 LLM의 추론 능력을 활용하지 않기 때문에 복잡한 질문에서 실패할 수 있습니다. 따라서, 우리는 사실 정렬을 증가시키는 자연스러운 방법으로 검색 강화 추론 경로를 고려합니다.

 

[3. Verify-and-Edit Framework]

우리의 목표는 LLM이 외부 지식의 도움을 받아 CoT 프롬프트로 더 많은 사실적 추론 체인을 생성하도록 하여 최종 답변의 예측 정확도를 향상시키는 것입니다. 우리는 이것이 답에 도달하기 위해 여러 추론 단계가 필요한 복잡한 지식 집약적 작업을 해결하는 LLM의 능력을 향상시킬 수 있다고 가정합니다.

일반적으로, 우리는 인간의 추론 과정을 따르기를 희망합니다: 어떤 사람이 질문에 대답할 때, /그녀가 확신할 수 없는 경우, /그녀는 최종적인 대답을 하기 전에 근거가 되는 사실을 찾고 그것을 고려합니다. 따라서 VE(검증 및 편집) 프레임워크를 불확실한 예측 찾기, 뒷받침하는 사실 검색을 통한 추론 편집, 최종 답변 생성에 편집된 추론 사용 등 3단계로 구분할 수 있습니다(그림 1).

단계를 설계할 때, 우리는 LLM의 가장 큰 장점인 개방형 생성과 추론 능력을 최대한 보존하기를 희망합니다. 그리고 우리는 가능한 한 자연스럽고 대화형으로 작업과 설정을 설계하여 자연 텍스트로 훈련된 인간과 LLM을 쉽게 이해하는 것을 목표로 합니다.

 

[3.1 Deciding when to edit]

모형이 예측을 확신할 수 없는 경우 어떻게 식별할 수 있습니까? 자가 일관성 방법(Wang et al., 2022)은 해결책을 제공합니다. 다양한 추론 경로와 답변을 샘플링할 때 자기 일관성은 정확도와 높은 상관관계가 있는 것으로 밝혀졌으며, 이는 불확실성 추정치를 제공하고 모델이 "모를 때 알 수 있는" 능력을 제공할 수 있음을 시사합니다. 따라서 일관성 방법을 사용하여 예측 작업에 대한 n개의 다양한 추론 경로를 샘플링하는 것으로 VE 프레임워크를 시작합니다. 매우 일관된 예측은 그대로 유지됩니다. 일관성이 [n/2]보다 낮은 경우, 즉 다수가 동일한 답변에 동의할 수 없는 경우에는 "불확실"이라는 레이블을 붙입니다.

 

[3.2 How to edit a specific rationale]

이론적 근거, 즉 사고 과정(CoT)은 사실과 새로운 주장을 도출하기 위해 사실을 결합하는 추론의 두 부분으로 볼 수 있습니다. 따라서, 우리는 두 가지 측면에서 CoT를 개선하는 것을 고려합니다.

facts : 사고 과정을 보다 사실적으로 정확하게 만들기 위해 외부 지식 소스(: 위키피디아, 구글)에서 뒷받침하는 사실을 검색합니다.

 

첫째, 사실을 확인할 때 인간의 질문을 모방하기 위해 자연스러운 질문을 생성하여 근거를 검증합니다. 이를 위해 동일한 LLM의 컨텍스트 내 학습 기능을 사용합니다.

원래 질문과 이론적 근거는 모두 질문 생성 검증 프롬프트에서 제공되어 이론적 근거의 다른 엔티티 대신에 원래 질문에 대답하는 데 필요한 가장 관련성이 높은 정보를 요청합니다. 예를 들어, 근거(잘못됨)"196184일에 태어난 미국 대통령은 존 케네디입니다."이고, 원래 질문이 "196184일에 태어난 미국 대통령의 배우자는 누구입니까?"라면, 생성된 검증 질문은 "196184일에 태어난 미국 대통령은 누구입니까?"가 아니라 "196184일에 태어난 미국 대통령은 누구입니까?"가 될 것으로 예상합니다 생성된 이론적 근거로 직접 쿼리하는 대신 관련 질문을 생성함으로써 잘못된 사실 생성으로 인한 잠재적 노이즈를 제거합니다.

위의 예에서 "196184일에 태어난 미국 대통령은 존 케네디입니다"라는 잘못된 주장을 사용하여 검색하면 "존 케네디"라는 잘못된 개체가 검색 과정을 혼란스럽게 할 수 있습니다.

본 논문에서는 (i) DrQA(Chen et al., 2017), 개방형 도메인 질문 답변 시스템, (ii) 관련 페이지의 위키백과 검색, (iii) LLM과 검색 엔진을 결합할 수 있는 가능성을 보여주는 구글 검색의 세 가지 시스템에서 검색된 관련 컨텍스트를 사용합니다.

검색 시스템에서 검색된 컨텍스트가 원하는 것보다 길 수 있기 때문에 사전 훈련된 LM을 사용하여 검증 질문 쿼리와 가장 유사한 상위 K 문장의 순위를 지정하고 선택합니다.

Reasoning : 선택과 같은 방법은추론(Creswell et al., 2022)은 검색된 사실을 근거로 직접 사용하며, 대개 너무 장황하거나, 원하는 것보다 길거나, 관련이 없는 세부 사항을 포함합니다. YeDurrett(2022)은 유사한 관찰을 했습니다. 뒷받침하는 문장을 직접 사용하는 것은 일반적으로 너무 장황하고 충분하지 않습니다.더 적절하고 논리적인 이유를 얻기 위해 추론 능력이 이미 LLM에 내장되어 있다고 믿기 때문에 우리는 다시 자연스럽고 생성적인 접근법을 사용합니다(Wei et al., 2022). 특히 LLM"질문, 근거, 답변" 형식의 프롬프트를 제공함으로써 답변을 생성하기 전에 몇 단계 동안 추론하는 방법을 배웁니다. 원래의 이성을 조사한 결과, 잘못된 사실을 포함하더라도 논리적 추론 구성 요소는 일반적으로 손상되지 않은 것으로 보입니다. 따라서 검증 질문(논리)과 검색된 사실(정보)을 사용하여 정보에 입각한 답변을 생성합니다. 그런 다음 정보에 입각한 답변이 새로운 근거로 구성되어 잠재적으로 더 사실적인 CoT를 제공합니다.

 

[3.3 Answering again]

마지막으로, 사후 편집된 CoT를 사용하여 LLM을 요청하여 새로운 답변이 생성됩니다. 전체 절차의 유사 코드는 Alg. 1에 제공되며 그림 1의 예와 함께 설명됩니다. LLM이 외부 지식을 통합하도록 허용함으로써 우리의 방법은 더 사실적인 근거가 있는 합리성을 얻을 수 있음을 알 수 있습니다. LLMCoT로 입력하라는 메시지가 표시되면 모델이 원래 올바르게 기억하지 못했던 새로운 예측을 하는 데 필요한 정보를 가져올 수 있습니다.

ReAct(Yao et al., 2022)와 같은 구체적으로 설계된 프롬프트에 비해 검증 및 편집 프레임워크는 단순하고 거의 틀림없이 더 자연스럽습니다. 그것의 대화적 특성은 인간이 모델의 사고 과정을 더 잘 이해하고 사용자가 추론의 모든 단계에서 자연스럽게 간섭하고 수정할 수 있는 잠재력을 가질 수 있게 합니다. 다음에 제시된 실험에서, 우리는 또한 그러한 설정이 사실성 우려를 완화하고 최종 작업 성능을 향상시키는 데 효과적이라는 것을 관찰합니다.

 

[4. Experiment Setup]

[4.1 Reasoning tasks]

검증 및 편집 프레임워크는 더 많은 지식 기반 추론 단계를 제공하기 때문에 (i) 이후 예측에 도달하기 위해 멀티홉 추론에 의존하고, 따라서 이론적 생성에 따라, (ii) 외부 지식 소스와 상호 작용해야 하는 개방형 도메인이라는 두 가지 속성을 충족하는 작업에 도움이 될 것입니다.

따라서, 우리는 세 가지 데이터 세트, (i) 다중 홉 질문 답변 데이터 세트인 적대적 HotpotQA(Yang et al., 2018)에 대한 접근 방식을 검증합니다. 우리는 YeDurrett(2022)가 제안한 도전적인 하위 집합을 사용하는데, 여기서 모델을 사용하여 정확한 예측과 부정확한 예측이 균형을 이룬다. (ii) 2Wiki Multihop(Ho et al., 2020) Wikidata의 구조화된 형식을 이용하고 논리적 규칙을 사용하는 멀티홉 질문 응답 데이터 세트.1 (iii) Fever(Thorne et al., 2018), 위키백과의 증거 문단을 기반으로 주장을 "지원", "거부" 또는 "충분하지 않은 정보"로 레이블을 지정하는 사실 확인 데이터 세트. HotpotQA 설정과 유사하게 GPT3 CoT가 정확한 예측과 잘못된 예측을 하는 샘플의 균형을 조정하여 까다로운 세트를 샘플링합니다. 데이터 세트의 처리 및 사용에 대한 자세한 내용은 부록 A를 참조하십시오.

 

[4.2 Compared methods]

가장 최신의 성능 추정치를 제공하기 위해 실험 당시 가장 강력하고 최신 모델인 GPT-3 instruct 시리즈 API text-davinci-003(Ouyang et al., 2022)을 백본으로 활용합니다. 실험 비용은 부록 B에 명시되어 있습니다.

적대적 HotpotQA2Wiki Multihop 실험은 6샷을 사용했고 Fever 질문은 더 짧고 배우기 쉽기 때문에 컨텍스트 학습에서 3샷을 사용했습니다. YeDurrett(2022)HotpotQA에 제공한 수동 주석을 사용하고 2Wiki Multihop Fever에 대한 퓨샷 예제를 유사한 형식으로 수동으로 주석을 달았습니다.

기준선 및 방법에 대한 전체 프롬프트는 부록 C에 제공됩니다.

 

Baselines

프레임워크의 위치에 대한 보다 포괄적인 개요를 제공하기 위해 다음과 같은 기준선을 사용합니다:

Standard Prediction (Standard) : 동일한 수의 상황별 학습 예제가 주어지면 입력을 기반으로 레이블을 직접 예측합니다.

Original CoT: 설명을 생성한 후 레이블을 예측합니다.

CoT with Self-Consistency (CoT-SC) : 논문에서 권장하는 0.7의 디코딩 온도로 5개의 CoT 궤적을 샘플링합니다.

Calibrator (Calib): 예측 점수를 기반으로 예측 확률을 조정하는 교정기입니다.

ReAct : 외부 Wikipedia API를 활용하는 사유 및 행위 프레임워크입니다. 이 기준선의 경우, 우리는 성능이 GPT-3.2와 유사한 PaLM 모델(Chowdhery et al., 2022)을 사용하는 원본 논문에 보고된 결과를 사용합니다. 보다 정당한 관점을 추가하기 위해 CoT-SC 기준선 위에 성능 향상을 보고합니다.

 

Verify-and-Edit(VE)

VE 프레임워크를 구현할 때 모델이 불확실한 경우를 추정하기 위해 동일한 일관성 기준이 사용됩니다.

§ 3.1에 명시된 바와 같이, 우리는 [n/2](윗올)보다 낮은 자체 일관성 점수를 가진 모든 인스턴스를 편집합니다. 여기서 n은 샘플링된 경로의 수입니다. 그런 다음 컨텍스트 내 학습이 포함된 2샷 설정을 사용하여 검증 질문을 생성합니다. 검증 답변은 원본 답변 생성 및 탐욕 디코딩에서 동일한 수의 예제를 사용하여 생성됩니다.

지식 검색 시스템이 결과에 미치는 영향을 연구하기 위해 다음 네 가지 시스템을 사용합니다:

Wikipedia-API(wiki): 쿼리 엔티티를 검색하고 위키백과 페이지에서 상위 문장을 선택합니다.

DrQA: 빅램 해싱, TF-IDF 매칭 및 다층 반복 신경망 모델을 결합한 사전 훈련된 오픈 도메인 QA 모델. 우리는 그것에서 검색된 컨텍스트만 활용합니다.

Google: Google에서 생성한 top-k 검색 결과를 보조 컨텍스트로 사용합니다. 이 결과는 검색 엔진과 LLM을 결합할 수 있는 가능성을 제공하는 데 흥미롭습니다.

Dataset: Adversarial HotpotQA 2Wiki Multihop에서 제공되는 단락 세트 중에서 선택QA - 실제 상황을 지원하는 컨텍스트와 주의를 산만하게 하는 단락을 포함합니다. 이는 검색 시스템이 우수하다고 가정할 때 성능 향상의 상한선을 제공하는 오라클 설정과 유사합니다.

검색 후 1, 2, 4의 경우 사전 훈련된 Sentence BERT 모델(Reimers and Gurevych, 2019)이 순위를 매긴 쿼리와 가장 유사한 상위 3개 문장을 컨텍스트로 선택합니다.

 

[5. Results and Analysis]

[5.1 Using Self-Consistency: Know when it doesn’t know]

검증 및 편집 프레임워크의 첫 번째 단계에서는 일관성을 사용하여 예측에 대한 모형의 신뢰도를 측정합니다. Wang et al. (2022)의 연구 결과에 따라, 우리는 일관성이 낮을 때 모델이 더 불확실하고 따라서 부정확한 예측을 생성할 가능성이 더 높다는 가설을 세웁니다.

이 가설이 유지되는지 여부를 테스트하기 위해 적대적 HotpotQA 데이터 세트의 일관성 분포를 위한 커널 밀도 추정 플롯을 표시합니다.

그림 2에 나타난 바와 같이, 잘못된 표본은 왼쪽으로 치우친 일관성 분포를 보여주며, 대부분의 잘못된 예측은 일관성이 낮습니다. 반면에 정확한 예측의 분포는 오른쪽으로 기울어진 경향을 보여주며, 일관성이 더 높은 잘못된 표본이 거의 없습니다.

이것은 우리의 가설을 효과적으로 검증합니다.

주요 실험에서는 [n/2](올림)를 다수 임계값으로 사용하고 그 아래의 모든 샘플을 3으로 편집합니다. 프레임워크 성능에 대한 다양한 임계값의 영향을 보여주기 위해 나중에 절제 연구도 제공합니다.

그림 2: 적대적 HotpotQA 데이터 세트의 일관성을 위한 커널 밀도 추정도. 커널 추정을 사용하면 곡선은 실제 분포의 범위를 0에서 5까지 확장합니다(5개의 경로를 샘플링한 경우).
 

표 1: 적대적 HotpotQA 데이터 세트에 대한 결과. 각 모델에 대한 최상의 결과는 밑줄이 표시되고 전체적으로 최상의 결과는 굵은 글씨로 표시됩니다. EM은 CoT-SC 기준에서 정확한 일치에 대한 개선을 나타냅니다. 위의 두 행은 PaLM 모형을 사용하고 나머지 행은 GPT-3 davinci-003 모형을 사용합니다.

 

[5.2 Results on HotpotQA]

1에 보고된 바와 같이, 우리는 표준 퓨샷 설정 위에서 CoT가 개선되는 것을 관찰합니다. 반면, CoT-SC는 기준선에서 좋은 개선을 보여주지 않습니다. YeDurrett(2022)의 교정기를 사용하여 AUC는 데이터 세트에 제공된 실측 상황을 기반으로 답변 가중치를 교정하는 방법을 학습함에 따라 개선되었습니다.

따라서 데이터 세트 지식을 사용하는 VE의 마지막 설정과 비교해야 합니다. 이에 비해 교정기는 AUC가 낮아지며 개방형 도메인 설정에서 대체 응답을 생성하지 않기 때문에 정확도를 향상시킬 수 없습니다.

검증 및 편집 프레임워크를 사용하여 검색 시스템 Wikipedia DrQA는 기준선 위에서 각각 4.5% 4.8%의 개선을 생성할 수 있으며, 이는 ReAct에 대한 전자파 개선(1.7%)2배입니다. Google의 검색 엔진 결과를 프레임워크에 결합하면 전자파가 ReAct 결과의 3.8배인 6.5% 증가합니다. 이것은 검색 엔진과 LLM을 결합하는 유망한 방법을 보여주며, 이는 현재 인기 있는 방향입니다. 검색 엔진은 사실적인 결과를 반환하지만 추론이 필요한 쿼리에서는 덜 강력합니다. 반면, LLM은 추론과 추상화에 강력하지만 그럴듯하지만 부정확한 진술을 생성하는 경향이 있습니다( OpenAI-Blog, 2022; Zhao et al., 2023). 많은 사용자들이 GPT가 대화 초반에 언급된 입력을 기억할 수 있다고 보고했기 때문에 두 세계의 장점을 결합하기 위해 LLM의 긴 메모리를 활용할 수 있습니다. GPT는 검색 엔진의 사실적인 결과를 메모리 업데이트로 제공함으로써 더 나은 사실적인 예측을 생성할 수 있습니다.

그런 다음 데이터 세트에 제공된 적대적으로 증강된 단락을 사용하면 모델은 매우 높은 EM(56.8%)AUC(60.94)를 동시에 보여줄 수 있습니다. 이 설정은 매우 압축된 컨텍스트 세트와 거의 이상적인 검색 시스템이 있으면 검증 및 편집 프레임워크가 잠재적으로 매우 강력한 성능을 얻을 수 있음을 보여줍니다.

 

표 2: 2Wiki MultiHop에 대한 결과QA 데이터 세트. EM은 CoT-SC 기준에서 정확한 일치에 대한 개선을 나타냅니다. 모든 실험은 GPT-3 davinci-003 모델을 사용합니다.

 

표 3: 발열 데이터 세트에 대한 결과. Accuracy(정확도)는 CoT-SC 기준에서 Accuracy(정확도)가 향상된 것을 나타냅니다. 위의 두 행은 PaLM 모형을 사용하고 나머지 행은 GPT-3 davinci-003 모형을 사용합니다.

 

[5.3 Results on 2WikiMultiHop]

2에서 볼 수 있듯이, 우리의 방법은 HotpotQA와 비교하여 2Wiki MultiHop에서 훨씬 더 강력한 성능을 보여줍니다. 오픈 도메인 검색을 통한 검증 및 편집 프레임워크는 3.4%에서 5.9%까지 높은 정확도 향상을 달성할 수 있습니다. 데이터 세트에 제공된 단락 중에서 근거 자료와 관련이 없는 단락을 선택하면 정확도가 9.5%로 더욱 향상됩니다. 반면에, 교정기는 제공된 데이터 세트를 사용하지만 여전히 우리의 검증 및 편집 프레임워크의 모든 변형보다 뒤떨어져 있습니다.

 

[5.4 Results on fact verification]

Fever 데이터 세트의 결과는 표 3에 나와 있습니다.

Fever 데이터 세트에 필요한 추론은 HotpotQA 2Wiki MultiHop에 비해 멀티홉이 적기 때문에 다른 두 개에 비해 더 낮은 향상을 보일 것으로 예상합니다.

Fever 데이터 세트에서 교정기 방법은 완전히 실패하여 33.7%로 감소합니다. 이 방법은 추론 경로와 제공된 컨텍스트 간의 중복을 조사하여 생성되는 사실성 추정치를 기반으로 예측 점수를 교정합니다.

그러나 이러한 팩트 검증 데이터 세트에는 제공된 컨텍스트가 없습니다. 따라서 원래 클레임을 사용하여 보정하므로 성능이 저하됩니다.

여기서는 교정 방법의 한 가지 제한 사항이 제공된 관련 컨텍스트가 있는 경우에만 적용된다는 것을 보여줍니다.

이 작업은 많은 추론을 필요로 하지 않지만 검증 및 편집 프레임워크를 사용하여 기본 방법에 비해 일관된 개선을 관찰할 수 있습니다. 이전과 마찬가지로, 위키백과 검색은 DrQA보다 더 큰 향상을 가져올 수 있으며, 구글 검색은 1.9%로 더 향상됩니다.

우리의 방법에 비해 ReActFever에서 더 큰 개선을 보여줄 수 있습니다. 먼저, Fever는 작업을 해결하기 위해 추론이 덜 필요하기 때문에 검증 및 편집 프레임워크에 적합하지 않다고 이전에 언급했습니다. 둘째로, ReAct 프롬프트는 우리의 프롬프트보다 훨씬 길기 때문에 더 많은 계산 비용이 필요합니다.

표 4: HotpotQA 데이터 세트에서 CoT의 사실성에 대한 인간 연구. "당사 제품"은 Google 검색을 통한 검증 및 편집 모델을 의미합니다.
 

[5.5 Cost considerations]

LLM과 상호 작용할 때 비용 절감이 주요 관심사이기 때문에, 우리의 방법은 이를 고려하고 다음 두 가지 측면에서 계산 비용을 줄이려고 시도합니다: 첫째, 확인 및 편집은 선택한 인스턴스에 대해서만 편집하는 반면, 다른 인스턴스는 매번 편집합니다. 구체적으로, 우리는 모델이 불확실할 때(일관성으로 판단할 때)에만 수정하는데, 이는 40%의 시간이 발생합니다. 비교적으로, ReAct와 같은 다른 방법은 모든 인스턴스에 대해 관련 정보를 검색하고 편집하므로 비용이 더 많이 듭니다. 둘째, 검증 및 편집은 자연스럽고 대화가 가능한 작업을 설계하며 몇 가지 데모와 짧은 프롬프트만 학습하면 됩니다. 예를 들어, ReAct[thought] [action] 태그와 ToolformerAPI 호출과 같은 다른 방법은 일반적으로 자연스럽지 않은 호출을 학습합니다(Schick et al., 2023). 따라서 LLM은 더 긴 프롬프트, 더 많은 데모 또는 심지어 형식을 학습하기 위한 미세 조정이 필요합니다. 반면에, 우리는 검증 및 편집 작업을 최대한 자연스럽게 설계하여 학습하는 데 최소한의 노력이 필요합니다.

우리의 작업은 질문과 답변으로만 구성되며, 합성 태그나 학습할 작업은 없습니다. 이에 비해 GPT-3 API를 사용하면 하나의 Fever 인스턴스를 편집할 때 검증 및 편집 비용은 0.014달러인 반면 ReAct0.017달러입니다.

 

[5.6 Evaluating the reasoning chains with human study]

생성된 추론 체인의 충실도를 면밀히 조사하기 위해 소규모 인간 연구 실험도 수행합니다. 실험 중, 두 명의 인간 자원 봉사자는 HotpotQA 데이터 세트에서 CoT-SC 및 검증-편집에서 생성된 추론 체인을 사용하여 무작위로 선택된 50개의 질문을 보여줍니다. 그런 다음 보다 사실적으로 일관된 것을 선택하라는 요청을 받습니다. 자원봉사자들은 검색 엔진을 도움으로 사용하는 것이 좋습니다. 설정에 대한 자세한 설명은 부록 D에 설명되어 있습니다.

4에 나타난 바와 같이, 인간은 CoT-SC 기준선의 17%와 비교하여 검증 및 편집에 의해 생성된 추론 체인을 보다 사실적으로 일관된 시간의 53%로 선택합니다. 코헨은 0.25로 두 주석자 간의 공정한 일치를 보여줍니다(McHugh, 2012). 주석자들은 구글 검색을 보조 도구로 100% 사용했는데, 이는 외부 지식을 도입할 필요성을 보여줍니다.

게다가, 이 경우 인간의 주석은 많은 노력을 필요로 합니다. 주석자는 평균 1.5분을 보고하여 하나의 데이터 지점의 유효성을 검사합니다. 따라서 검증 및 편집 프로세스를 자동화하는 것은 인력을 줄이기 위한 보조 도구로서 이점이 있습니다.

검증 및 편집 프레임워크의 질적 효과를 자세히 관찰하기 위해 부록 E에 원래 주장을 수정하는 데 있어 프레임워크의 효과를 보여주는 몇 가지 흥미로운 예도 포함합니다.

 

그림 3: 다양한 일관성 임계값이 작업 성능에 미치는 영향에 대한 절제 연구(Adversarial HotpotQA)

 

 

[5.7 Ablation study: editing at different consistency thresholds]

확인 및 편집 프레임워크에서 선택할 수 있는 유일한 하이퍼 파라미터는 일관성 임계값입니다.

유사한 임계값이 ReAct(Yao , 2022)에도 존재하며, 여기서 CoT -> ReAct 방법은 "n CoT-SC 샘플 중 다수의 답변이 n/2회 미만으로 발생할 때 ReAct 스타일 프롬프트를 사용하는 것입니다. 그러나 다수 카운트를 사용하는 것은 로그 확률로 공식화된 원래 일관성을 사용하는 것에 비해 덜 세분화됩니다. 따라서, 우리는 이성의 로그 확률보다 소외된 비정규화된 답변 확률인 Wang et al.(2022)이 제안한 원래 점수를 사용합니다. 다수결 임계값을 모방하기 위해 [n/2]를 선택합니다. 여기서 n은 샘플링된 경로의 수입니다.

일관성 임계값 조정이 프레임워크에 미치는 영향을 연구하기 위해 그림 3에서 Adversarial HotpotQA의 절제 결과를 보여줍니다. 임계값이 증가함에 따라 정확도가 먼저 증가하여 감소하기 전에 [n/2]에 가까운 피크에 도달합니다. AUC 점수는 비슷한 경향을 보여줍니다.

그림 2에서 보는 바와 같이, 일관성이 다수([n/2])보다 클 경우 대개 부정확한 예측보다는 정확한 예측이 더 많고, 그 반대의 경우도 마찬가지입니다. 따라서 일관성 임계값을 0에서 [n/2]로 증가시키면 외부 지식을 도입하여 더 불확실하고 잘못된 샘플이 편집되고 있습니다. 이상적인 임계값 [n/2]을 넘어서면서 우리는 대부분 올바른 샘플을 다시 편집하고 있으며, 도입된 노이즈는 원래의 추론 체인을 방해할 수 있습니다.

따라서 [n/2]의 일관성 임계값을 이상적인 수준으로 권장합니다.

 

[6. Conclusions]

본 논문에서는 개방형 도메인 질문 답변을 위한 검증 및 편집 프레임워크를 소개합니다. 더 나은 최종 작업 성능을 위해 CoT 스타일 추론 체인을 사후 편집하려는 첫 번째 시도입니다. 지식 검색과 추론을 결합하여 프레임워크는 CoT를 자연스럽고 대화식으로 편집하여 예측 사실성을 향상시킵니다. 구글 검색과 결합된 프레임워크는 또한 최첨단 LLM의 개방형 생성 능력과 검색 엔진이 제공하는 업데이트된 사실을 결합한 유망한 방향을 보여줍니다.

 

[Limitations]

현재 프레임워크에는 몇 가지 제한 사항이 있습니다.

첫째, 검증 및 편집은 복잡한 추론이 필요한 개방형 도메인 질문 답변 작업에 가장 적합합니다. 지식 검색이 필요하지 않은 덜 복잡한 데이터 세트 또는 상식적인 데이터 세트는 높은 개선 효과를 가져오지 못할 수 있습니다. 둘째, 일관성을 사용하여 선택하려는 대부분의 잘못된 샘플 그룹을 편집하는 것이 가장 이상적입니다. 따라서 우리의 방법은 일관성 방법의 성능과 정확한 예측과 잘못된 예측을 분리하는 능력에 의존합니다. 대부분의 경우 보다 까다로운 예제를 통해 더 큰 개선을 보여줄 수 있습니다.

이러한 한계를 해결하기 위해 이론적 편집 단계에서 발생하는 노이즈를 줄이고 후속 조치로 지식 기반과 같은 더 많은 지식 리소스를 활용할 계획입니다.

 
728x90
반응형
LIST