Super Kawaii Cute Cat Kaoani

NLP/paper

[paper] Training Large Language Models to Reason in aContinuous Latent Space (meta)

zozni 2024. 12. 11. 10:47
728x90
반응형
SMALL

- 언어적 추론 OUT 잠재공간 추론 IN -

Meta에서 LLM의 추론 능력을 상당히 향상시키는 COCONUT(Chain of CONtinUous Thought) 패러다임을 공개했습니다. 

LLM의 last hidden state를 "continuous thought"라고 부르는 reasoning state로 취급하고 이를 다시 직접 모델에 feed back 함으로써 잠재 공간에서의 추론 (latent reasoning)을 유도하는 기법입니다. 분석 결과, 너비우선탐색(BFS)과 비슷한 양상의 추론 패턴을 띄었다고 합니다.

 

Coconut: 모델인가 프롬프팅 기법인가?

Coconut은 대규모 언어 모델(LLM)의 추론 능력을 향상시키기 위한 새로운 패러다임으로, 연속 잠재 공간에서 추론을 수행하는 방법입니다. Coconut은 기존의 '사고의 연쇄(Chain-of-Thought, CoT)' 추론 방식을 변형하여, 마지막 숨겨진 상태(continuous thought)를 다음 토큰의 입력 임베딩으로 직접 공급합니다. 즉, 모델 자체를 수정하여 잠재 공간에서 추론하도록 설계된 것입니다.

단순히 프롬프팅 기법을 사용하여 LLM의 추론 과정을 유도하는 것이 아니라, 모델의 작동 방식 자체를 변경하여 잠재 공간에서 추론을 가능하게 한다는 점에서 Coconut은 모델에 가깝다고 할 수 있습니다.

더 자세히 설명하자면:

  • CoT는 LLM이 자연어를 사용하여 단계별로 솔루션을 생성하도록 프롬프팅하거나 훈련하는 방법입니다. 이는 언어 공간 내에서 추론이 이루어짐을 의미합니다.
  • 반면, Coconut은 언어적 제약 없이 추론할 수 있도록 LLM을 잠재 공간에서 작동시킵니다.
  • Coconut은 특수 토큰 <bot>과 <eot>를 사용하여 잠재적 사고 모드의 시작과 끝을 표시합니다. 잠재 모드에서는 마지막 숨겨진 상태가 다음 입력 임베딩으로 사용되며, 이는 연속적인 사고를 나타냅니다.
  • 훈련 과정에서는 CoT 데이터를 활용하여 연속적인 사고를 감독합니다. 훈련 단계가 진행됨에 따라 CoT의 초기 단계를 연속적인 사고로 대체합니다.
  • 추론 과정에서는 잠재 모드와 언어 모드를 전환하며, 마지막 숨겨진 상태를 다음 입력 임베딩으로 사용합니다.

결론적으로, Coconut은 LLM이 잠재 공간에서 추론하도록 모델 자체를 수정하는 방법으로, 단순한 프롬프팅 기법을 넘어선 새로운 추론 패러다임이라고 할 수 있습니다.

 

 

아래는 논문 번역본입니다. 

 

대형 언어 모델(LLM)은 복잡한 추론 문제를 해결하기 위해 일반적으로 추론 과정을 일련의 사고(CoT)로 표현하는 '언어 공간'에서 추론으로 제한됩니다.
그러나 우리는 언어 공간이 항상 추론에 최적인 것은 아니라고 주장합니다. 예를 들어, 대부분의 단어 토큰은 주로 텍스트의 일관성을 위한 것이며 추론에 필수적이지 않으며, 일부 중요한 토큰은 복잡한 계획이 필요하고 LLM에 큰 도전을 제기합니다. 자연어를 사용하는 대신 제한되지 않은 잠재 공간에서 LLM 추론의 잠재력을 탐구하기 위해, 우리는 새로운 패러다임인 Cocut(연속적 사고의 사슬)을 도입합니다. 우리는 LLM의 마지막 숨겨진 상태를 추론 상태의 표현으로 활용합니다(이를 "연속적 사고"라고 부릅니다). 이를 단어 토큰으로 디코딩하는 대신, 연속적인 공간에 직접 입력 임베딩을 하여 LLM에 피드백합니다. 실험 결과, Cocut은 여러 추론 작업에서 LLM을 효과적으로 보강할 수 있음을 보여줍니다. 이 새로운 잠재적 추론 패러다임은 새로운 고급 추론 패턴으로 이어집니다: 연속적 사고는 여러 대안적인 다음 추론 단계를 인코딩할 수 있으며, 모델이 문제를 해결하기 위해 폭 우선 탐색(BFS)을 수행할 수 있게 해줍니다. Cocut은 계획 중에 상당한 역추적이 필요한 특정 논리적 추론 작업에서 CoT를 능가하며, 추론 중에 더 적은 수의 사고 토큰을 제공합니다. 이러한 발견은 잠재적 추론의 가능성을 입증하고 향후 연구를 위한 귀중한 통찰력을 제공합니다.

2024년 12월 10일 Meta

 

[1. Introduction]

대형 언어 모델(LLM)은 인간 언어에 대한 광범위한 사전 훈련에서 비롯된 놀라운 추론 능력을 입증했습니다(Dubey et al., 2024; Achiam et al., 2023). 다음 토큰 예측은 효과적인 훈련 목표이지만, 추론 기계로서 LLM에 근본적인 제약을 가합니다: LLM의 명시적인 추론 과정은 단어 토큰에서 생성되어야 합니다. 예를 들어, 연쇄 사고(Chain-of-Thought, CoT) 추론(Wei et al., 2022)으로 알려진 일반적인 접근 방식은 자연어를 사용하여 LLM을 단계별로 해결책을 생성하도록 유도하거나 훈련시키는 것을 포함합니다. 그러나 이는 특정 인간 인지 결과와는 극명한 대조를 이룹니다. 신경영상 연구에 따르면 언어 이해와 생산을 담당하는 뇌 영역 집합인 언어 네트워크는 다양한 추론 작업(Amalric 및 Dehaene, 2019; Monti et al., 2012, 2007, 2009; Fedorenko et al., 2011) 동안 대부분 비활성 상태로 유지됩니다. 추가 증거는 인간 언어가 추론보다는 의사소통에 최적화되어 있음을 나타냅니다(Fedorenko et al., 2024).
LLM이 언어를 사용하여 추론할 때 중요한 문제가 발생합니다: 각 특정 추론 토큰에 필요한 추론의 양은 크게 다르지만, 현재의 LLM 아키텍처는 모든 토큰을 예측하는 데 거의 동일한 컴퓨팅 예산을 할당합니다. 추론 체인의 대부분의 토큰은 유창성만을 위해 생성되므로 실제 추론 과정에 거의 기여하지 못합니다. 반대로, 일부 중요한 토큰은 복잡한 계획이 필요하고 LLM에게 큰 도전 과제를 제기합니다. 이전 연구에서는 LLM이 간결한 추론 체인을 생성하도록 유도하거나(Madan과 Yazdanbakhsh, 2022), 일부 중요한 토큰을 생성하기 전에 추가적인 추론을 수행하여 이러한 문제를 해결하려고 시도했지만(Zelikman et al., 2024), 이러한 솔루션은 언어 공간 내에서 제약을 받으며 근본적인 문제를 해결하지 못합니다. 반대로, 언어 제약 없이 추론할 수 있는 자유를 가진 후 필요할 때만 그 결과를 언어로 번역하는 것이 LLM에게 이상적일 것입니다.

그림 1: 연속적 사고의 사슬(Coconut)과 생각의 사슬(CoT)의 비교. CoT에서 모델은 추론 프로세스를 단어 토큰 시퀀스(예: 그림의 [x, x, ..., x])로 생성합니다. Coconut은 마지막 숨겨진 상태를 추론 상태("연속 사고"라고 함)의 표현으로 간주하고 이를 다음 입력 임베딩으로 직접 사용합니다. 이를 통해 언어 LLM 공간 대신 제한되지 않은 잠재 공간에서 추론할 수 있습니다.

 

이 연구에서는 새로운 패러다임인 Cocut(연속적인 사고의 사슬)을 도입하여 잠재 공간에서의 LLM 추론을 탐구합니다. 이는 전통적인 CoT 프로세스를 간단히 수정하는 과정을 포함합니다: 언어 모델 헤드와 임베딩 레이어를 사용하여 숨겨진 상태와 언어 토큰 간의 매핑 대신, Cocut은 마지막 숨겨진 상태(연속적인 사고)를 다음 토큰의 입력 임베딩으로 직접 제공합니다(그림 1). 이 수정은 추론이 언어 공간 내에 있는 것을 방지하며, 연속적인 사고가 완전히 미분 가능하기 때문에 경사 하강법을 통해 시스템을 종단 간 최적화할 수 있습니다. 잠재적 추론 훈련을 강화하기 위해, 우리는 Deng 등(2024)에서 영감을 받은 다단계 훈련 전략을 사용하여 언어 추론 체인을 효과적으로 활용하여 훈련 과정을 안내합니다.
흥미롭게도, 우리의 제안된 패러다임은 효율적인 추론 패턴을 제공합니다. 언어 기반 추론과 달리, 코코넛에서의 연속적인 사고는 여러 잠재적인 다음 단계를 동시에 인코딩할 수 있어 폭 우선 탐색(BFS)과 유사한 추론 과정을 가능하게 합니다. 모델은 처음에는 올바른 결정을 내리지 못했지만, 연속적인 사고 내에서 많은 가능한 옵션을 유지하고 몇 가지 암묵적 가치 함수에 의해 추론을 통해 잘못된 경로를 점진적으로 제거할 수 있습니다. 이 고급 추론 메커니즘은 이전 연구들(Yao et al., 2023; Hao et al., 2023)에서 볼 수 있듯이 모델이 이러한 방식으로 작동하도록 명시적으로 훈련되거나 지시받지 않았음에도 불구하고 전통적인 CoT를 능가합니다.
실험적으로 코코넛은 LLM의 추론 능력을 성공적으로 향상시켰습니다. 수학적 추론(GSM8k, Cobbe et al., 2021)의 경우, 연속적인 사고를 사용하는 것이 언어 추론 체인의 효과를 반영하여 추론 정확도에 도움이 되는 것으로 나타났습니다. 이는 더 연속적인 사고를 연결함으로써 점점 더 어려운 문제를 확장하고 해결할 수 있는 잠재력을 나타냅니다. ProntoQA(Saparov and He, 2022)와 새롭게 제안된 ProQA(섹션 4.1)를 포함한 논리적 추론에서는 더 강력한 계획 능력이 요구되며, 코코넛과 그 변형 중 일부는 언어 기반 CoT 방법을 능가하면서도 추론 중에 훨씬 적은 토큰을 생성합니다. 우리는 이러한 발견이 잠재적 추론의 잠재력을 강조하며 향후 연구에 귀중한 통찰을 제공할 수 있다고 믿습니다.

 

[2. Related Work]

Chain-of-thought(CoT) reasoning

 우리는 최종 답변을 출력하기 전에 언어로 중간 추론 과정을 생성하는 방법을 광범위하게 지칭하기 위해 생각의 사슬이라는 용어를 사용합니다. 여기에는 LLM(Wei et al., 2022; Khot et al., 2022; Zhou et al., 2022)을 유도하거나, LLM이 추론 사슬을 생성하도록 훈련시키는 것이 포함됩니다. 여기에는 감독된 미세 조정(Yue et al., 2023; Yu et al., 2023) 또는 강화 학습(Wang et al., 2024; Havrilla et al., 2024; Shao et al., 2024; Yu et al., 2024a)이 포함됩니다. Madan과 Yazdanbakhsh(2022)는 CoT의 토큰을 기호, 패턴, 텍스트로 분류하고, 역할 분석을 기반으로 LLM이 간결한 CoT를 생성하도록 안내하는 것을 제안했습니다. 최근 이론적 분석은 모델 표현력의 관점에서 CoT의 유용성을 입증했습니다(Feng et al., 2023; Merrill and Sabharwal, 2023; Li et al., 2024). CoT를 사용하면 생성된 출력이 입력으로 다시 루프되기 때문에 변환기의 유효 깊이가 증가합니다(Feng et al., 2023). 이러한 분석과 결합하여, 2는 연속적인 생각을 다음 입력 임베딩으로 LLM에 피드백하는 우리의 설계에 동기를 부여했습니다. CoT는 특정 작업에 효과적인 것으로 입증되었지만, 자기회귀 생성 특성으로 인해 일반적으로 계획과 검색이 필요한 더 복잡한 문제(Lecun, 2022; Hao et al., 2023)에서 인간의 추론을 모방하기가 어렵습니다. LLM에 명시적인 트리 검색 알고리즘을 장착하거나(Xie et al., 2023; Yao et al., 2023; Hao et al., 2024), LLM을 검색 동역학 및 궤적에 대해 훈련시키는 작업들이 있습니다(Lehnert et al. 2024; Gandhi et al., 2024; Su et al., 2024). 우리의 분석에서 언어 공간의 제약을 제거한 후, BFS와 유사한 새로운 추론 패턴을 발견했습니다.

 

Latent reasoning in LLMs.

이전 연구들은 주로 LLM에서의 잠재 추론을 트랜스포머에서의 숨겨진 계산으로 정의합니다(Yang et al., 2024; Biran et al., 2024). Yang et al. (2024)은 두 홉 추론 문제의 데이터셋을 구성하고 숨겨진 표현으로부터 중간 변수를 복구할 수 있음을 발견했습니다. Biran et al. (2024)은 숨겨진 표현을 "백패칭"하여 잠재 추론에 개입할 것을 추가로 제안했습니다. Shalev et al. (2024)은 LLM에서 병렬 잠재 추론 경로를 발견했습니다. 또 다른 연구에서는 모델이 추론을 위해 CoT를 생성하더라도 실제로는 다른 잠재 추론 과정을 활용할 수 있다는 것을 발견했습니다. 이 현상을 CoT 추론의 불성실성으로 알려져 있습니다(Wang et al., 2022; Turpin et al., 2024). LLM의 잠재 추론을 강화하기 위해 이전 연구에서는 추가 토큰으로 보완할 것을 제안했습니다. Goyal et al. (2023)은 학습 가능한 <일시정지> 토큰을 훈련 코퍼스에 무작위로 삽입하여 모델을 사전 훈련시켰습니다. 이는 특히 <일시정지> 토큰을 사용한 지도 미세 조정을 통해 다양한 작업에서 LLM의 성능을 향상시킵니다. 반면, Pfau et al. (2024)은 필러 토큰의 사용을 "..."와 같이 더 탐구하여 고도로 병렬화 가능한 문제에서 잘 작동한다는 결론을 내렸습니다. 그러나 Pfau et al. (2024)은 이러한 방법들이 CoT와 같은 LLM의 표현력을 확장하지 않으므로 더 일반적이고 복잡한 추론 문제로 확장되지 않을 수 있다고 언급했습니다. Wang et al. (2023)은 다음 추론 단계를 생성하기 전에 계획 토큰을 이산 잠재 변수로 예측할 것을 제안했습니다. 최근에는 지식 증류(Deng et al., 2023) 또는 CoT를 점진적으로 단축하는 특별 훈련 커리큘럼을 통해 CoT 추론에 "내부화"할 수 있다는 사실도 밝혀졌습니다. Yu et al. (2024b)은 복잡한 추론 알고리즘으로 생성된 데이터에서 지연적으로 추론할 수 있는 모델을 증류할 것을 제안했습니다. 이러한 훈련 방법들은 우리의 프레임워크에 결합될 수 있으며, 특히 iCoT에서 영감을 받아 연속적인 사고의 학습을 여러 단계로 세분화하는 것이 훈련에 매우 유익하다는 것을 발견했습니다(Deng et al., 2024). 최근에는 연속적인 사고의 계산 과정과 유사한 알고리즘 작업을 해결하기 위해 루프형 트랜스포머(Giannou et al., 2023; Fan et al., 2024)가 제안되었지만, 우리는 공통된 추론 작업에 중점을 두고 언어 공간과 비교하여 잠재적인 추론을 조사하는 것을 목표로 합니다.

 

[3. Coconut: Chain of Continuous Thought]

이 섹션에서는 제약되지 않은 잠재 공간에서 추론하기 위한 새로운 패러다임 Coconut(Chain of Continuous Thought)을 소개합니다. 먼저 언어 모델에 사용하는 배경과 표기법을 소개합니다. 입력 시퀀스 x = (x, ..., x)의 경우 표준 대규모 언어 모델 M은 다음과 같이 설명할 수 있습니다.

 

여기서 E= [e(x), e(x), ..., e(x)]는 위치 t까지의 토큰 임베딩 시퀀스입니다. P = [p (1), p (2), ..., p (t)]는 위치 t까지의 위치 임베딩의 시퀀스입니다. H∈ R은 위치 t까지의 모든 토큰에 대한 마지막 숨겨진 상태의 행렬입니다. 그의 위치 t의 마지막 숨겨진 상태, 즉 h= H[t, :]; e(·)는 토큰 임베딩 함수입니다. p(·)는 위치 임베딩 함수입니다. W는 언어 모델 헤드의 매개 변수입니다.

 

그림 2 : 지속적인 생각의 사슬 (코코넛)의 훈련 절차. 언어 추론 단계가 있는 훈련 데이터가 주어지면 각 훈련 단계에서 c개의 추가 연속적 사고(이 예에서는 c = 1)를 통합하고 하나의 언어 추론 단계를 제거합니다. 교차 엔트로피 손실은 지속적인 생각 후에 나머지 토큰에 사용됩니다.

 

Method Overview (방법 개요)

제안된 코코넛 방법에서 LLM은 "언어 모드"와 "잠재 모드" 사이를 전환합니다(그림 1). 언어 모드에서는 모델이 표준 언어 모델로 작동하여 다음 토큰을 자동 회귀적으로 생성합니다. 잠재 모드에서는 마지막 숨겨진 상태를 다음 입력 임베딩으로 직접 활용합니다.
이 마지막 숨겨진 상태는 "연속적인 사고"라고 불리는 현재의 추론 상태를 나타냅니다.
특수 토큰 <bot>과 <eot>은 각각 잠재적 사고 모드의 시작과 끝을 표시하는 데 사용됩니다. 예를 들어, 우리는 잠재 추론이 위치 i와 j 사이에서 발생한다고 가정합니다. 즉, xi = <bot>와 xj = <eot>입니다. 모델이 잠재 모드(i < t < j)에 있을 때, 우리는 이전 토큰의 마지막 숨겨진 상태인 Et = [e(x1), e(x2), ..., e(xi), hi, hi+1, ..., ht-1]을 사용하여 입력 임베딩을 대체합니다.
잠재 모드가 완료된 후(t ≥ j), 입력은 토큰 임베딩을 사용하는 것으로 돌아갑니다. 즉, Et = [e(x1), e(x2), ..., e(xi), 안녕
, hi+1, ..., hj-1, e(xj), ..., e(xt)). 주목할 만한 점은 잠재적 사고가 언어 공간으로 다시 매핑되도록 의도된 것이 아니기 때문에 i < t < j일 때 M(xt+1 | x≤t)이 정의되지 않는다는 것입니다. 그러나 softmax(Wht)는 여전히 탐색 목적으로 계산할 수 있습니다(섹션 4 참조).

 

Training Procedure (훈련 절차)

본 연구에서는 모델이 질문을 입력으로 받아 추론 과정을 통해 답변을 생성할 것으로 예상되는 문제 해결 환경에 중점을 둡니다. 우리는 Deng 등에서 영감을 받은 다단계 훈련 커리큘럼을 구현하여 언어 CoT 데이터를 활용하여 지속적인 사고를 감독합니다.
(2024). 그림 2에 나타난 바와 같이, 초기 단계에서는 모델이 정규 CoT 인스턴스에 대해 훈련됩니다. 이후 단계에서는 k번째 단계에서 CoT의 첫 번째 k개의 추론 단계가 k × c개의 연속적인 생각으로 대체됩니다
, 여기서 c는 단일 언어 추론 단계를 대체하는 잠재적 사고의 수를 제어하는 하이퍼파라미터입니다. Deng 등(2024)에 이어, 훈련 단계가 전환될 때 최적화 상태도 재설정합니다.
지속적인 생각을 캡슐화하기 위해 <봇>과 <eot> 토큰을 삽입합니다.
훈련 과정에서 질문과 잠재적인 생각에 대한 손실을 가립니다. 목표는 제거된 언어 사고를 압축하기 위해 지속적인 사고를 장려하는 것이 아니라 미래의 추론 예측을 용이하게 하는 것이라는 점에 유의하는 것이 중요합니다. 따라서 LLM은 인간의 언어에 비해 추론 단계를 더 효과적으로 표현할 수 있습니다.

 

Training Details

우리가 제안한 연속적인 생각은 완전히 미분 가능하며 역전파가 가능합니다. 현재 훈련 단계에서 n개의 잠재적인 생각이 예약될 때 n + 1개의 전진 패스를 수행하여 각 패스마다 새로운 잠재적인 생각을 계산하고 마지막으로 남은 텍스트 시퀀스에 대한 손실을 얻기 위해 추가 전진 패스를 수행합니다. KV 캐시를 사용하여 반복적인 컴퓨팅을 절약할 수는 있지만, 여러 전진 패스의 순차적인 특성은 병렬 처리에 도전 과제를 제기합니다. 코코넛의 훈련 효율성을 더욱 최적화하는 것은 향후 연구에서 중요한 방향으로 남아 있습니다.

 

Inference Process 

코코넛의 추론 과정은 표준 언어 모델 디코딩과 유사하지만, 잠재 모드에서는 마지막 숨겨진 상태를 다음 입력 임베딩으로 직접 입력합니다. 문제는 잠재 모드와 언어 모드 간의 전환 시기를 결정하는 것입니다. 문제 해결 설정에 집중하면서 질문 토큰 바로 뒤에 <봇> 토큰을 삽입합니다. <eot>의 경우, 우리는 두 가지 잠재적 전략을 고려합니다: a) 잠재적 사고에 대한 이진 분류기를 훈련시켜 모델이 잠재적 추론을 언제 종료할지 자율적으로 결정할 수 있도록 하거나, b) 항상 잠재적 사고를 일정한 길이로 패딩할 수 있도록 합니다. 우리는 두 접근 방식 모두 비교적 잘 작동한다는 것을 발견했습니다. 따라서, 별도로 명시되지 않는 한, 실험에서 두 번째 옵션을 사용하여 단순화했습니다.

 

[4. Experiments]

우리는 세 가지 데이터 세트에 대한 실험을 통해 연속적인 잠재 공간에서 LLM 추론의 타당성을 검증합니다. 우리는 주로 모델에서 생성된 답변을 실측 자료와 비교하여 정확도를 평가합니다. 질문당 새로 생성된 토큰의 수도 추론 효율성의 척도로 분석됩니다. 부록 B에서 clock-time 비교를 보고합니다.

 

[4.1 Reasoning Tasks]

수학 추론. GSM8k(Cobbe et al., 2021)를 수학 추론을 위한 데이터 세트로 사용합니다. 초등학교 수준의 수학 문제로 구성되어 있습니다. 실험의 다른 데이터 세트와 비교할 때 문제는 더 다양하고 개방적인 도메인으로 실제 사용 사례와 매우 유사합니다. 이 작업을 통해 우리는 실제 적용에서 잠재 추론의 잠재력을 탐구합니다. 모델을 훈련하기 위해 Deng et al. (2023)에서 생성한 합성 데이터 세트를 사용합니다.

논리적 추론. 논리적 추론은 논리적 규칙을 사용하여 결론을 증명하거나 반증하기 위해 알려진 조건을 적절하게 적용하는 것을 포함합니다. 이를 위해서는 모델이 여러 가능한 추론 경로 중에서 선택해야 하며, 올바른 결정은 종종 탐색과 사전 계획에 의존합니다. 가상의 개념 이름과 함께 5홉 ProntoQA(Saparov and He, 2022) 질문을 사용합니다. 각 문제에 대해 트리 구조 온톨로지가 무작위로 생성되고 알려진 조건 집합으로 자연어로 설명됩니다. 모델은 이러한 조건에 따라 주어진 진술이 올바른지 판단하도록 요청됩니다. 이는 자동화된 정리 증명과 같은 고급 추론 작업의 단순화된 시뮬레이션 역할을 합니다(Chen et al., 2023; 딥마인드(DeepMind), 2024).

 

우리는 ProntoQA의 생성 프로세스가 더 까다로울 수 있다는 것을 발견했는데, 특히 온톨로지에서 산만한 브랜치의 크기가 항상 작기 때문에 복잡한 계획의 필요성이 줄어들기 때문입니다. 이 문제를 해결하기 위해 무작위로 생성된 DAG를 사용하여 알려진 조건을 구조화하는 새로운 데이터 세트 구성 파이프라인을 적용합니다. 결과 데이터 세트는 모델이 올바른 추론 체인을 찾기 위해 그래프에 대한 상당한 계획과 검색을 수행해야 합니다. 이 새로운 데이터 세트를 ProsQA(Proof with Search Question- A nswering)라고 합니다.

 

시각화된 예가 그림 6에 나와 있습니다. 데이터 세트에 대한 자세한 내용은 부록 A에서 확인할 수 있습니다.

 

[4.2 Experimental Setup]

사전 훈련된 GPT-2(Radford et al., 2019)를 모든 실험의 기본 모델로 사용합니다. 학습률은 1 × 10으로 설정되고 유효 배치 크기는 128입니다. Deng et al. (2024)에 따라 훈련 단계가 전환될 때 옵티마이저도 재설정합니다.

수학 추론. 기본적으로 각 추론 단계에 대해 2개의 잠재 생각(즉, c = 2)을 사용합니다. 성능과 c 사이의 상관 관계는 섹션 4.4에서 분석합니다. 모델은 초기 단계 외에 3단계를 거칩니다. 그런 다음 마지막 두 번째 단계에서와 같이 3 × c 연속 생각을 계속 사용하지만 나머지 모든 언어 추론 체인을 제거하는 추가 단계가 있습니다. 이것은 3단계보다 긴 추론 체인의 롱테일 분포를 처리합니다. 초기 단계에서 6개의 Epoch 동안 모델을 훈련시키고 나머지 각 단계에서 3개의 Epoch에 대해 모델을 훈련합니다.

논리적 추론. 우리는 모든 추론 단계에 대해 하나의 연속적인 생각을 사용합니다(즉, c = 1). 이 두 데이터 세트에서 추론 단계의 최대 수가 6개이기 때문에 모델은 초기 단계 외에도 6개의 학습 단계를 거칩니다. 그런 다음 모델은 마지막 단계에서 문제를 해결하기 위해 지속적인 생각으로 완전히 추론합니다. 스테이지당 5개의 Epoch 동안 모델을 훈련합니다.

 

모든 데이터 세트의 경우 표준 일정 후에 모델은 50번째 Epoch까지 최종 학습 단계에 남아 있습니다. 검증 세트의 정확도에 따라 체크포인트를 선택합니다. 추론을 위해 최종 훈련 단계와 일치하도록 연속적인 생각의 수를 수동으로 설정합니다. 우리는 모든 실험에 탐욕 디코딩을 사용합니다.

 

[4.3 Baselines and Variants of Coconut]

우리는 다음과 같은 기준선을 고려합니다 : (1) CoT : 우리는 완전한 추론 체인을 사용하여 감독 미세 조정으로 언어 모델을 훈련하고, 추론 중에 모델은 추론 체인을 생성한 후 출력합니다.

표 1 GSM8l, ProntoQA 및 ProsQA의 세 가지 데이터 세트에 대한 결과. 정확도가 높을수록 추론 능력이 더 강함을 나타내고 더 적은 토큰을 생성할수록 더 나은 효율성을 나타냅니다. 결과는 Deng et al. (2024)의 것입니다.

 

대답. (2) No-CoT : LLM 추론 체인을 사용하지 않고 직접 답을 생성하도록 훈련됩니다. (3) iCoT(Deng et al., 2024): 모델은 언어 추론 체인으로 훈련되며 CoT를 "내재화"하는 신중하게 설계된 일정을 따릅니다. 훈련이 진행됨에 따라 추론 체인의 시작 부분에 있는 토큰은 답만 남을 때까지 점차적으로 제거됩니다. 추론하는 동안 모델은 답을 직접 예측합니다. (4) 일시 중지 토큰(Goyal et al., 2023): 추론 체인 없이 질문과 답변만 사용하여 모델을 학습합니다. 그러나 No-CoT와 달리 질문과 답변 사이에 특수 토큰이 삽입되어 모델에 답변을 도출하기 위한 추가 계산 용량을 제공하는 것으로 여겨집니다. 공정한 비교를 위해 토큰의 수는 Coconut의 연속 생각과 동일하게 설정됩니다.

우리는 또한 우리 방법의 몇 가지 변형을 평가합니다 : (1) 커리큘럼 없음 : 다단계 교육 대신 질문과 답변 만 포함하는 마지막 단계의 데이터를 직접 사용하여 Coconut을 훈련시킵니다. 모델은 전체 문제를 해결하기 위해 연속적인 생각을 사용합니다. (2) 생각 없이: 우리는 언어 추론 단계를 점진적으로 제거하는 다단계 훈련을 유지하지만, 연속적인 잠재 생각을 사용하지 않습니다. 이것은 높은 수준의 아이디어에서 iCoT와 유사하지만 정확한 교육 일정은 iCoT 대신 Coconut과 일치하도록 설정됩니다. 이렇게 하면 보다 엄격한 비교가 보장됩니다. (3) 생각으로 멈춤: 연속적인 생각을 대체하기 위해 특별한 토큰과 추론 중 토큰을 사용하며, 코코넛과 동일한 다단계 훈련 커리큘럼을 적용합니다.

 

[4.4 Results and Discussion]

모든 데이터 세트에 대한 전체 결과를 표 1에 표시했습니다. 지속적인 생각은 추론을 효과적으로 향상시키 LLM 며, 이는 CoT가 없는 것에 비해 지속적으로 개선되는 것에서 알 수 있습니다. ProntoQA 및 ProsQA에서 CoT보다 더 나은 성능을 보여줍니다. 실험에서 얻은 몇 가지 주요 결론을 다음과 같이 설명합니다.

그림 3 : 연속적인 생각 수가 다른 GSM8k의 정확도.

 

"연속적인 생각을 연결하는 것"은 추론을 향상시킵니다. 기존 CoT에서는 출력 토큰이 다음 입력으로 사용되며, 이는 LLM의 유효 깊이를 증가시키고 표현력을 향상시키는 것으로 입증됩니다(Feng et al., 2023). 우리는 잠재 공간 추론이 이 속성을 유지하는지 탐구합니다. 이는 이 방법이 여러 잠재 생각을 연결하여 점점 더 복잡한 문제를 해결하는 데 확장될 수 있음을 시사합니다.

 

GSM8k를 사용한 실험에서, 우리는 Cocuton이 유사한 전략으로 훈련된 다른 아키텍처들보다 더 뛰어난 성능을 보였으며, 특히 최신 기준치인 iCoT(Deng et al., 2024)를 초과했습니다. 성능은 LLM에서 더 많은 계산을 가능하게 하는 Cocuton(생각대로 일시 중지)보다 훨씬 뛰어납니다. Pfau et al. (2024)은 실험적으로 특수 <일시 중지> 토큰과 같은 필러 토큰이 고도로 병렬화 가능한 문제에 도움이 될 수 있음을 보여주었지만, 우리의 결과는 Cocuton 6이 매우 병렬화 가능한 문제에 도움이 될 수 있음을 보여줍니다
아키텍처는 추론 단계가 이전 단계에 크게 의존하는 일반적인 문제, 예를 들어 수학 단어 문제에 더 효과적입니다. 또한, 우리는 하나의 언어 추론 단계에 해당하는 잠재적 사고의 수를 조절하는 하이퍼파라미터 c를 조정하는 실험을 했습니다(그림 3). c를 0에서 1로, 2로 늘리면 모델의 성능이 꾸준히 향상되었습니다.2 이러한 결과는 잠재 공간에서 CoT와 유사한 연쇄 효과를 관찰할 수 있음을 시사합니다.
다른 두 가지 합성 작업에서는 코코넛의 변형(생각이 없거나 생각이 멈춘 상태)과 iCoT 기준선도 인상적인 정확도를 달성한다는 것을 발견했습니다. 이는 모델의 계산 능력이 이러한 작업에서 병목 현상이 아닐 수 있음을 나타냅니다. 반면, GSM8k는 개방형 도메인 질문 응답 작업이기 때문에 더 복잡한 맥락적 이해와 모델링이 필요할 가능성이 높으며, 계산 능력에 대한 요구가 더 높습니다.

 

잠재 추론은 계획 집약적인 작업에서 언어 추론보다 뛰어납니다. 복잡한 추론은 종종 모델이 "앞을 내다보며" 각 단계의 적절성을 평가해야 합니다. 우리의 데이터셋 중 GSM8k와 ProntoQA는 직관적인 문제 구조와 제한된 분기로 인해 다음 단계 예측에 비교적 간단합니다. 반면, ProsQA의 무작위로 생성된 DAG 구조는 모델의 계획 능력에 큰 도전을 제기합니다. 표 1에서 볼 수 있듯이 CoT는 No-CoT에 비해 눈에 띄는 개선을 제공하지 않습니다.
그러나 코코넛, 그 변형, 그리고 iCoT는 ProsQA에 대한 추론을 크게 향상시켜 잠재 공간 추론이 광범위한 계획이 필요한 작업에서 명확한 이점을 제공한다는 것을 나타냅니다. 이 과정에 대한 심층 분석은 섹션 5에서 제공됩니다.
LLM은 잠재 추론을 학습하기 위해 여전히 지침이 필요합니다. 이상적인 경우, 모델은 질문과 답변에 대한 경사 하강법(즉, 코코넛 커리큘럼 포함)을 통해 가장 효과적인 연속적인 생각을 자동으로 학습해야 합니다. 그러나 실험 결과에 따르면, 이렇게 훈련된 모델들은 No-CoT보다 더 나은 성능을 발휘하지 못하는 것으로 나타났습니다.

그림 4: 연속적인 사고를 언어 토큰으로 해독하는 사례 연구.

 

훈련을 더 쉬운 목표로 분해하는 다단계 커리큘럼을 통해 코코넛은 다양한 작업에서 최고의 성능을 달성할 수 있습니다. 또한 다단계 훈련은 일시 중지 토큰(코코넛- 생각대로 일시 중지)과 잘 통합됩니다. 동일한 아키텍처와 유사한 다단계 훈련 목표를 사용함에도 불구하고, 우리는 iCoT와 코코넛(생각대로)의 성능 사이에 작은 차이가 있음을 관찰했습니다.
세밀한 제거 일정(토큰별 토큰)과 iCoT의 몇 가지 다른 트릭은 훈련 과정을 용이하게 할 수 있습니다. 우리는 iCoT와 코코넛을 결합하는 것을 향후 연구 과제로 남깁니다. 코코넛에 사용되는 다단계 훈련이 효과적인 것으로 입증되었지만, 특히 언어 추론 체인의 감독 없이 잠재 공간에서 추론을 학습하기 위한 더 나은 일반적인 전략을 개발하기 위해서는 추가 연구가 반드시 필요합니다.

 

훈련을 더 쉬운 목표로 분해하는 다단계 커리큘럼을 통해 코코넛은 다양한 작업에서 최고의 성능을 달성할 수 있습니다. 또한 다단계 훈련은 일시 중지 토큰(코코넛- 생각대로 일시 중지)과 잘 통합됩니다. 동일한 아키텍처와 유사한 다단계 훈련 목표를 사용함에도 불구하고, 우리는 iCoT와 코코넛(생각대로)의 성능 사이에 작은 차이가 있음을 관찰했습니다.
세밀한 제거 일정(토큰별 토큰)과 iCoT의 몇 가지 다른 트릭은 훈련 과정을 용이하게 할 수 있습니다. 우리는 iCoT와 코코넛을 결합하는 것을 향후 연구 과제로 남깁니다. 코코넛에 사용되는 다단계 훈련이 효과적인 것으로 입증되었지만, 특히 언어 추론 체인의 감독 없이 잠재 공간에서 추론을 학습하기 위한 더 나은 일반적인 전략을 개발하기 위해서는 추가 연구가 반드시 필요합니다.

 

그림 5 여러 변종 코코넛과 ProQA 기준선의 최종 답변 정확도(왼쪽)와 추론 과정(오른쪽).

 

[5. Understanding the Latent Reasoning in Coconut]

이 섹션에서는 코코넛의 변형을 사용한 잠재 추론 과정에 대한 분석을 제시합니다. 언어와 잠재 공간 추론 간의 전환 능력을 활용하여 모델을 제어하여 완전 잠재 추론과 완전 언어 추론 간의 보간을 수행하고 그 성능을 테스트할 수 있습니다(섹션 5.2). 이를 통해 잠재 추론 과정을 트리 검색으로 해석할 수 있습니다(섹션 5.3).
이 관점을 바탕으로 잠재적 추론이 LLM의 결정을 더 쉽게 만들 수 있는 이유를 설명합니다(섹션 5.4).

 

[5.1 Experimental Setup]

Method

코코넛의 설계를 통해 추론 중에 <eot> 토큰의 위치를 수동으로 설정하여 잠재적인 생각의 수를 제어할 수 있습니다. 코코넛이 k개의 연속적인 생각을 사용하도록 강제할 때, 모델은 k + 1단계부터 언어로 남은 추론 체인을 출력할 것으로 예상됩니다. 실험에서 우리는 k개의 ∈ {0, 1, 2, 3, 4, 5, 6}을 가진 ProQA에서 코코넛의 변형을 테스트했습니다. 이 모든 변형은 동일한 모델 가중치를 공유하면서 추론 시간만 다를 뿐이라는 점에 유의하세요. 또한, 우리는 CoT와 no-CoT의 성능을 참고 자료로 보고합니다.

 

초기 훈련 단계를 잊어버리는 문제를 해결하기 위해, 우리는 항상 특정 확률(p = 0.3)로 다른 단계의 데이터를 혼합하여 원래의 다단계 훈련 커리큘럼을 수정합니다. 이 업데이트된 훈련 커리큘럼은 유사한 성능을 제공하며 잠재 추론과 언어 추론 간의 전환을 효과적으로 제어할 수 있게 합니다.

 

Metric

두 가지 평가 지표를 적용합니다. 그 중 하나는 추론 과정에 관계없이 최종 답변의 정확성을 기반으로 합니다. 위의 주요 실험 결과(섹션 4.4)에 사용된 지표입니다.
세밀한 분석을 가능하게 하기 위해 추론 과정에 대한 또 다른 지표를 정의합니다. 그래프에 경로를 지정하는 완전한 언어 추론 체인이 있다고 가정하면, 우리는 이를 (1) 올바른 경로로 분류할 수 있습니다: 출력은 정답으로 가는 가장 짧은 경로 중 하나입니다. (2) 긴 경로: 질문에 올바르게 답하지만 가장 짧은 경로보다 긴 유효한 경로입니다. (3) 환각: 경로에 존재하지 않는 간선이 포함되어 있거나 연결이 끊어졌습니다. (4) 잘못된 목표: 그래프에서 유효한 경로이지만, 대상 노드는 질문받는 노드가 아닙니다. 이 네 가지 범주는 전체 경로를 생성하는 Cocut (k = 0)과 CoT의 출력에 자연스럽게 적용됩니다. 언어로 부분 경로만 출력하는 k > 0의 코코넛(연속 추론의 초기 단계 포함)의 경우, 유효한 설명이 완료할 수 있는 경우 올바른 경로로 분류합니다. 또한, 부분 경로에 대해 더 긴 경로와 잘못된 목표를 유사하게 정의합니다. 유효한 설명이 경로를 완료하지 않으면 환각으로 분류됩니다. no-CoT와 k가 큰 코코넛에서는 모델이 부분 경로 없이 최종 답변만 출력할 수 있으며, 이는 (5) 올바른 레이블 또는 (6) 잘못된 레이블에 속합니다. 이 여섯 가지 범주는 겹치지 않는 모든 경우를 다룹니다.

 

그림 6 ProsQA의 사례 연구. CoT로 훈련된 모델은 막다른 골목에 갇힌 후 가장자리(모든 얌푸스는 렘푸스)를 환각시킵니다. 코코넛(k=1)은 관련 없는 노드로 끝나는 경로를 출력합니다. 코코넛(k=2)은 문제를 올바르게 해결합니다.

 

그림 7 잠재 검색 트리의 예시입니다. 예시는 그림 6과 동일한 테스트 케이스입니다. 노드의 높이(그림에서 h로 표시됨)는 그래프에서 잎 노드까지의 가장 긴 거리로 정의됩니다. 우리는 모델이 예측한 첫 번째 개념의 잠재적 사고(예: 왼쪽 그림의 "렘푸스")에 따른 확률을 보여줍니다. 이는 이전 문맥을 조건으로 한 개념 내 모든 토큰의 확률의 곱으로 계산됩니다(간단성을 위해 그림에서 생략). 이 지표는 모델이 추정한 암묵적 가치 함수로 해석하여 각 노드의 정답을 도출할 수 있는 잠재력을 평가합니다.

 

 

[5.2 InterPolaing between Latent and Language Reasoning]

그림 5는 ProQA에서 다양한 추론 방법에 대한 비교 분석을 보여줍니다. 연속적인 생각(k가 증가함)을 통해 더 많은 추론이 수행될수록 최종 답변 정확도(그림 5, 왼쪽)와 올바른 추론 과정("올바른 라벨" 및 "올바른 경로")의 비율이 모두 향상됩니다(그림 5, 오른쪽). 또한 모델이 이전에 잘못된 동작을 할 때 일반적으로 발생하는 "홀루시네이션"과 "올바른 타겟"의 비율도 감소합니다. 이는 잠재 공간에서 더 많은 추론이 이루어질 때 더 나은 계획 능력을 나타냅니다.
그림 6에는 CoT가 존재하지 않는 엣지를 환각시키고, 코코넛(k = 1)은 잘못된 타겟을 유도하지만 코코넛(k = 2)은 문제를 성공적으로 해결하는 사례 연구가 나와 있습니다. 이 예에서는 모델이 초기 단계에서 어떤 엣지를 선택할지 정확하게 결정할 수 없습니다. 그러나 잠재적 추론은 사전에 어려운 선택을 피할 수 있기 때문에 모델은 후속 단계에서 잘못된 옵션을 점진적으로 제거하고 추론이 끝날 때 더 높은 정확도를 달성할 수 있습니다. 우리는 섹션 5.3에서 이 추론 과정에 대한 더 많은 증거와 세부 사항을 보여줍니다.

 

그림 8 잠재 트리 탐색에서의 병렬성 분석. 왼쪽 그래프는 테스트 사례 전반에 걸쳐 계산된 첫 번째 생각에 대한 상위 1, 상위 2, 상위 3개 후보 노드의 누적 값을 백분위수로 나열한 것입니다. 선 사이의 상당한 간격은 대안적인 잠재 생각을 병렬로 탐색하는 모델의 능력을 반영합니다. 오른쪽 그래프는 선 사이의 간격이 좁아지는 두 번째 생각에 대한 해당 분석을 보여주며, 이는 탐색 트리가 발전함에 따라 병렬성이 감소하고 추론의 확실성이 증가함을 나타냅니다. 이러한 변화는 모델이 후반 단계에서 보다 집중적인 탐색으로 전환하는 과정을 강조합니다.

 

CoT와 코코넛(k = 0)의 비교는 또 다른 흥미로운 관찰을 보여줍니다: 코코넛이 완전한 추론 체인을 생성하도록 강요받더라도, 답변의 정확도는 여전히 CoT보다 높습니다. 생성된 추론 경로는 환각이 적고 더 정확합니다. 이를 통해 다양한 단계를 혼합하는 훈련 방법이 모델의 사전 계획 능력을 향상시킨다는 것을 추론할 수 있습니다. CoT의 훈련 목표는 항상 즉각적인 다음 단계의 생성에 집중하여 모델을 "근시안적"으로 만듭니다. 코코넛 훈련의 후반 단계에서는 처음 몇 단계가 숨겨져 있어 모델이 향후 단계에 더 집중할 수 있습니다. 이는 Gloeckle 등(2024)의 연구 결과와 관련이 있으며, 이들은 LLM의 사전 계획 능력을 향상시키기 위한 새로운 사전 훈련 목표로 다중 token 예측을 제안합니다.

 

[5.3 Interpreting the Latent Search Tree]

연속적인 사고가 여러 잠재적인 다음 단계를 인코딩할 수 있다는 직관을 고려할 때, 잠재적 추론은 단순한 추론 "사슬"이 아니라 검색 트리로 해석될 수 있습니다. 그림 6의 경우를 구체적인 예로 들어, 첫 번째 단계는 알렉스의 자식 중 하나를 선택하는 것일 수 있습니다. 즉, {렘푸스, 스테푸스, 조르푸스, 그림푸스}입니다. 우리는 그림 7의 왼쪽 부분에 있는 모든 가능한 가지를 묘사합니다. 마찬가지로 두 번째 단계에서는 프론티어 노드가 알렉스의 손자가 될 것입니다(그림 7, 오른쪽).
모든 프론티어 노드를 균일하게 탐색하는 표준 너비 우선 탐색(BFS)과 달리, 이 모델은 유망한 노드에 우선순위를 부여하는 동시에 덜 관련성 있는 노드를 가지치기할 수 있는 능력을 보여줍니다. 모델의 선호도를 파악하기 위해, 우리는 언어 공간에서의 후속 출력을 분석합니다. 예를 들어, 모델이 단일 잠재적 사고(k = 1) 후에 언어 공간으로 다시 전환하도록 강요받으면, "모든 [개념 A]는 [개념 B]이다"와 같은 구조화된 형식으로 다음 단계를 예측합니다. [개념 A]에 대한 잠재적 필러에 대한 확률 분포를 조사함으로써, 우리는 루트 노드 Alex의 자식에 대한 수치 값을 도출할 수 있습니다 (그림 7, 왼쪽).
마찬가지로, k = 2일 때, 알렉스의 손자 노드인 모든 프론티어 노드에 대한 예측 확률이 얻어집니다 (그림 7, 오른쪽).

 

확률 분포는 모델의 암묵적인 값 함수로 볼 수 있으며, 각 노드가 목표에 도달할 수 있는 잠재력을 추정합니다. 그림에서 볼 수 있듯이 "렘푸스", "조르푸스", "그림푸스", "스테푸스"는 각각 0.33, 0.16, 0.32, 0.01의 값을 갖습니다. 이는 첫 번째 연속적인 사고에서 모델이 대부분 "스테푸스"를 옵션으로 배제했지만 다른 세 가지 중 올바른 선택에 대해서는 여전히 불확실하다는 것을 나타냅니다. 그러나 두 번째 사고에서는 모델이 대부분 다른 옵션을 배제하고 "rorpus"에 초점을 맞췄습니다.
그림 8은 첫 번째 생각과 두 번째 생각에 걸친 모델의 잠재 추론에서의 병렬성 분석을 보여줍니다. 첫 번째 생각(왼쪽 패널)의 경우, 상위 1, 상위 2, 상위 3개 후보 노드의 누적 값을 계산하여 테스트 세트 전반에 걸쳐 각각의 백분위수에 대해 플롯합니다. 세 선 사이의 눈에 띄는 간격은 이 단계에서 모델이 추론 경로에서 상당한 다양성을 유지하고 있음을 나타내며, 이는 대체 가능성에 대한 광범위한 탐색을 시사합니다. 반면, 두 번째 생각(오른쪽 패널)은 이러한 간격이 좁아지는 것을 보여줍니다. 이러한 추세는 모델이 두 번째 잠재 추론 단계에서 병렬 탐색에서 더 집중적인 추론으로 전환됨을 시사하며, 이는 가장 유망한 경로에 대한 확신이 높아짐에 따라 가능합니다.

 

[5.4 Why is a Latent Space Better for Planning?]

그림 9 개념의 예측 확률과 그 높이 간의 상관관계.

 

이 섹션에서는 잠재 추론이 계획 수립에 유리한 이유를 탐색하며, 앞서 정의한 검색 트리 관점과 가치 함수를 바탕으로 설명합니다. 예시를 참고하여 "sterpus"와 다른 세 가지 옵션의 주요 차이점은 검색 트리의 구조에 있습니다: "sterpus"는 리프 노드입니다(그림 6).
이로 인해 대상 노드 "bompus"로 이어질 수 없기 때문에 즉시 잘못된 선택으로 식별할 수 있습니다.
반면에, 다른 노드들은 탐구해야 할 후손이 더 많아서 평가가 더 어려워집니다.
노드의 탐색 잠재력을 정량화하기 위해, 우리는 나무에서 노드의 높이를 측정합니다. 이는 잎 노드와의 최단 거리로 정의됩니다. 이 개념을 바탕으로, 우리는 더 낮은 높이를 가진 노드들이 탐색 잠재력이 제한적이기 때문에 정확하게 평가하기가 더 쉽다고 가정합니다. 이 가설과 일치하게, 우리의 예제에서 모델은 "그림푸스"와 "렘푸스" 사이에 더 큰 불확실성을 보이며, 두 노드 모두 높이가 2로 다른 후보들보다 높습니다.

 

이 가설을 보다 엄밀하게 테스트하기 위해 테스트 세트 전반에 걸친 첫 번째 및 두 번째 잠재 추론 단계에서 모델의 예측 확률과 노드 높이 사이의 상관관계를 분석합니다. 그림 9는 명확한 패턴을 보여줍니다: 모델은 잘못된 노드에 더 낮은 값을 할당하고 노드 높이가 낮을 때 더 높은 값을 할당하여 노드를 수정하는 데 성공합니다. 그러나 노드 높이가 높아질수록 이러한 구분이 덜 두드러져 정확한 평가에 더 큰 어려움이 있음을 나타냅니다.
결론적으로, 이러한 발견은 계획을 위해 잠재 공간을 활용하는 것의 이점을 강조합니다. 이 모델은 명확한 결정을 지연시키고 잠재 추론 과정을 확장함으로써 탐색을 검색 트리의 종단 상태에 더 가깝게 하여 올바른 노드와 잘못된 노드를 더 쉽게 구분할 수 있습니다.

 

[6. Conclusion]

이 논문에서는 연속적인 잠재 공간에서의 추론을 위한 새로운 패러다임인 코코넛을 제시했습니다. 광범위한 실험을 통해 코코넛이 LLM 추론 능력을 크게 향상시킨다는 것을 입증했습니다.
특히, 우리의 상세한 분석은 제약이 없는 잠재 공간이 모델이 BFS와 유사한 효과적인 추론 패턴을 개발할 수 있도록 하는 방법을 강조했습니다. 잠재 추론 방법을 더욱 정교화하고 확장하기 위해서는 향후 연구가 필요합니다. 유망한 방향 중 하나는 지속적인 사고를 가진 LLM을 사전 훈련하는 것으로, 이를 통해 모델이 더 넓은 범위의 추론 시나리오에서 더 효과적으로 일반화할 수 있을 것입니다. 우리는 우리의 발견이 잠재 추론 방법에 대한 추가 연구에 영감을 주어 궁극적으로 더 발전된 기계 추론 시스템의 개발에 기여할 것으로 기대합니다.

728x90
반응형
LIST