Prometheus 2: 다른 언어 모델 평가에 특화된 오픈 소스 언어 모델
[Abstract]
GPT-4와 같은 독점 LM은 종종 다양한 LM의 응답 품질을 평가하는 데 사용됩니다. 그러나 투명성, 통제 가능성 및 경제성을 포함한 우려 사항은 평가에 특화된 오픈 소스 LM의 개발에 강력한 동기를 부여합니다. 반면에, 기존의 개방형 평가자 LM은 1) 인간이 할당한 점수와 크게 다른 점수를 발행하고, 2) 가장 널리 사용되는 두 가지 평가 형태인 직접 평가와 쌍별 순위 지정을 모두 수행할 수 있는 유연성이 부족하다는 치명적인 단점을 보이고 있습니다. 또한 맞춤형 평가 기준에 따라 평가할 수 있는 능력이 없는 경우가 많으며 대신 유용성 및 무해성과 같은 일반적인 속성에 중점을 둡니다. 이러한 문제를 해결하기 위해 프로메테우스 2를 소개합니다. 프로메테우스 2는 전작보다 더 강력하며 인간과 GPT-4의 판단을 밀접하게 반영합니다. 또한 직접 평가와 사용자 정의 평가 기준으로 그룹화된 쌍별 순위 형식을 모두 처리할 수 있습니다. 4개의 직접 평가 벤치마크와 4개의 페어별 순위 벤치마크에서 프로메테우스 2는 테스트된 모든 공개 평가자 LM 중에서 인간 및 독점 LM 판사와의 상관 관계 및 일치도가 가장 높았습니다. 당사의 모델, 코드 및 데이터는 모두 공개적으로 사용할 수 있습니다.
[1. Introduction]
언어 모델(LM)에 의해 생성된 출력의 품질을 평가하는 것은 출력이 매우 다양한 텍스트 분포와 복잡한 작업을 다루기 때문에 점점 더 어려워지고 있습니다. 이 문제를 해결하기 위해 언어 모델 기반 평가는 LM 생성 텍스트를 평가하기 위한 확장 가능하고 저렴한 패러다임으로 부상했습니다(Li et al., 2024; Gao et al., 2024)을 참조하십시오. 이 패러다임에서 LM은 품질의 스칼라 지표(직접 평가로 표시됨)를 출력하라는 메시지가 표시되거나 표시됩니다(Zheng et al., 2023; Liu 외, 2023b; 예 외, 2023; Kim et al., 2023) 또는 두 출력 중 어느 것이 선호되는지 결정(쌍별 순위로 표시)(Wang et al., 2023b; Li 외, 2023b; Lambert et al., 2024)을 참조하십시오. 독점적인 LM을 평가자로 사용한 이전 연구는 인간 평가와의 상관관계가 높을 뿐만 아니라 속도와 비용 효율성이 향상되었음을 보여주었습니다(Zheng et al., 2023; Liu 외, 2023b; Dubois 외, 2023; Ye et al., 2023)을 참조하십시오.
그러나 평가를 위해 독점 LM에 의존하는 것은 상당한 문제를 제기합니다. 학습 데이터에 대한 투명성이 부족하면 공정성과 재현성이 모두 손상되어 평가 파이프라인에서 사용하는 데 문제가 발생합니다. 또한 통제 가능성과 경제성에 대한 우려도 지속되고 있습니다(Kim et al., 2023). 이러한 문제를 해결하기 위해 최근 연구는 개방적이고 투명하며 제어 가능한 평가자 LM을 개발하는 데 중점을 두고 있습니다(Kim et al., 2023; Wang 외, 2023a, b; 리 외, 2023a; Zhu 외, 2023; Jiang 외, 2023b, c; Lee et al., 2024)을 참조한다. 그러나 이러한 모델은 종종 인간의 판단이나 독점적인 LM에 의해 만들어진 판단과 충분히 상관관계가 없는 점수 결정을 산출하여 효과적으로 시뮬레이션하지 못합니다. 더욱이, 개방형 평가자 LM은 일반적으로 직접 평가 또는 쌍별 순위 지정을 수행하고 유용성 및 무해성과 같은 일반 대중의 선호도를 기반으로 평가하도록 훈련되어 다양한 실제 시나리오를 처리할 수 있는 능력이 제한되기 때문에 유연하지 않습니다.
독점 LM과의 격차를 줄이기 위해 두 가지 모델 기반 평가 패러다임(직접 평가 및 쌍별 순위)을 통합하여 강력한 통합 평가자 LM을 훈련시키는 방법을 연구합니다. 우리는 직접 평가 및 쌍별 순위 형식에 대해 별도로 훈련된 두 평가자 LM의 가중치를 병합하는 방법을 제안합니다. 우리의 주요 경험적 관찰은 가중치 병합이 두 형식 모두에서 작동할 뿐만 아니라 공동으로 훈련되거나 단일 형식으로만 훈련된 평가자 LM보다 성능이 뛰어난 평가자 LM을 생성할 수 있다는 것입니다.
우리의 접근 방식을 보여주기 위해 직접 평가 피드백 데이터 세트인 Feedback Collection Kim et al.(2023)을 기반으로 하는 새로운 세분화된 쌍별 순위 피드백 데이터 세트인 Preference Collection을 개발합니다. Mistral-7B(Jiang et al., 2023a) 및 Mixtral-8x7B(Jiang et al., 2024)를 기본 모델로 선택하고, 피드백 컬렉션과 선호도 컬렉션에서 별도로 훈련된 평가자 LM의 가중치를 병합하여 결과 모델인 Prometheus 2(7B 및 8x7B)를 얻습니다.
4개의 직접 평가 벤치마크(Vicuna Bench, MT Bench, FLASK, Feedback Bench)에서 Prometheus 2 모델은 기존 개방형 평가자 LM에 비해 인간 평가자 및 독점 LM 기반 심사위원 모두에서 가장 높은 상관관계를 보여주며, Pearson 상관관계는 모든 데이터 세트에서 다른 기준선을 0.2단위 능가합니다. 마찬가지로, 4개의 페어별 순위 벤치마크(HHH Alignment, MT Bench Human Judgment, Auto-J Eval, Preference Bench)에서 Prometheus 2 모델은 우리가 테스트한 모든 개방형 평가자 LM 중에서 인간 평가자와 가장 높은 일치를 보여 GPT-4와의 성능 차이를 절반으로 줄였습니다.
우리의 기여는 다음과 같이 요약됩니다.
1. Prometheus 2 (7B & 8x7B)는 직접 평가 및 페어 랭킹 모두에서 인간 평가자 및 독점 LM 기반 심판 모두와 높은 상관 관계를 기록하는 최첨단 개방형 평가자 LM을 소개합니다.
2. Preference Collection이라는 쌍별 순위 피드백 데이터 세트를 도입하며, 여기에는 유용성과 무해성을 넘어서는 1K 사용자 정의 평가 기준이 포함되어 있습니다.
3. 직접 평가 및 쌍별 순위 피드백 데이터 세트에서 훈련된 평가자 LM의 가중치를 병합하면 두 체계 모두에서 탁월한 통합 평가자 LM이 생성됨을 보여줍니다.
[2. Related Work]
[2.1 Language Model-based Evaluation]
LM의 생성 능력을 평가하기 위해 GEM 벤치마크(Gehrmann et al., 2021, 2022)와 같은 이전 연구에서는 ROUGE(Lin, 2004), BLEU(Papineni et al., 2002) 및 BERTScore(Zhang et al., 2019)를 참조 답변과 응답 간의 어휘 또는 의미론적 유사성을 측정하는 메트릭으로 사용했습니다. 그러나 이러한 기존 메트릭은 품질이 좋지만 참조 답변과 다른 응답을 인식할 수 있을 만큼 충분히 표현적이지 않기 때문에 거짓 음성이 발생하기 쉽습니다(Schluter, 2017; Freitag 외, 2020; Hanna 및 Bojar, 2021).
최근에는 언어 모델을 판단자로 활용하는 것이 인간 평가가 제공하는 깊이와 세분성을 모방하는 유망한 패러다임으로 주목받고 있다(Zheng et al., 2023; Liu 외, 2023b; Li 외, 2023b; Chan 외, 2023; Ye et al., 2023)을 참조하십시오. 독점적 LM에 대한 과도한 의존도를 줄이기 위해 후속 연구에서는 평가에 특화된 언어 모델 훈련을 제안합니다(Cui et al., 2023; Kim 외, 2023; Jiang 외, 2023b, c; 리 외, 2023a; Lee et al., 2024)을 참조한다. 그러나 개방형 평가자 LM은 다양한 평가 체계에서 작동할 수 있는 유연성을 가지고 있지 않으며 독점 LM에 비해 낮은 평가 성능을 보입니다. 우리는 프로메테우스 2를 도입하여 이 격차를 해소하는 것을 목표로 합니다.
[2.2 Weight Merging] 가중치 병합
이전 연구에서는 가중치 병합이 언어 모델링을 포함한 다양한 영역에서 성능을 향상시킬 수 있음을 보여주었습니다(Li et al., 2022; Matena와 Raffel, 2022; Ilharco 외, 2022; Don-Yehiya 외, 2022; Gururangan 외, 2023; Yadav 외, 2024; Sukhbaatar et al., 2024), instruction-tuning (Jang et al., 2023b; Yu et al., 2023), 사용자 선호도에 맞게 조정(Jang et al., 2023a; 라메 외, 2024; Wang et al., 2024)을 참조하십시오. 우리의 업무에서는 특히 개방형 평가자 LM의 평가 기능을 향상시키는 데 중점을 둡니다. 서로 다른 평가 형식, 특히 직접 평가 및 쌍별 순위 지정에 대해 훈련된 모델을 병합함으로써 우리는 두 형식 모두에서 작동할 뿐만 아니라 독점 LM만큼 우수한 평가 성능을 보여주는 평가자 LM을 얻는 것을 목표로 합니다.
[3. Methodology] 방법론
우리는 직접 평가와 쌍별 순위 지정을 위해 훈련된 모델의 가중치를 병합하여 통합 평가자 LM을 훈련시키는 새로운 방법을 제안합니다. 평가자 LM에 대한 직접 평가 및 쌍별 순위에 대한 배경 지식(섹션 3.1, 3.2)으로 시작하여 교육 데이터의 구성 프로세스(섹션 3.3)를 수행합니다. 마지막으로, 최첨단 평가자 LM, Prometheus 2 모델을 훈련하는 방법을 제시합니다(섹션 3.4).
[3.1 Direct Assessment] 직접 평가
직접 평가는 지시 i 사항 및 응답을 r 다음과 같은
fdirect:(i,r)↦s where s∈ℝ
스칼라 값 점수 s 로 매핑하는 것입니다. 점수 매기기 범위의 경우 1에서 5 사이의 정수를 사용합니다.
이전 연구에서는 평가자 LM이 제공하는 점수( sLM )와 사람이 할당한 점수( shuman )를 정렬하는 몇 가지 방법을 확인했습니다. 예를 들어, Liu et al. ( 2023a) 및 Zheng et al. ( 2023)은 sLM 와 사이의 shuman 상관 관계를 최대화하기 위해 평가자 LM에 대한 입력으로 참조 답변을 a 추가하는 것이 중요하다는 것을 보여주었습니다. 또한 Zheng et al. ( 2023) 및 Ye et al. ( 2023)은 언어 모델이 이전에 구두 피드백을 vr 작성하도록 유도하는 것이 와 사이의 sLM shuman 상관 관계도 향상시킨다는 것을 s 보여주었습니다. 마지막으로, Ye et al. ( 2023) 및 Kim et al. ( 2023)은 평가 기준을 e 명시적으로 통합함으로써 사용자가 모델 평가를 위한 표준을 정의할 수 있음을 보여주었고, 평가가 일반적인 품질이 아닌 특정 요구에 유연하게 적용되도록 할 수 있습니다. 특히, e 는 기준 자체에 대한 설명과 점수 범위 사이의 각 점수에 대한 설명 집합을 포함하는 점수 기준표로 표시됩니다. 이는 다음과 같이 표현됩니다.
[3.2 Pairwise Ranking]
쌍별 순위는 명령 i 어와 두 쌍의 응답 (rm 을 rn) i 또는 j 로 매핑하는 것입니다 fpair:(i,rm,rn)↦s where s∈{m,n} .
직접 평가와 마찬가지로 이전 연구에서는 참조 답변 a 과 구두 피드백을 vrm,rn 평가 파이프라인에 통합하는 것이 중요하다는 것을 확인했습니다(Zheng et al., 2023; Li et al., 2023b, a). 또한, 사용자 정의 기준에 따른 세분화된 평가를 지원하기 위해 평가 기준을 e 평가자 LM에 입력으로 추가합니다(Ye et al., 2023; Kim et al., 2023)을 참조한다. 우리가 아는 한, 우리는 쌍별 순위 설정에서 이러한 세분화된 평가를 연구한 최초의 사람입니다. 이는 다음과 같이 표현됩니다.
쌍별 순위에서 평가 기준 e 에는 각 점수에 대한 일련의 설명이 포함되지 않습니다. 대신 평가 기준 자체에 대한 설명만 있습니다. 또한 구두 피드백 vrm,rn 이 와 rm rn 관련된 e 공통점과 차이점을 비교한다는 점은 주목할 만합니다.
[3.3 The Preference collection]
HH-RLHF(Bai et al., 2022) 또는 Ultra Feedback(Cui et al., 2023)과 같은 인기 있는 쌍별 순위 데이터 세트에는 평가 기준 e 과 구두 피드백 vrm,rn 이 포함되어 있지 않습니다. 이러한 기준에 따라 평가할 수 있는 평가자 LM을 교육하기 위해 1K 평가 기준을 포함한 Preference Collection을 구성합니다. 피드백 컬렉션에 두 가지 수정 사항을 적용합니다. 첫째, 피드백 컬렉션에는 각 명령에 대한 5개의 응답이 포함되어 있으며 각 응답은 1에서 5 사이의 점수 결정에 해당하므로 5개의 응답 중 2개를 쌍으로 연결하여 명령어당 총 10개의 조합을 생성합니다. 각 응답에 대한 기존 점수 결정을 사용하여 어떤 응답이 더 나은지 결정하고 해당 쌍에 대해 새로운 점수 결정을 할당합니다(예: "응답 A가 더 좋음" 또는 "응답 B가 더 좋음"). 둘째, 각 응답 쌍에 대한 새로운 구두 피드백을 vrm,rn 생성하기 위해 GPT-4-1106에게 두 응답 간의 공통점과 차이점을 식별하도록 요청합니다.
결과 데이터 세트의 통계는 피드백 수집과 함께 표 1에 나열되어 있습니다. Preference Collection의 품질 검증 과정에 대해서는 부록 A에서 설명합니다. 또한 증강 과정에 사용하는 프롬프트를 부록 H에 포함합니다.
[3.4 Training Methods & Baselines]
[prompting message]
프롬프트링에는 LM을 쿼리하여 교육 없이 지정된 평가 형식으로 판단을 내리는 것이 포함됩니다. 우리는 Llama-2-Chat-7,13,70B를 사용합니다(Touvron et al., 2023). Mistral-7B-Instruct-v0.2(Jiang et al., 2023a); 및 Mixtral-8x7B-Instruct-v0.1(Jiang et al., 2024)을 기준으로 합니다. 피드백 데이터에 대해 명시적으로 학습되지 않은 모델은 필요한 형식으로 응답을 생성하지 못하는 경우가 많아 점수 매기기 결정을 구문 분석하기가 매우 어렵다는 점은 주목할 가치가 있습니다. 일반적인 사용에는 비실용적이지만 점수를 구문 분석 할 수 있을 때까지 무한 루프하여 공정한 비교를 합니다. 또한 GPT-3.5-Turbo-0613과 같은 독점 LM이 포함되어 있습니다. GPT-4-1106; 및 Claude-3-Opus.
[Single-Format Training 단일형식교육]
단일 형식 교육에는 직접 평가 피드백 데이터 세트 Dd 또는 쌍별 순위 피드백 데이터 세트에서 기본 모델을 θ 교육하는 것이 포함됩니다 Dp . 단일 형식 훈련된 평가자 LM의 경우 Prometheus-7,13B(Kim et al., 2023)(직접 평가)를 테스트합니다. UltraRM-13B (Cui et al., 2023) (페어별 순위); 및 PairRM-0.4B(Jiang et al., 2023c)(페어별 순위). 또한 직접 평가 또는 페어별 순위에 따라 단일 형식 훈련 Mistral-7B-Instruct-v0.2 및 Mixtral-8x7B-Instruct-v0.1의 성능도 보고합니다.
[Joint Training]
공동 훈련에는 직접 평가 피드백 데이터 세트 Dd 와 쌍별 순위 피드백 데이터 세트 모두에서 기본 모델을 θ 훈련하는 것이 포함됩니다 Dp . 이를 통해 결과 평가자 LM이 두 평가 형식 모두에서 작동할 수 있습니다. 공동으로 훈련된 평가자 LM의 경우 Auto-J를 테스트합니다(Li et al., 2023a). 또한, Mistral-7B와 Mixtral-8x7B를 공동으로 훈련한 결과를 직접 평가와 페어별 랭킹으로 보고합니다.
[Weight Merging]
가중치 병합에는 두 개의 모델을 교육하는 작업이 포함되며 θp , θd 직접 평가 피드백 데이터 세트 Dd 와 쌍별 순위 피드백 데이터 세트에 대해 별도로 학습합니다 Dp . 그런 다음 θd 와 θp 를 병합하여 최종 평가자 LM θfinal 을 얻습니다. 예를 들어, 선형 병합은 다음과 같습니다.
선형 병합 외에도 Task Arithmetic 병합(Ilharco et al., 2022), TIES 병합(Yadav et al., 2024), DARE-TIES 및 DARE-Linear 병합(Yu et al., 2023) 및 SLERP 병합(Goddard et al., 2024)의 5가지 추가 변형을 테스트합니다. 이러한 병합 방법에 대한 설명과 성능 차이에 대한 절제 실험 결과는 부록 G에 포함되어 있습니다. 그 중 DARE-Linear가 최고의 성능을 보였기 때문에 Prometheus 2 (7B & 8x7B) 모델을 훈련하는 데 사용했습니다. 프롬프트 템플릿과 함께 학습 및 추론을 위한 하이퍼 매개 변수에 대한 자세한 내용은 모두 부록 B, I, J에 나열되어 있습니다.
[4. Experimental Setup]
모든 벤치마크의 통계는 표 2에 나와 있습니다. 4가지 직접 평가 벤치마크는 다음과 같습니다.
1. Vicuna Bench(Chiang et al., 2023):
80개의 테스트 프롬프트, Kim et al.( 2023)의 수작업 점수 루브릭 80개, WizardLM-13B, Vicuna-13B, Llama-2-Chat-13B, GPT-3.5-Turbo-0613에서 얻은 320개의 응답을 포함하는 단일 턴 채팅 벤치마크입니다.
2. MT Bench(Zheng et al., 2023):
80개의 테스트 프롬프트, Kim et al.( 2023)의 수작업 점수 루브릭 80개, WizardLM-13B, Vicuna-13B, Llama-2-Chat-13B, GPT-3.5-Turbo-0613에서 얻은 320개의 응답으로 구성된 멀티턴 채팅 벤치마크입니다.
3. FLASK(Ye et al., 2023): Alpaca-7B, Vicuna-13B, Bard, GPT-3.5-Turbo-0613에서 획득한 2000개의 테스트 프롬프트, 12개의 점수 루브릭 및 2000개의 응답으로 구성된 세분화된 평가 벤치마크입니다. 독점 LM의 점수 외에도 이 벤치마크에는 인간 평가자가 표시한 점수도 포함됩니다.
4. Feedback Bench (Kim et al., 2023): 열차 데이터와 겹치지 않는 1K 점수 기준표, 200개의 명령어 및 1K 응답이 포함된 피드백 컬렉션의 테스트 세트입니다.
4개의 쌍별 순위 벤치마크는 다음과 같습니다.
HHH Alignment(Askell et al., 2021): 221개의 프롬프트로 구성된 벤치마크입니다. 인간 평가자가 판단한 4개의 점수 기준표(유용성, 무해성, 정직성 및 기타)와 221개의 응답 쌍('승리' 또는 '패배'로 등급화됨).
MT Bench Human Judgment(Zheng et al., 2023): MT-Bench와 동일한 80개의 프롬프트를 공유하는 벤치마크입니다. 또한 인간 평가자가 판단하는 3,360개의 응답 쌍('승리', '무승부' 또는 '패배'로 등급이 매겨짐)을 제공합니다.
Auto-J Eval(Li et al., 2023a): 벤치마크는 인간 평가자가 판단한 58개의 프롬프트와 1,392개의 응답 쌍('승리', '무승부' 또는 '패배'로 등급이 매겨짐)으로 구성되었습니다. 이 벤치마크는 Auto-J의 도메인 내 테스트 세트로 사용됩니다.
Preference Bench: Prometheus 모델에 대한 도메인 내 테스트 세트입니다. 피드백 컬렉션으로 기본 설정 수집을 만든 방법과 유사하게, 피드백 벤치를 조정하고 5개의 응답 중 2개를 쌍으로 구성하여 200개의 프롬프트, 2,000개의 응답 쌍('승리' 또는 '패배'로 등급이 매겨짐) 및 200개의 평가 기준이 있는 테스트 세트를 만듭니다.
직접 평가에서는 참조 답변을 입력으로 추가하여 참조 기반 평가를 수행합니다. Pearson, Spearman 및 Kendall-Tau를 성능 지표로 사용하여 참조 평가자에 대한 점수 상관 관계를 측정합니다. 또한, 참조가 없는 직접 평가 평가 결과를 부록 F에 포함하고 있습니다.
페어 라이징에서는 참조 없는 평가를 실시합니다. 인간이 부여한 판단에 따라 평가자 LM과 인간 간의 일치도를 측정하기 위한 지표로 정확도를 사용합니다.
또한 MT Bench Human Judgment 및 Auto-J 테스트 세트에는 인간 평가자가 평가하는 '동점' 옵션이 포함되어 있습니다. 두 가지 방법으로 평가합니다: 쌍별 순위에 대한 모든 '동점' 옵션을 제외하거나('동점 없음'으로 표시) '동점'으로 점수가 매겨진 응답을 그룹화하고 점수가 다른 나머지 응답('w/ 동점'으로 표시)에 쌍별 순위를 적용하는 직접 평가를 사용합니다.
[5. Experimental Results]
이 섹션에서는 직접 평가 형식(섹션 5.1) 및 쌍별 순위 형식(섹션 5.2)을 사용하여 Prometheus-2 모델의 평가 기능을 다른 기준과 비교합니다. 또한 부록 E에서 평가자 LM의 점수 일관성을 측정합니다.
[5.1 Direct Assessment Results]
직접 평가 결과는 표 3과 같습니다. 프로메테우스 2 모델(7B & 8x7B), GPT-4-1106, 클로드-3-오푸스(Claude-3-Opus) 및 인간 평가자의 점수 결정은 모두 서로 강한 상관관계가 있으며, 참조 평가자 및 벤치마크에 관계없이 0.5 이상의 Pearson 상관 관계를 산출합니다. 반면에 기본 LM, 단일 형식 학습 LM 및 공동 학습 LM은 대부분 0.5 미만으로 더 낮은 상관 관계를 보입니다.
특히 Prometheus 2 모델은 독점 LM과의 상관 관계에서 벤치마크 전반에 걸쳐 Prometheus 및 Auto-J보다 최소 0.2단위 더 우수합니다. 또한 FLASK 벤치마크에서 인간과 GPT-4 간의 상관관계는 0.679인 반면, 이전에 Prometheus-13B와 인간과의 상관관계는 0.449였습니다. 프로메테우스-2-8x7B는 인간과 0.555의 상관관계를 달성하여 그 차이를 절반으로 줄였다.
[5.2 Pairwise Ranking Results]
쌍별 순위 결과는 표 4에 나와 있습니다. 'w/ Tie' 설정에서 Pair RM 및 Ultra RM의 결과를 처리할 수 없으므로 제외합니다.
4가지 벤치마크 모두에서 프로메테우스 2 모델이 가장 높은 점수를 획득하여 인간의 판단을 효과적으로 시뮬레이션할 수 있음을 보여줍니다. 특히, HHH Alignment는 Pair RM에 대한 도메인 내 테스트 세트이고 Auto-J Eval은 Auto-J에 대한 것이지만 Prometheus-2-8x7B는 더 높은 점수를 얻습니다. 이는 피드백 데이터로 대규모 LM(즉, Mixtral-8x7B)을 훈련하는 것이 훈련 데이터를 넘어 일반화할 수 있는 강력한 평가자 LM을 얻기 위한 효과적인 전략이 될 수 있음을 보여줍니다. 또한 Prometheus 2 모델은 도메인 외 테스트 세트에서 기존 평가자 LM에 비해 독점 LM과의 성능 차이를 절반 이상 줄입니다.
[6. Analyses of Weight Merging]
평가의 맥락에서 제안된 가중치 병합 방법의 효과를 이해하기 위해 다음과 같은 연구 질문을 다룹니다.
- RQ1: 웨이트 병합이 관절 훈련에 비해 더 효과적입니까? (섹션 6.1)
- RQ2: 가중치 병합의 효율성이 모델 앙상블링으로 인한 것입니까? (섹션 6.2)
- RQ3: 직접 평가를 통한 학습이 페어별 순위 성과에 어느 정도 도움이 되며 그 반대의 경우도 마찬가지입니까? (섹션 6.3)
[6.1 Weight Merging vs Joint Learning]
표 5는 웨이트 병합 및 관절 훈련을 통해 훈련된 평가자 LM의 성능을 비교합니다. 이와 함께 프롬프트 및 단일 형식 교육의 결과를 추가하고 비교합니다.
놀랍게도, 합동 훈련을 통해 훈련된 평가자 LM은 단일 형식으로만 훈련된 평가자 LM에 비해 종종 낮은 성과를 보였는데, 이는 부정적인 작업 전달을 나타냅니다. 특히, 직접 평가 형식으로만 훈련된 평가자 LM은 서로 다른 모델 척도에서 공동으로 훈련된 LM에 비해 더 높은 상관 관계를 얻습니다. 마찬가지로, 쌍별 순위 형식으로만 훈련된 평가자 LM은 특히 Mixtral-8x7B를 기본 모델로 사용할 때 여러 작업에서 훈련된 평가자 LM에 비해 더 높은 평균 정확도를 달성합니다.
반면에, 가중치 병합을 통해 훈련된 평가자 LM은 공동으로 훈련된 평가자 LM뿐만 아니라 단일 형식 교육을 받은 평가자 LM에 비해 우수한 성능을 보였으며, 이는 긍정적인 작업 전달을 나타냅니다. 또한 둘 다 서로에게 이익이 되지만 쌍별 순위 평가자 LM 가중치를 병합하면 그 반대보다 직접 평가 성능이 더 크게 향상됩니다.
[6.2 Is the Effectiveness of Weight Merging due to Model Ensembling?]
웨이트 병합의 효율성이 모델 앙상블링으로 인한 것인가요?
가중치 병합이 효과적이라는 것을 경험적으로 발견했지만 근본적인 이유는 불분명합니다. 이러한 효과는 여러 모델을 결합하는 앙상블링 효과에서 비롯된다는 것이 자연스러운 가정입니다. 이 가설을 테스트하기 위해 서로 다른 무작위 시드에 대해 여러 평가자 LM을 훈련시키고 병합하는 절제 실험을 수행합니다. 구체적으로, 직접 평가 형식으로 훈련된 두 개의 평가자 LM('직접 평가 및 직접 평가'로 표시)과 쌍별 순위 형식('Pairwise Ranking 및 Pairwise Ranking'으로 표시)으로 훈련된 두 개의 평가자 LM을 병합합니다. 우리는 Mistral-7B-Instruct를 기본 모델로 사용합니다.
그 결과를 표 6에 나타내었다. 여러 벤치마크에서 동일한 평가 형식으로 훈련된 평가자 LM을 병합해도 평가 성능이 향상되지 않습니다. 특히, 직접 평가 또는 쌍별 순위에 관계없이 동일한 평가 형식으로 훈련된 두 개의 평가자 LM을 병합하면 직접 평가 및 쌍별 순위 벤치마크 모두의 평균적인 성능에 부정적인 영향을 미칩니다. 대조적으로, 각각 직접 평가 및 쌍별 순위 형식으로 훈련된 두 개의 평가자 LM을 병합하면 다른 설정에 비해 우수한 성능을 얻을 수 있습니다. 이는 가중치 병합의 유익한 작업 전환이 여러 모델을 결합하는 것이 아니라 서로 다른 평가 형식을 통합함으로써 발생한다는 것을 나타냅니다.
[6.3 Quantifying Positive Transfer across Evaluation Formats]
평가 형식 간 포지티브 전달 정량화
직접 평가 피드백 데이터에 대한 교육이 쌍별 순위 정확도에 어떤 영향을 미치는지 또는 그 반대의 경우도 마찬가지인지 알아보기 위해 선형 병합 중에 α 값을 조정하여 실험합니다. 실험에서 8가지 벤치마크를 모두 사용하여 평균 성능을 평가합니다. 평균 성과(검은색)를 설명하기 위해 원래 0에서 1 사이인 직접 평가의 Pearson 상관 관계에 100을 곱한 후 쌍별 순위 정확도로 평균을 구하여 척도를 조정합니다.
결과는 그림 3에 나와 있습니다. 직접 평가 벤치마크의 경우 평가자 LM은 0.5로 설정될 때 α 최적의 성능을 얻습니다. 이는 쌍별 순위와 직접 평가 피드백 데이터가 모두 동등하게 기여한다는 것을 간접적으로 나타냅니다. 반면에 쌍별 순위 벤치마크의 경우 0.3으로 설정될 때 α 성능이 최적입니다. 이는 또한 둘 다 서로에게 이익이 되지만 쌍별 순위에 대한 교육이 그 반대보다 직접 평가 성능을 더 향상시킨다는 것을 의미합니다.
[7. Conclusion]
다른 응답을 평가하는 데 특화된 오픈 소스 LM인 Prometheus 2를 소개합니다. 가장 널리 퍼져 있는 두 가지 평가 체계인 직접 평가와 쌍별 순위 지정을 모두 효과적으로 처리할 수 없는 기존의 개방형 평가자 LM과 달리 Prometheus 2 모델은 두 가지 체계 모두에서 우수한 성능을 보여 독점적인 LM 기반 평가와의 격차를 크게 좁혔습니다. Prometheus 2 모델을 훈련시키기 위해 유용성 및 무해성과 같은 기본 품질을 넘어 1,000개 이상의 인스턴스별 평가 기준을 포함하는 최초의 쌍별 순위 데이터 세트인 Preference Collection을 개발합니다. 특히, 직접 평가 또는 쌍별 순위 형식으로 훈련된 평가자 LM을 병합하면 강력한 성능을 가진 통합 평가자 LM으로 이어질 수 있습니다. 우리의 연구가 오픈 소스 LM을 평가자로 사용하는 것에 대한 더 많은 연구를 장려하기를 바랍니다.
마지막으로, 본 논문은 경험적 실험에 기반한 가중치 병합을 통해 절대 평가 형식과 비교 평가 형식을 모두 잘 처리할 수 있는 평가 모델을 제시합니다. 그러나 가중치 병합이 잘 작동하는 이유를 근본적으로 설명하는 것은 여전히 어려운 작업입니다. 이를 해결하기 위해 제6절에서는 가중치 병합의 효과를 관절 훈련과 비교하여 간접적으로 분석하고, 평가 성과의 향상이 모델 결합에 의한 것이 아님을 보여주고, 비교 평가가 절대 평가에 미치는 영향이 그 반대의 경우보다 크다는 것을 보여준다. 현재 우리가 할 수 있는 최선의 해석은 "절대 평가와 비교 평가는 완전히 다른 작업이 아니므로 가중치 병합은 퇴화 없이 둘 다 처리할 수 있고, 반대로 너무 유사하지 않기 때문에 가중치 병합이 관절 훈련보다 더 잘 수행된다"는 것입니다. 향후 연구에서는 이를 이론적으로 분석하거나 가중치 병합이 평가 이외의 LLM 분야에서 효과적으로 작동할 수 있는지 여부를 더 자세히 탐구할 수 있습니다.