Super Kawaii Cute Cat Kaoani

NLP/paper

[paper] DATAINF: EFFICIENTLY ESTIMATING DATA INFLUENCEIN LORA-TUNED LLMS AND DIFFUSION MODELS (ICLR 2024)

zozni 2025. 1. 3. 11:15
728x90
반응형
SMALL

 

 

 


아래부터는 논문 전체 번역본입니다. 

 

[Abstract]

학습 데이터 포인트의 영향을 정량화하는 것은 머신러닝 모델의 출력을 이해하고 AI 파이프라인의 투명성을 향상시키는 데 매우 중요합니다. 영향 함수는 원칙적이고 대중적인 데이터 귀속 방법이지만, 그 계산 비용 때문에 종종 사용하기 어렵습니다. 이 문제는 대규모 언어 모델과 텍스트-이미지 모델 설정에서 더욱 두드러집니다. 본 연구에서는 대규모 생성 AI 모델에 실용적인 효율적인 영향 근사 방법인 DataInf를 제안합니다. 계산이 쉬운 폐쇄형 표현을 활용하여, DataInf는 계산 및 메모리 효율성 측면에서 기존의 영향 계산 알고리즘을 능가합니다. 우리의 이론적 분석은 DataInf가 LoRA와 같은 매개변수 효율적인 미세 조정 기술에 특히 적합하다는 것을 보여줍니다. 체계적인 실증 평가를 통해, DataInf가 영향 점수를 정확하게 근사하며 기존 방법보다 몇 배 더 빠르다는 것을 보여줍니다. RoBERTarge, Lama-2-13B-chat 및 안정적 확산-v1.5 모델에 적용할 때, DataInf는 다른 근사 영향 점수보다 가장 영향력 있는 미세 조정 예제를 효과적으로 더 잘 식별합니다. 또한, 어떤 데이터 포인트가 잘못 라벨링되었는지 식별하는 데 도움이 될 수 있습니다.

 

[1. Introduction]

현대의 대형 언어 모델(LLM)과 텍스트-이미지 모델은 인간과 유사한 텍스트와 사실적인 이미지를 생성하는 데 있어 놀라운 능력을 보여주었으며, 이는 번역, 대화 시스템, 이미지 편집 등 다양한 실제 응용 분야로 이어졌습니다(Brown et al., 2020; Rombach et al., 2022; Jiao et al., 2023). 그럼에도 불구하고 최첨단 모델조차도 훈련 데이터의 문제로 인해 사실적으로 잘못된 예측이나 편향된 출력(Abid et al., 2021; Ouyang et al., 2022; Ferara, 2023)을 생성하는 경우가 많습니다. 이는 특정 훈련 데이터 포인트의 영향을 정량화하기 위한 원칙적이고 체계적인 방법의 필요성을 강조합니다. 영향 함수는 각 훈련 데이터 포인트가 모델 예측에 미치는 영향을 평가하기 위한 엄격한 프레임워크를 제공합니다(Hampel, 1974; Cook & Weisberg, 1980). 그 효과는 다양한 다운스트림 머신 러닝 작업에서 입증되었습니다: 잘못된 라벨링된 데이터 탐지(Koh & Liang, 2017), 최상의 하위 집합 선택(Feldman & Zhang, 2020; Guo et al., 2021), 모델 해석(Han et al., 2020; Aamir et al., 2023; Grosse et al., 2023), 모델 편향 조사(Wang et al., 2019; Kong et al., 2022) 등입니다.

 

영향 함수는 유망한 결과를 보였지만, 실제 시나리오에서의 적용은 계산 비용이 많이 들기 때문에 실질적인 도전 과제를 안고 있습니다. 영향 함수를 계산하려면 역 헤시안 행렬의 계산이 필요하며, 이는 집중적인 계산을 수반합니다.
이전 연구들은 이러한 부담을 줄이기 위해 노력해왔지만, 대부분의 기존 방법들은 여전히 반복 알고리즘(Martens, 2010; Agarwal et al., 2017), 다중 고유값 분해(George et al., 2018) 또는 다양한 모델(Feldman & Zhang, 2020)의 훈련을 필요로 합니다. 따라서 LLMs(Devlin et al., 2018; Liu et al., 2019; Touvron et al., 2023) 및 확산 모델(Sohl-Dickstein et al., 2015; Ho et al., 2020; Rombach et al., 2022)과 같은 대형 모델에 대한 영향 함수를 계산하는 것은 매우 어려웠습니다.

 

<Our Contributions>

저희는 대규모 머신러닝 모델에 쉽게 적용할 수 있는 계산 효율적인 영향력 근사 방법인 DataInf를 제안합니다. DataInf는 계산이 쉬운 폐쇄형 표현식을 기반으로 하여 기존 최첨단 영향력 계산 알고리즘보다 더 나은 계산 및 메모리 복잡성을 제공합니다. 우리의 근사 오류 분석 결과, DataInf는 매개변수 효율적인 미세 조정 모델에 적용될 때 특히 효과적임을 시사합니다.
우리는 근사 오류 분석, 잘못 라벨링된 데이터 탐지, 그리고 영향력 있는 데이터 식별이라는 세 가지 실험을 통해 DataInf의 실질적인 효능을 평가합니다. 우리의 실증 결과는 DataInf가 기존 알고리즘보다 가장 (또는 가장) 영향력 있는 학습 데이터 포인트를 더 빠르고 효과적으로 검색할 수 있음을 보여줍니다. 우리는 RoBERTa, Lama-2-13B-chat, 그리고 안정적인 diffusion-v1.5 모델에 DataInf를 적용하여 LLM 및 대규모 확산 모델에 쉽게 적용할 수 있음을 입증했습니다. Python 기반 구현 코드는 https://github.com/ ykwon0407/DataInf에서 확인할 수 있습니다.

 

[2. Preliminaries]

우리는 입력 공간과 레이블 공간을 각각 X와 Y로 나타냅니다. 우리는 훈련 데이터셋을

로 나타내며, 여기서 xi ∈ X와 yi ∈ Y는 입력이고 i번째 데이터셋의 레이블입니다. 우리는 경험적 위험 최소화 프레임워크를 고려합니다: 손실 함수 ℓ : Y × Y → R 및 매개변수 공간 θ의 경우, 경험적 위험 최소화는 다음과 같이 정의됩니다:

여기서 f θ : X → Y는 θ ∈ θ로 매개변수화된 모델입니다. 우리는 m ∈ N에 대해 [m] : = {1, . . . , m}을 설정했습니다.
i ∈ [n]과 벡터 η의 경우, 우리는 i번째 데이터 포인트의 η에 대한 손실을

로 나눈 기울기를 나타냅니다.

 

[2.1 Influence Function]

영향 함수는 개별 훈련 데이터 포인트가 매개변수 추정에 미치는 영향을 평가합니다(Hampel, 1974; Cook & Weisberg, 1980; Martin & Yohai, 1986). 이 함수는 특정 데이터 포인트가 업가중치일 때 매개변수 추정치가 얼마나 빠르게 변화하는지를 포착합니다. 보다 구체적으로, k ∈ [n]과 ε ∈ R에 대해 다음과 같은 ε 가중 위험 최소화 문제를 고려합니다: A. 손실 함수 ℓ(y, fθ(x))가 모든 (x, y) ∈ X × Y에 대해 θ이 두 배로 미분 가능하고 강하게 볼록할 때, 경험적 위험 최소화 θ∗은 잘 정의되어 있으며, k번째 데이터 포인트(xk, yk) ∈ D가 경험적 위험 최소화 θ∗에 미치는 영향은 ε = 0에서 θ(k)(ε)의 도함수로 정의됩니다:

 

여기서

는 경험적 손실의 헤시안입니다(Hampel, 1974; Van der Vaart, 2000)

 

영향 함수 I(xk, yk)는 하나의 데이터 포인트가 검증 손실에 어떻게 영향을 미치는지 직관적으로 해석할 수 있게 해줍니다. I(xk, yk)가 큰 양수(각각 음수) 값일 때, I(xk, yk)는 검증 손실의 기울기로 정의되기 때문에 데이터 포인트(xk, yk)가 상향 가중될수록 검증 손실이 증가(각각 감소)하게 됩니다. 즉, 영향 함수는 (xk, yk)가 예측 손실에 유익한지 해로운지 직관적으로 나타냅니다.

 

영향 함수는 엄밀한 통계적 틀에서 확립되어 있지만, H(θ∗)의 2차 기울기로 인해 계산이 종종 실용적인 도전 과제를 제기합니다. 2차 기울기를 계산하는 것은 일반적으로 계산 집약적이지만, 손실 함수가 음의 로그 우도 함수일 때 1차 기울기로 달성할 수 있습니다(Bartlett, 1953). 자세히 설명하기 위해, 모든 (x, y) ∈ X × Y와 θ ∈ θ ℓ에 대해 θ(y, f θ(x)) = - 로그 p(y | f θ(x))라고 가정합니다. 여기서 p(y | f θ(x))는 θ에서 (x, y)의 확률 밀도 함수입니다. Bartlett의 두 번째 항등식은 기대값이 분포 p(Y | f θ∗(X))보다 높은 곳에 있음을 의미합니다. 즉, 헤시안 H(θ∗)는 1차 기울기

의 두 번째 모멘트로 대체될 수 있습니다. 이는 영향 함수에 대한 다음 공식을 도출합니다:

 

 

[2.2 Influence Functin for Deep Neural Network Models]

방정식 1의 영향 함수는 1차 기울기만으로 계산할 수 있지만(Basu et al., 2020; Bae et al., 2022), f θ이 딥 뉴럴 네트워크 모델인 경우 실용적인 어려움이 있습니다(Basu et al.). 첫째, θ의 차원이 샘플 크기 n을 초과할 때 G(θ)는 G(θ)의 랭크가 최대 n이기 때문에 가역적이지 않습니다. 둘째, G(θ)의 크기가 너무 커서 계산이 불가능합니다.

 

첫 번째 문제를 해결하기 위해, "감쇠 헤시안" 접근법을 사용하여 G(θ)의 대각선 요소에 소수의 양수를 추가하고 이를 양수로 확정합니다 (Martens, 2010). 두 번째 문제에 관해서는, G(θ)가 블록 대각 행렬로 대체되며, 여기서 각 블록은 심층 신경망 모델의 계층에 해당합니다. 더 구체적으로, f θ이 합성 함수 A로 표현될 수 있다고 가정해 봅시다. 여기서 l ∈ [L]에 대해, 우리는 일부 dl ∈ N에 대해 l번째 계층의 가중치와 편향을 θl ∈ R dl로 벡터화한 표기를 나타냅니다. 그런 다음, G(θ)의 l번째 대각선 블록은

로 표현될 수 있으며, G(θ)는 diag(G1(θ), . . . , GL(θ) (Grosse et al., 2023)로 대체됩니다. 이러한 접근법을 결합하면 다음과 같은 영향 함수를 얻을 수 있습니다:

 

여기서 A, λl은 어떤 양의 상수이고, Idl ∈ R dl×dl은 크기 dl의 항등 행렬입니다. 방정식 2의 영향 함수는 헤시안 행렬의 계산을 안정화할 뿐만 아니라 단순화하여 문헌에서 표준 추정치가 됩니다.
영향 함수의 초점을 방정식 1에서 방정식 2로 이동하면 계산이 더 실현 가능해지지만, 특히 dl이 클 때는 비용이 많이 드는 경우가 많습니다. 다음으로 가장 널리 사용되는 근사 방법 중 하나인 LiSSA를 검토합니다.

 

LiSSA

A Agarwal et al. (2017)은 역 헤시안 벡터 곱

를 계산하기 위한 반복 접근법을 제안했습니다. rl,0 = vl일 때, LiSSA는 다음 방정식을 재귀적으로 계산합니다:

. Agarwal et al. (2017)은 Lowner 차수에서

에 수렴할 때 rl,j가 증가한다는 것을 보여주었습니다. LiSSA에 기반한 영향 함수는

를 계산함으로써 얻어집니다. 본질적으로, 다음 근사를 사용합니다:

 

실제로 LiSSA는 합리적인 수의 반복에서 역 헤시안 벡터 곱

로 수렴한다고 가정하는 경우가 많습니다. 반복 횟수가 유한하면 LiSSA의 계산 복잡도는 메모리 복잡도가

연산이 됩니다.

 

딥 뉴럴 네트워크 모델의 영향 함수를 효율적으로 계산하기 위해 LiSSA를 포함한 여러 접근 방식이 연구되었습니다. 그러나 대부분의 기존 방법은 비용이 많이 드는 반복 알고리즘(Koh & Lang, 2017; Schioppa et al., 2022), 다중 고유값 분해 연산(Grosse et al., 2023), 또는 여러 모델의 학습(Feldman & Zhang, 2020)이 필요합니다.
따라서 이러한 방법을 LLM 또는 확산 모델에 적용하려고 할 때 실행 가능성이 크게 제한됩니다. 이 중요한 도전 과제에 대응하여, 우리는 영향 함수를 근사하는 새로운 폐쇄형 표현식을 도입합니다.

 

[3. DataInf : Efficient Influence Computation]

우리는 계산하기 쉬운 폐쇄형 표현식을 특징으로 하는 효율적인 영향력 계산 알고리즘인 DataInf를 제안합니다. DataInf는 기존 최첨단 방법보다 계산 및 메모리 복잡성 모두에서 더 나은 효율성을 가지고 있습니다. DataInf의 주요 근사치는 행렬 반전의 순서와

의 평균 계산을 다음과 같이 바꾸는 것입니다:

 

여기서

라는 용어는 랭크 1 행렬과 대각선 행렬의 합의 역행렬이기 때문에 닫힌 형식의 표현식을 갖습니다. 좀 더 구체적으로 말하자면, 셔먼모리슨 공식을 활용하여 방정식 4의 오른쪽을 다음과 같이 단순화할 수 있습니다.

간단히 말해, 방정식 4의 왼쪽에 있는 역 헤시안 부분은 닫힌 형식의 표현으로 근사할 수 있습니다. 이 발견을 바탕으로, 우리는 다음과 같이 영향 함수를 효율적으로 근사하는 DataInf를 제안합니다.

 

여기서 모든

에 대한

는 모든

에 대해.
방정식 5는 계산하기 쉬운

의 표현을 제공합니다. 부록 A에서 유사 알고리즘을 제공합니다.

 

DataInf는 O(maxl ∈[L] dl) 메모리를 사용하여

연산에서 계산할 수 있습니다. 계산 복잡성 측면에서 DataInf는 LiSSA보다 훨씬 빠르며 반복 연산이 필요하지 않습니다. 또한 DataInf는 헤시안 행렬을 저장할 필요가 없기 때문에 LiSSA보다 메모리 복잡성이 더 뛰어납니다. 표 1은 모델이 다층 퍼셉트론일 때 DataInf를 영향 함수(방정식 2, Exact로 표시됨)와 LiSSA의 정확한 계산과 비교한 것입니다.

 

Approximation error analysis

방정식 4의 근사치는 효율적인 계산 방법을 제공하지만, 일반적으로 두 항이 같지 않기 때문에 상당한 오류를 나타낼 수 있습니다. 이를 위해 우리는 방정식 4에 의해 발생하는 근사 오차를 이론적으로 조사합니다. 자세히 설명하기 위해, 우리는

를 설정합니다. 방정식 2의 영향 함수의 l번째 부분은

로 표현될 수 있으며, 제안된 방법의 l번째 부분은

입니다. 그런 다음, 이 두 항의 차이는 D로 제한됩니다. 여기서 우리는 행렬 A의 스펙트럼 노름을 ∥A ∥2로 나타내고 벡터 v의 L2 노름을 ∥v ∥2로 나타냅니다. 요약하면, 근사 오차는 주로 차이

의 스펙트럼 노름에 의존합니다. 다음 정리에서는 1차 기울기와 λl이 제한될 때 스펙트럼 노름이

로 스케일링됨을 보여줍니다.

표 1: Exact, LiSSA, DataInf 간의 비교. 계산 및 메모리 복잡성은 동일한 수의 뉴런을 가진 L개의 층을 가진 다층 퍼셉트론 모델에 대해 얻어집니다. 이 경우 각 레이어의 매개변수 수는 서로 다른 레이어에 걸쳐 동일하며, 이를 D ∈ N으로 표시합니다. 즉, dl은 모든 l ∈ [L]에 대해 D와 같습니다. DataInf는 계산 및 메모리 복잡성 측면에서 Exact와 LiSSA보다 더 나은 효율성을 가지고 있습니다. LiSSA와 비교했을 때, DataInf는 방정식 5에 제시된 폐쇄형 표현식을 활용하므로 비용이 많이 드는 반복 알고리즘이 필요하지 않습니다.

 

정리 1(근사 오차 분석).

와 λl이 유계라고 가정합니다. 그런 다음 차이

의 스펙트럼 노름은

로 유계됩니다.

 

부록 B에 증명이 제공됩니다. 정리 1은

와 λl이 유계일 때 스펙트럼 노름이

에 의해 유계됨을 보여줍니다. 이 가정은 일반적으로 그래디언트가 유계이고 λl을 제어할 수 있기 때문에 실제로 일반적으로 충족됩니다. 정리 1의 직접적인 의미 중 하나는 총 근사 오차가

에 의해 유계된다는 것입니다. 이 유계는 비관적일 수 있지만, dl이 작을수록 근사 오차를 더 견딜 수 있게 됩니다. 이것이 바로 DataInf가 LoRA 미세 조정에 사용되는 데이터의 영향을 추정하는 데 특히 적합한 이유입니다.

 

[4. Experiments]

우리는 세 가지 실험을 통해 DataInf의 실증적 효과를 조사합니다: (i) 근사 오류 분석, (ii) 잘못 라벨링된 데이터 탐지, (iii) 영향력 있는 데이터 식별. 이러한 작업들은 DataInf의 실질적인 효과를 정량적으로 평가하기 위해 설계되었으며, 그림 3에서도 정성적인 예를 제시합니다.

 

Experimental settings

모든 실험에서 우리는 공개적으로 이용 가능하고 널리 사용되는 대규모 LLM 및 확산 모델을 고려합니다. 근사 오류 분석 및 잘못 라벨링된 데이터 탐지 작업에는 RoBERTa 모델(Liu et al., 2019)을 사용하고, 영향력 있는 데이터 식별 작업에는 Lama-2-13B-chat 모델(Touvron et al., 2023)과 Stable-diffusion-v1.5 모델(Rombach et al., 2022)을 사용합니다.
훈련 중에 우리는 대형 모델을 미세 조정하는 데 필요한 메모리와 계산을 크게 줄이는 저순위 적응(LoRA) 기법을 사용합니다(Hu et al., 2021). 우리는 부정적인 로그 우도 함수를 최소화하여 모델을 미세 조정합니다. 기본 영향 계산 방법으로는 10회 반복되는 LiSSA(Martens, 2010; Koh & Liang, 2017), 1차 그래디언트의 내적을 계산하는 Hessian-free,

(Charpiat et al., 2019; Pruthi et al., 2020), 그리고 제안된 방법인 DataInf를 고려합니다. 모든 방법에 대해 문헌(Grosse et al., 2023)에 따라 동일한 감쇠 매개변수

를 사용합니다. 우리는 부록 D에서 데이터셋과 하이퍼파라미터에 대한 구현 세부 정보를 제공합니다.

 

[4.1 Approximation error analysis]

정리 1은 매개변수 크기가 커질수록 근사 오차가 증가한다는 것을 보여줍니다. 이 실험에서는 LoRA 행렬의 다양한 순위가 근사 오차에 어떻게 영향을 미치는지 실증적으로 연구하며, 순위가 높아질수록 근사 오차가 증가할 것으로 예상합니다. 또한, 세 가지 영향 계산 방법인 DataInf, Hessian-free, LiSSA 간의 근사 능력을 비교합니다. 각 영향 방법에 대해 방정식 2에 제시된 정확한 영향 함수를 사용하여 피어슨 상관 계수를 평가합니다. 상관관계가 높을수록 더 좋습니다. 우리는 네 가지 이진 분류 GLUE 데이터셋(Wang et al., 2018)을 사용합니다. 데이터 포인트 중 일부가 노이즈가 있는 상황을 시뮬레이션하기 위해 잘못된 라벨이 붙은 학습 데이터 포인트를 합성적으로 생성하여 노이즈가 있는 GLUE 데이터셋을 고려합니다. 무작위로 선택된 학습 데이터 포인트의 20%에 대해 이진 레이블을 뒤집습니다. 낮은 순위는 r로 표시되며 {1, 2, 4} 중에서 선택됩니다.

 

그림 1: 세 가지 영향력 계산 방법의 상관 계수 비교. 상관 계수는 영향 함수(식 2)의 정확한 계산과의 유사성을 포착하므로 상관 계수가 높을수록 좋습니다. 오차 막대는 20개의 독립 실행을 기준으로 95% 신뢰 구간을 나타냅니다. DataInf는 모든 순위 r ∈ {1, 2, 4}에서 다른 방법보다 정확한 영향력 값과 유의미하게 더 높은 상관관계를 보여 더 나은 근사 능력을 보여줍니다. 또한 DataInf의 상관 계수는 일반적으로 순위가 높아질수록 감소하여 이론적 분석과 일치합니다.

 

Results

그림 1은 모든 순위 r ∈ {1, 2, 4}에서 DataInf가 Hessian-free 및 LiSSA보다 정확한 영향력 방법과 훨씬 더 상관관계가 있음을 보여줍니다. 예를 들어, 데이터셋이 GLUE-MRPC이고 r = 1일 때, DataInf의 상관계수는 0.64인 반면 Hessian-free와 LiSSA는 각각 0.50과 0.45를 달성합니다. LiSSA가 매우 불안정하여 Hessian-free보다 더 나쁜 상관관계를 초래한다는 것을 관찰했습니다. 이러한 불안정성은 LiSSA의 반복적인 업데이트로 인해 종종 역 헤센 벡터 곱이 수렴하지 못하기 때문일 수 있습니다. 또한, 일반적으로 순위가 높아질수록 상관관계는 감소하며, 이는 정리 1의 결과와 일치합니다. 근사 오차는 매개변수 크기가 커질수록 증가합니다. 전반적으로 DataInf는 상관계수 측면에서 다른 방법보다 정확한 영향력 함수 값을 더 잘 근사합니다. 이 결과는 DataInf가 학습 가능한 매개변수의 수가 적은 미세 조정 기술에 잘 suited 수 있음을 시사합니다.

 

[4.2 Mislabeled Data Detection]

라벨이 잘못 지정된 데이터 포인트가 종종 모델 성능에 부정적인 영향을 미친다는 점을 고려할 때, 그 영향 값은 깨끗한 데이터 포인트보다 커야 하며, 이를 포함하면 손실이 증가할 가능성이 높습니다. 본 실험에서는 세 가지 영향 계산 방법의 라벨이 잘못 지정된 데이터 탐지 능력과 정확한 영향 함수(방정식 2)를 경험적으로 조사합니다. 우리는 근사 오류 분석에 사용된 동일한 노이즈가 있는 GLUE 데이터셋을 고려합니다. 이전 실험과 마찬가지로 라벨이 잘못 지정된 데이터(예: 라벨이 잘못 지정된 데이터의 경우 하나, 깨끗한 데이터의 경우 0)에 대한 실제 주석은 영향 함수의 품질을 평가하는 데만 사용되며, 미세 조정 및 영향 계산에는 사용되지 않습니다.

 

평가 지표의 경우, 영향력 값과 잘못 라벨링된 데이터에 대한 이진 주석 사이의 곡선 아래 면적(AUC) 점수를 사용하여 영향력 함수 값의 품질을 포착합니다.
이 AUC는 잘못 라벨링된 데이터 클래스에서 무작위로 선택된 점수가 깨끗한 데이터 클래스의 점수보다 클 확률을 측정합니다. 즉, 잘못 라벨링된 데이터 포인트에 큰 값을 할당할 가능성이 있는 영향 함수는 높은 AUC 값을 갖습니다. 우리는 하나의 NVIDIA A40 GPU 프로세서를 사용할 때 각 훈련 데이터 포인트에 대해 영향 함수를 계산하는 런타임을 측정합니다. LoRA 행렬의 랭크 r은 4로 설정되어 있지만, 우리는 부록 E에서 r = 1, r = 2, r = 8에 대한 추가 실험 결과를 제공하여 일관된 패턴을 발견했습니다.

 

Results

그림 2는 DataInf가 네 가지 데이터셋 모두에서 Hessian-free와 LiSSA보다 훨씬 더 나은 탐지 능력을 달성한다는 것을 보여줍니다. Exact와 비교했을 때, DataInf는 전반적으로 비슷한 결과를 보여줍니다. 흥미롭게도, DataInf가 Exact보다 더 나은 경우도 있다는 것을 발견했습니다. 이는 Exact가 잘못 라벨링된 데이터를 탐지하기 위해 설계되지 않았기 때문일 수 있습니다. 올바르게 라벨링된 데이터라도 분류기 경계에 가까울 때, 특히 매우 모호한 데이터에 큰 영향을 미칠 수 있습니다. 또 다른 잠재적인 이유는 감쇠 매개변수 λl이 Exact의 성능 저하를 초래할 수 있기 때문이지만, 우리는 이에 대한 엄밀한 분석을 향후 연구 주제로 남깁니다. 런타임 측면에서 DataInf는 뛰어난 계산 효율성을 보여줍니다. 예를 들어, GLUE-QQP 데이터셋에서 DataInf는 13초가 걸리는 반면, LiSSA와 Exact는 각각 70초와 11279초가 소요됩니다. 네 가지 데이터셋에서 우리의 데이터셋은 각각 LiSSA와 Exact보다 평균적으로 5.5배와 1149.6배 더 빠릅니다. Hessian-free가 가장 빠른 방법임을 보여주지만, Hessian을 계산할 필요가 없기 때문에 성능은 DataInf보다 훨씬 떨어집니다.

 

그림 2: LoRA 행렬 r의 랭크가 4일 때 네 가지 계산 방법의 잘못된 라벨링된 데이터 탐지 능력 비교. 탐지 능력은 AUC로 평가되며, 오차 막대는 20개의 독립 실행을 기준으로 95% 신뢰 구간을 나타냅니다. DataInf는 Exact보다 우수하거나 유사한 탐지 능력을 보여주며, 네 가지 데이터셋 모두에서 Hessian-free 및 LiSSA보다 훨씬 뛰어납니다. 런타임의 경우, DataInf가 Exact보다 훨씬 빠르며, 이는 우리 방법의 실질적인 효과를 입증합니다.

 

[4.3 Influential Data Identification]

DataInf의 유용성을 더욱 설명하기 위해 텍스트 생성 및 텍스트-이미지 생성 작업에서 영향력 있는 데이터 포인트를 얼마나 정확하게 식별할 수 있는지 평가합니다. 우리는 텍스트 생성 작업에 Lama-2-13B-chat 모델(Touvron et al., 2023)을 사용하고, 텍스트-이미지 생성 작업에 Stable-diffusion-v1.5 모델(Rombach et al., 2022)을 사용합니다. 두 모델 모두 공개적으로 이용 가능하며 문헌에서 널리 사용되고 있습니다.
텍스트 생성 작업을 위한 세 가지 시연 데이터셋을 구성합니다: (i) 문장 변환, (ii) 수학 단어 문제(추론 포함), (iii) 수학 단어 문제(추론 포함). 각 작업 및 데이터셋에 대한 자세한 설명은 부록 D의 표 3에 나와 있습니다. 각 데이터셋에는 각 클래스에 총 100개의 데이터 포인트가 있는 10개의 클래스가 포함되어 있습니다. 우리는 100개의 예제를 90개의 학습 데이터(LoRA에 사용됨) 포인트와 10개의 테스트 데이터 포인트로 나눕니다. 텍스트-이미지 생성을 위해 두 가지 작업을 고려합니다: (i) 스타일 생성과 (ii) 피사체 생성. 스타일 생성 작업을 위해 우리는 공개적으로 사용 가능한 세 가지 이미지-텍스트 쌍 데이터셋을 결합하여 각 데이터셋이 서로 다른 스타일을 나타냅니다: 만화(Norod78, 2023), 픽셀-아트(Jainr3, 2023), 라인 스케치(Zoheb, 2023). 각 스타일에 대해 200개의 학습 이미지-텍스트 쌍과 50개의 테스트 이미지-텍스트 쌍을 사용하여 총 600개의 학습 데이터 포인트와 150개의 테스트 데이터 포인트를 제공합니다. 피사체 생성 작업을 위해 드림부스 데이터셋(Ruiz et al., 2023)을 사용합니다. 31개의 서로 다른 피사체가 있으며, 각 피사체마다 3개의 데이터 포인트가 학습 데이터셋에 사용되고 1~3개의 데이터 포인트가 검증 데이터셋에 사용됩니다. 자세한 프롬프트는 부록 D에 제공됩니다.

 

일부 훈련 데이터 포인트가 테스트 데이터 포인트의 손실을 최소화하는 데 도움이 된다면, 그 영향 함수 값은 음수여야 합니다. 동일한 클래스 데이터 포인트를 추가할 때 검증 손실이 감소해야 합니다. 이러한 직관에 따라 우리는 두 가지 평가 지표를 활용합니다. 먼저, 각 테스트 데이터 포인트에 대해 각 훈련 데이터 포인트에 대해 의사 레이블을 만듭니다. 이 의사 레이블은 해당 레이블이 테스트 데이터 포인트의 레이블과 같으면 하나이고, 그렇지 않으면 0입니다. 그런 다음 부정적인 영향 함수 값과 의사 레이블 사이의 AUC를 계산합니다. 이상적으로는 동일한 클래스가 부정적인 영향 값을 가지기 때문에 큰 AUC가 예상됩니다. 우리는 테스트 데이터 포인트 간의 평균 AUC를 보고합니다. 이를 클래스 감지 AUC로 표시합니다. 둘째, 각 테스트 데이터 포인트에 대해 s가 가장 작은 영향력 있는 훈련 포인트 중 테스트 예제와 동일한 클래스를 가진 훈련 포인트의 비율을 계산합니다. 여기서 s는 클래스당 훈련 예제의 수로 설정됩니다. 우리는 테스트 데이터 포인트 전체의 평균 비율을 보고하고 이를 리콜로 표시합니다. 이러한 지표는 각 방법이 테스트 예제와 동일한 클래스에 속하는 훈련 데이터 포인트를 다른 클래스에 속하는 데이터 포인트보다 얼마나 효과적으로 식별할 수 있는지 평가하기 위한 것입니다.

표 2: 영향력 있는 데이터 식별 작업에 대한 Hessian-free와 DataInf의 AUC 및 리콜 비교. LiSSA는 불안정성으로 인해 종종 수렴하지 못하기 때문에 이 실험에서는 제외됩니다. 테스트 데이터 포인트 간의 AUC와 리콜의 평균 및 표준 편차는 "평균±표준 편차"로 표시되며, 높을수록 두 지표 모두에서 더 우수합니다. DataInf는 5가지 다른 작업에서 두 지표 모두에서 Hessian-free를 크게 능가합니다.

 

Results

각 작업과 모델에 대한 평가 지표는 표 2에 보고되어 있습니다. DataInf는 영향력 있는 데이터를 식별하는 데 있어 모든 작업과 모든 지표에서 Hessian-free를 크게 능가합니다. 특히, LiSSA는 네 가지 작업과 모델 모두에서 유의미한 수치적 불안정성을 보였으며, 이는 일부 실행에서 유효하지 않은 영향 값을 초래했습니다. 기울기 재조정 후에도 LiSSA가 모든 작업에서 Hessian-free로 붕괴되는 것을 관찰했습니다. 우리는 이러한 불안정성이 LiSSA의 반복적인 특성과 대규모 모델의 고차원적 특성에 기인할 수 있다고 가정합니다.
테스트 예제와 그 절대값을 기반으로 한 가장 영향력 있는 학습 데이터 포인트 및 가장 영향력 있는 학습 데이터 포인트가 포함된 정성적 예제는 그림 3에 나와 있습니다.

 

[5. Related Works]

개별 훈련 데이터 포인트가 모델 정확도나 예측에 미치는 영향을 평가하는 것은 데이터 가치 평가 문헌에서 널리 연구되어 왔습니다. 가장 널리 채택된 데이터 가치 평가 방법 중 하나는 특정 데이터 포인트를 데이터 포인트 집합에서 제거했을 때 모델 성능의 평균 변화를 측정하는 한계 기여도를 기반으로 합니다. 많은 표준 방법들이 이 범주에 속하며, 여기에는 Leave-One-out 방법과 다양한 Shapley 기반 방법(Ghorbani & Zou, 2019; Jia et al., 2019; Kwang & Zia, 2022; Kwang et al., 2023)이 포함됩니다. 이러한 방법 외에도 강화 학습(Yoon et al., 2020) 또는 아웃오브백 정확도(Kwon & Zou, 2023)를 사용하는 여러 대안적인 접근 방식이 제안되었습니다. 앞서 언급한 모든 데이터 가치 평가 방법과 달리, 영향 함수는 데이터 값의 엄격하고 직관적인 개념을 전달하는 그래디언트를 기반으로 합니다. 이러한 방법들에 대한 광범위한 검토를 위해 독자는 Jiang et al. (2023)을 참고합니다.

다운스트림 머신러닝 작업에서 경험적 성능을 고려할 때, 다른 비영향 기반 데이터 기여 방법들은 종종 영향 함수를 능가합니다(Park et al., 2023; Jiang et al., 2023). 그러나 대부분의 이전 연구들은 비교적 작은 모델과 데이터셋에 초점을 맞추고 있습니다. 이러한 한계는 신뢰할 수 있는 데이터 값을 얻기 위해 일반적으로 수많은 모델을 훈련해야 하는 기존 알고리즘의 계산 불가능성에서 비롯됩니다(Sim et al., 2022; Feldman & Zhang, 2020). LLM이나 확산 모델을 배포할 때, 모델 훈련이 필요한 데이터 가치 평가 방법은 실질적으로 적용되지 않습니다. 여러 방법들이 모델 초기화 시 데이터의 가치를 포착하고 훈련 과정이 필요하지 않지만(Nohyun et al., 2022; Wu et al., 2022), 그 성능은 주로 상대적으로 작은 신경망 모델에서 검토됩니다. LLM이나 확산 모델을 위한 효율적인 계산 방법의 개발은 매우 중요하며, 이 논문의 주요 기여입니다.

 

그림 3: Lama-213B-chat 및 stable-diffusion-v1.5 모델을 사용하여 수행된 텍스트 생성 및 텍스트-이미지 생성 작업 전반에 걸쳐 DataInf를 통해 발견된 가장 영향력 있는 학습 데이터 포인트와 가장 영향력이 적은 학습 데이터 포인트의 예시를 보여줍니다. 가장 (적어도) 영향력이 큰 데이터 포인트는 학습 데이터 포인트 중 테스트 예제에 가장 큰 (적어도) 절대적인 영향력을 미칩니다. DataInf는 테스트 예제 프롬프트와 높은 관련성을 보이는 가장 영향력 있는 데이터 포인트를 성공적으로 식별했습니다. 반대로, DataInf가 식별한 가장 영향력이 적은 데이터 포인트는 더 낮은 관련성을 보여줍니다. 본질적으로 DataInf는 영향력 있는 데이터 포인트를 감지하는 데 효과적입니다.

 

Grosse 등(2023)은 동시에 독립적인 연구로서 영향 함수를 효율적으로 계산하는 Eigenvalue-Kroneckerfactored 근사 곡률(EK-FAC) 기반 알고리즘을 제안했습니다. 이 알고리즘은 LLM(확산은 아니지만)에 적용되었지만, EK-FAC 방법은 네트워크 아키텍처에 크게 의존하기 때문에 LoRA 튜닝 모델에 적용하는 것이 간단하지 않습니다.
EK-FAC의 구현도 공개되지 않습니다. 부록 C에서 더 자세한 설명을 제공합니다.

 

[6. Conclusion]

우리는 매개변수 효율적인 미세 조정에 적합하고 LLM 및 대규모 확산 모델에 배포할 수 있는 효율적인 영향력 계산 알고리즘인 DataInf를 제안합니다. DataInf는 라벨이 잘못 지정된 데이터 포인트를 식별하고 모델 생성에 가장 영향력이 적은 학습 데이터 포인트를 검색하는 데 효과적입니다. DataInf는 최첨단 영향력 계산 방법보다 몇 배 빠르며 메모리 효율적이기 때문에 LLM과 같은 대형 모델의 데이터 중심 분석을 가능하게 하는 데 실질적으로 유용할 수 있습니다.
문헌에서는 영향력 점수의 유용성에 대한 정량적 평가 지표가 많지 않습니다.
이는 DataInf를 평가하는 데에도 한계가 있습니다. 우리는 같은 클래스의 데이터 포인트가 다른 클래스의 데이터 포인트보다 더 큰 영향을 미치고, 잘못 라벨링된 포인트가 테스트 손실을 증가시켜야 한다는 등의 프록시를 사용하여 이 문제를 해결하려고 노력했습니다. 생성 AI에 대한 영향력 점수의 유용성에 대한 추가적인 후속 조치는 향후 연구의 중요한 방향입니다.

728x90
반응형
LIST