최근까지의 시계열 Foundation 모델 연구를 살펴보면, 크게 거대 언어 모델(Large Language Model, LLM)을 활용하는 방법론과, 시계열을 위한 자체 거대 모델을 고안하는 방법론으로 분류할 수 있습니다. (그림 1) 거대 언어 모델 기반의 방법론은 어떻게 거대 언어 모델을 활용하는지에 따라 1) Without Adaptation, 2) Adapt LLM, 3) Adapt to LLM 3가지로 분류됩니다. 그리고 자체 언어 모델을 구축하려는 연구에서는 거대 시계열 데이터를 수집하기 위한 노력과, 다양한 시계열 데이터를 학습하기 위한 하나의 통일된 모델을 만들려는 노력이 존재합니다.
[Abstract]
시계열 분석 모델의 주요 과제 -> 학습을 위한 많은 양의 데이터가 부족하다ㅠ
따라서 본 연구에서는 시계열 분석을 위해 수십억 개의 토큰에서 사전 훈련된 언어 또는 CV 모델을 활용하여 이 문제를 해결한다.
🔎 즉, LLM 기반으로 시계열 분석을 하겠다!
✅ Adapt to LLM. 이 방법론은 앞선 두 방법론의 중간 정도라고 생각할 수 있습니다. Without Adaptation은 거대 언어 모델이 시계열 도메인에 대한 지식이 어느정도 있음을 가정하는 반면, Adapt LLM은 거대 언어 모델이 시계열 도메인에 대한 지식이 부족하다는 것을 전제로 하고 있습니다. 이들과 달리 이 방법론은 거대 언어 모델이 ‘텍스트로 변환된 시계열 도메인에 대한 지식’이 있다는 것을 바탕으로 합니다. 다시 말해, 거대 언어모델이 시계열 도메인을 이해할 수 있지만, 텍스트로 변환되었을 경우로 한정한 것입니다.
그렇기 때문에 이 방법론의 연구에서 가장 중요한 질문은 “시계열 데이터를 어떻게 텍스트로 잘 변환할 수 있을까?”입니다. 그림 3은 해당 방법론에서 일반적으로 어떻게 모델이 설계되는지 나타냅니다. Adapt LLM과 상당히 유사하지만 거대 언어모델을 전혀 학습시키지 않는다는 점에서 명확한 차이가 존재합니다. 또한, 그림 5는 직관적으로 어떠한 방식으로 이 방법론이 작동하는지를 보여줍니다. 양쪽의 Fine-tuning된 Adaptation Layer가 시계열과 텍스트를 상호 변화시키고, 중간의 거대 언어모델이 텍스트로 변환된 시계열 데이터를 바탕으로 특정 Task를 수행하게 됩니다. 대표적으로 Time-LLM 연구에서는 시계열을 텍스트로 변환하는 과정을 명확하게 하기 위해 Cross Attention 메커니즘을 활용합니다.[8] 인풋 시계열 데이터를 쿼리로 텍스트의 여러 단어를 키, 밸류로 사용해, 시계열 데이터를 텍스트로 매핑시킵니다.
구체적으로, 사전훈련된 언어/이미지 모델에서 잔여 블록의 Self-attention 및 feedforward 계층을 변경하지 않는다.
FPT(Frozen Pretrained Transformer)로 알려진 이 모델은 시계열과 관련된 모든 주요 작업 유형에 대한 미세 조정을 통해 평가된다.
그림 1과 같이 자연어/이미지에 대해 사전훈련된 모델이 모든 주요 시계열 분석 작업에서 비슷하거나 최고 성능으로 이어진다는 것을 보여준다.
또한 이론적으로나 경험적으로 Self-attention module이 PCA(Principle component analysis)와 유사하게 작동한다는 것을 발견했는데, 이는 transformer가 도메인 갭을 연결하는 방법을 설명하는데 도움이 되는 발견이자 사전훈련된 transformer의 보편성을 이해하기 위한 중요한 단계이다.
[1. Introduction]
일반적인 시계열 분석을 위해 사전학습된 LM을 활용한다. 동일한 백본을 사용하여 다양한 시계열 태스크를 지원.
우리는 훈련된 트랜스포머 모델이 이른바 범용 계산 엔진 Lu et al. (2022) 또는 일반 계산 계산기 Giannou et al. (2023)이 될 수 있도록 하는 것이 자기 주의 모듈이 수행하는 일반적인 기능이라고 믿습니다. 우리는 자기 주의를 PCA로 대체할 때 모델 행동의 유사성에 대한 실증적 조사를 수행하고, 그 상관관계에 대한 이론적 분석을 제공함으로써 우리의 주장을 뒷받침합니다.
✅ 이 논문이 제안하는 주요 contribution!
1. 시계열 분류, 단기/장기 예측, 대치, 이상치 탐지, 퓨샷/제로샷 샘플 예측 등 모든 주요 시계열 분석 태스크에서 SOTA 성능을 제안하였다.
(사전학습된 언어모델을 사용하여)
2. 이론적/경험적으로 self attentiondl PCA와 유사한 기능을 수행한다는 것을 발견했다. 이는 트랜스포머 모델의 보편성을 설명 하는데 도움이 된다.
3. 시계열 예측을 강화하기 위해 다른 백본 모델 (BERT) 또는 모달리티(컴퓨터 비전)에서 사전 훈련된 트랜스포머 모델을 탐색함으로써 접근 방식의 보편성을 입증한다.
<눈문의 구성>
섹션 2. 관련 작업을 간락하게 요약한다.
섹션 3. 제안된 세부 모델 구조를 제시한다.
섹션 4. 다양한 SOTA 모델들과 비교하여 7개의 주요 시계열 분석 작업에서 제안된 방법을 사용하여 교차 양식 시계열 분석의 성능에 대한 철저하고 광범위한 평가를 수행한다.
섹션 5. 다양한 ablation study 를 진행
섹션 6. 다른 구조를 가진 사전 훈련된 모델, 또는 다른 양식에서 사전 훈련된 모델을 사용하여 제안된 방법의 보편성을 보여준다.
섹션 7. self attention과 PCA의 연관성에 대한 이론적 설명을 제공한다.
섹션 8. 결과와 향후 방향
[2. Related Work]
시계열 분석, In-modality 전이 학습 및 교차 양식 지식 전이 학습 분야에 대한 검토를 제공.
최근 몇 년 동안, NLP(Natural Language Processing), CV(Computer Vision), 및 Vision-and-Language(VL)에서 사전 학습된 모델의 효과를 검증한 연구가 대규모로 수행되었습니다. 최신 NLP 연구는 다운스트림 작업을 위한 문맥 단어 임베딩(Contextual Word Embeddings)을 학습하는 데 집중하고 있습니다. 컴퓨팅 파워의 증가로 인해, 매우 깊은 트랜스포머 모델이 다양한 언어 작업에서 강력한 표현 능력을 보여주었습니다. 그 중에서, BERT(Devlin et al., 2019)는 트랜스포머 인코더를 사용하고, 텍스트 내에 무작위로 마스킹된 토큰을 복원하는 목표를 가진 마스킹 언어 모델링 작업을 수행합니다. OpenAI는 대규모 언어 코퍼스에서 트랜스포머 디코더를 훈련한 후 작업 특정 데이터에서 미세 조정하는 GPT(Radford & Narasimhan, 2018)를 제안했습니다. GPT2(Radford et al., 2019)는 더 큰 데이터 세트에서 훈련되고 더 많은 파라미터를 가지며, 다양한 다운스트림 작업에 전이될 수 있습니다. 트랜스포머 모델이 다양한 입력에 적응할 수 있다는 점에서, 사전 학습 아이디어는 시각 작업에도 잘 적용될 수 있습니다. DEiT(Touvron et al., 2021)는 트랜스포머를 위한 교사-학생 전략을 제안하며, 합성 신경망(CNN)을 교사 모델로 사용하여 경쟁력 있는 성능을 달성합니다. BEiT(Bao et al., 2022)는 이미지를 시각 토큰으로 변환하고, CV에서 BERT 모델을 성공적으로 사용했습니다. 그러나 충분한 훈련 샘플이 부족하기 때문에, CV 및 NLP 영역에서 주요 작업을 포괄하는 일반적인 시간열 분석을 위한 사전 학습 모델에 대한 연구는 거의 없습니다.
<cross-modality knowledge transfer>