소품집

Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting 리뷰 본문

Time series

Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting 리뷰

sodayeong 2024. 3. 18. 15:26

https://github.com/zhouhaoyi/Informer2020

 

GitHub - zhouhaoyi/Informer2020: The GitHub repository for the paper "Informer" accepted by AAAI 2021.

The GitHub repository for the paper "Informer" accepted by AAAI 2021. - zhouhaoyi/Informer2020

github.com

 

Transformer 모델이 장기 시퀀스 데이터에 대하여 효율적인 학습을 개선하기 위한 연구가 많이 진행되고 있는데, 

기존 self-attention 메커니즘은 feature 간의 상관 계수를 직접 계산하여
시퀀스 내의 장기 의존성을 캡쳐할 수 있는 장점이 있으나, 이 외에도 몇 가지 단점이 있음.

 

1) 시퀀스 길이에 따라 계산 복잡도가 증가 (O(L^2))

2) 1)번 문제로 인한 높은 메모리 사용량 

3) 인코더-디코더 모델의 step-by-step inference 속도 문제

 

또한, 시간 복잡도와 메모리 요구 사항이 높기 때문에 긴 시계열에서는 적용할 수 없어, 

최근에는 Attention 모듈 강화나 시간 복잡도 경량화를 위한 연구가 많이 진행되고 있음. 

 

그 중, arxiv에서 발표된 Linformer: Self-Attention with Linear Complexity 논문에서는 

self-attention 행렬을 특이값으로 분해하는 Linformer 모델이 제안되었음. 

https://arxiv.org/abs/2006.04768

 

Linformer: Self-Attention with Linear Complexity

Large transformer models have shown extraordinary success in achieving state-of-the-art results in many natural language processing applications. However, training and deploying these models can be prohibitively costly for long sequences, as the standard s

arxiv.org

 

aaai에서 발표된 Informer: Beyond effcient transformer for long sequence time-series forecasting 논문에서는 

기존 Transformer 모델이 장기 시퀀스 데이터에서서 효과적으로 학습할 수 있도록 고안된 Informer 모델을 제안하였음. 

 

Figure : Informer model overview

 

 

1. attention mechnism를 효율적으로 계산하기 위해 ProbSpares self-attention을 제안하여 연산 효율성 향상

- 이 메커니즘은 유의미한 dot-product pair를 구분해내기 위해 query와 key 간의 유사도를 그 지표로서 활용하고, key sampling과 max operator를 적용하여 시퀀스의 길이를 1/2로 경량화해 연산 효율성을 높혔음. 

- Multi-head 관점에서 보면, 각 head 별로 각기 다른 query-key 쌍을 생성하기 때문에 랜덤 샘플링으로 인한 정보 손실을 방지할 수 있음. 

 

2. Self-attention distilling 기법으로 중요한 Feature representation 생성 및 stacking layer로 공간 복잡도 해소소.

- 전체 self-attention을 사용하지 않고 1D conv와 Max-pooling을 사용하여 시퀀스 길이를 1/2로 줄여 연산 효율을 높임. 

 

3. Generative style decoder 을 통해 하나의 forward step으로 long time-series 시퀀스를 예측 가능하도록 하여 Informer 속도 개선

- 이를 통해 step-by-step inference 과정에서 발생할 수 있는 cumulative error를 방지하고자 함. 

 

 

* ProbSpares self-attention 이란, sparsity 측정 지표를 바탕으로 유의미한 query들(Top-u)만을 사용하여 복잡도가 Long/L 배 감소시켜 attention을 계산하는 방법론 

* cumulative error 이란, 이전 시점의 잘못된 output이 미래 시점에도 계속해서 누적되어 영향을 미치게 되는 것

 

 

 

 

제안한 Informer 모델은 다양한 대규모 데이터 셋에서 좋은 성능을 확인할 수 있었음. 

 

ref.

https://ojs.aaai.org/index.php/AAAI/article/view/17325

 

Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting | Proceedings of the AAAI Conference on

 

ojs.aaai.org

http://dsba.korea.ac.kr/seminar/?mod=document&uid=1823

 

[Paper Review] Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

1. Topic 이 논문은 올해 발표된 논문으로, AAAI 학회에서 Outstanding paper award를 수상한 논문입니다. 이 논문에서는 Transformer를 기반으로 long sequence의 시계열 예측을 수행하는 모델을 제안하는데, 특

dsba.korea.ac.kr

 

728x90

'Time series' 카테고리의 다른 글

시계열 분해 알고리즘 - LOESS (MSTL)  (0) 2023.12.15
ARIMA models  (0) 2020.06.22
ARMA model - 자기회귀이동평균  (0) 2020.06.22
ARMA model  (0) 2020.06.20
이동평균모형 (Moving average models : MA) 식별법  (0) 2020.06.12
Comments