일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- ETRI
- r
- KT 에이블스쿨
- ggplot2
- arima
- 시각화
- Ai
- 빅분기
- 가나다영
- cnn
- 지도학습
- python
- KT AIVLE
- SQLD
- 에트리 인턴
- 에이블스쿨
- 프로그래머스
- kaggle
- matplot
- 웹크롤링
- 소셜네트워크분석
- 딥러닝
- 기계학습
- httr
- Eda
- 서평
- 빅데이터분석기사
- 머신러닝
- SQL
- 한국전자통신연구원 인턴
- hadoop
- 에이블러
- ML
- 하둡
- dx
- 다변량분석
- 하계인턴
- 한국전자통신연구원
- kt aivle school
- 시계열
- Today
- Total
소품집
Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting 리뷰 본문
Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting 리뷰
sodayeong 2024. 3. 18. 15:26https://github.com/zhouhaoyi/Informer2020
Transformer 모델이 장기 시퀀스 데이터에 대하여 효율적인 학습을 개선하기 위한 연구가 많이 진행되고 있는데,
기존 self-attention 메커니즘은 feature 간의 상관 계수를 직접 계산하여
시퀀스 내의 장기 의존성을 캡쳐할 수 있는 장점이 있으나, 이 외에도 몇 가지 단점이 있음.
1) 시퀀스 길이에 따라 계산 복잡도가 증가 (O(L^2))
2) 1)번 문제로 인한 높은 메모리 사용량
3) 인코더-디코더 모델의 step-by-step inference 속도 문제
또한, 시간 복잡도와 메모리 요구 사항이 높기 때문에 긴 시계열에서는 적용할 수 없어,
최근에는 Attention 모듈 강화나 시간 복잡도 경량화를 위한 연구가 많이 진행되고 있음.
그 중, arxiv에서 발표된 Linformer: Self-Attention with Linear Complexity 논문에서는
self-attention 행렬을 특이값으로 분해하는 Linformer 모델이 제안되었음.
https://arxiv.org/abs/2006.04768
aaai에서 발표된 Informer: Beyond effcient transformer for long sequence time-series forecasting 논문에서는
기존 Transformer 모델이 장기 시퀀스 데이터에서서 효과적으로 학습할 수 있도록 고안된 Informer 모델을 제안하였음.
1. attention mechnism를 효율적으로 계산하기 위해 ProbSpares self-attention을 제안하여 연산 효율성 향상
- 이 메커니즘은 유의미한 dot-product pair를 구분해내기 위해 query와 key 간의 유사도를 그 지표로서 활용하고, key sampling과 max operator를 적용하여 시퀀스의 길이를 1/2로 경량화해 연산 효율성을 높혔음.
- Multi-head 관점에서 보면, 각 head 별로 각기 다른 query-key 쌍을 생성하기 때문에 랜덤 샘플링으로 인한 정보 손실을 방지할 수 있음.
2. Self-attention distilling 기법으로 중요한 Feature representation 생성 및 stacking layer로 공간 복잡도 해소소.
- 전체 self-attention을 사용하지 않고 1D conv와 Max-pooling을 사용하여 시퀀스 길이를 1/2로 줄여 연산 효율을 높임.
3. Generative style decoder 을 통해 하나의 forward step으로 long time-series 시퀀스를 예측 가능하도록 하여 Informer 속도 개선
- 이를 통해 step-by-step inference 과정에서 발생할 수 있는 cumulative error를 방지하고자 함.
* ProbSpares self-attention 이란, sparsity 측정 지표를 바탕으로 유의미한 query들(Top-u)만을 사용하여 복잡도가 Long/L 배 감소시켜 attention을 계산하는 방법론
* cumulative error 이란, 이전 시점의 잘못된 output이 미래 시점에도 계속해서 누적되어 영향을 미치게 되는 것
제안한 Informer 모델은 다양한 대규모 데이터 셋에서 좋은 성능을 확인할 수 있었음.
ref.
https://ojs.aaai.org/index.php/AAAI/article/view/17325
http://dsba.korea.ac.kr/seminar/?mod=document&uid=1823
'Time series' 카테고리의 다른 글
시계열 분해 알고리즘 - LOESS (MSTL) (0) | 2023.12.15 |
---|---|
ARIMA models (0) | 2020.06.22 |
ARMA model - 자기회귀이동평균 (0) | 2020.06.22 |
ARMA model (0) | 2020.06.20 |
이동평균모형 (Moving average models : MA) 식별법 (0) | 2020.06.12 |