Timeseries similiarity algorithm List

<개념>/시계열|2022. 5. 25. 16:40
반응형

 

DTW(Dynamic time warping) :

  • 속도가 다른 2개 시계열 패턴이 들어올때 유사성을 측정하는 알고리즘
  • 0에 가까울수록 그래프가 유사하다고 볼수있음 (0이면 동일한 그래프)
  • 주로 음성인식에 사용됨(두개 목소리를 비교해서 동일인지 확인)
  • 장점 : 두개 매트릭의 길이가 달라도 비교가 가능

 

ED(Euclidean distance) :

  • 유클리드 거리는 정의에 따라 두 시계열 샘플의 해당 관측치 간에 일대일 매핑을 시행하는 두 벡터 간의 유사도 측정에 널리 사용됨
  • 단점 : 두개 간에 길이가 다를경우 오차가 엄청크게 나올수 있음.
  • 이방법을 사용하기위해서는 두개 매트릭을 1) 정규화해주고 2)길이도 맞추어주어야한다.

 

LCSS(Longest common subsequence) 2016

  • 유사성 임계값을 정의하고 결정해서 시계열 유사성을 측정하도록 개발
  • 장점 : 길이차이가 많이나는 시계열에 대해서도 우수한 결과를 보여줌
  • 단점 : 임계값에 따라 결과가 천차만별이 될수있다.

 

DLCSS(Developed Longest Common Subsequence) (2020년)

  • LCSS가 오래된 방법이다보니 더 업데이트한 버전,LCSS, DTW보다 우수하다고 주장
  • 1-Nearest Neighbor 및 k-medoids 클러스터링 기술을 사용

 

TLCC(Time Lagged Cross correlation) & windowed TLCC (2015)

  • 하나의 time series 를 조금씩 shifting 시키면서 데이터 전체 범위에 대해서 pearson 상관계수를 계산하여 나타낸다. pearson,kendal 과는 다르게 두 데이터 사이에서의 인과관계를 파악할수 있다고함.
  • 단점으로는 신호가 동시에 발생함, 데이터가 유사함이라는 기본전제를 깔고간다.
  • 시간에 따라 상세하게 분석을 원한다면 windowed TLCC 를 사용하면 된다고함 ( 데이터를 여러개의 window 로 나눠서 TLCC 분석을 각 window 마다 행함
  •  
반응형

댓글()