先進的傳感和數據流處理技術的出現導致了時間序列數據的爆炸式增長,這是最普遍的數據類型之一,能夠捕捉和記錄各種領域的活動[1]、[2]、[3]。時間序列數據的分析不僅提供了對過去趨勢的洞察,還有助于進行各種任務,如預測[4],分類[5],異常檢測[6],和數據插補[7]。這為依賴歷史數據來理解當前和未來可能性的時間序列建模范式奠定了基礎。在各種領域,包括但不限于云,時間序列分析變得越來越重要。

許多時間序列涉及到時間和變量之間的復雜相互作用(如效應傳播的滯后)以及變量之間的關系(如表示相鄰交通傳感器的變量之間的關系)。通過將時間點或變量視為節點,它們之間的關系視為邊,以網絡或圖的結構建模,可以有效地學習這些關系的復雜性。實際上,許多時間序列數據在本質上具有時空特性,序列中的不同變量捕捉了有關不同位置(空間)的信息,這意味著它不僅包含時間信息,還包括空間關系[12]。這在城市交通網絡、人口遷移和全球天氣預報等場景中特別明顯。在這些情況下,例如在一個交叉路口發生交通事故、郊區爆發流行病或特定區域出現極端天氣,局部的變化可以傳播并影響相鄰區域。這可能表現為相鄰道路上交通量的增加、疾病傳播到鄰近的郊區、或者附近地區的氣候條件發生變化。這種時空特性是許多動態系統的共同特點,包括圖1中的風電場的另一個例子,其中底層的時間序列數據顯示出一系列的相關性和異質性[13]。這些因素導致了復雜而復雜的模式的形成,給有效建模帶來了重大挑戰。傳統的分析工具,如支持向量回歸(SVR)[14]、[15]、梯度提升決策樹(GBDT)[16]、[17]、向量自回歸(VAR)[18]、[19]和自回歸積分滑動平均(ARIMA)[20]、[21],往往難以處理復雜的時間序列關系(例如非線性和序列間的關系),導致預測結果不夠準確[22]。過去十年深度學習技術的出現,導致了基于卷積神經網絡(CNN)[23]、[24]、循環神經網絡(RNN)[25]、[26]和Transformer [27] 的不同神經網絡的發展,這些方法在建模真實世界的時間序列數據方面顯示出顯著的優勢。然而,以上方法最大的局限性之一是它們沒有明確地在非歐幾里得空間中建模時間序列之間存在的空間關系[13],這限制了它們的表達能力[28]。

近年來,圖神經網絡(GNNs)已經成為學習非歐幾里得數據表示的強大工具[29]、[30]、[31],為建模真實世界的時間序列數據鋪平了道路。這使得能夠捕捉到多樣而復雜的關系,既包括變量間的關系(多變量序列中不同變量之間的連接),也包括時間間的依賴關系(不同時刻之間的依賴關系)。考慮到現實場景中復雜的時空依賴性,一系列的研究將GNN與各種時間建模框架結合起來,以捕捉空間和時間動態,并展示了有希望的結果[13]、[32]、[33]、[34]、[35]。這種建模方法在許多實際應用領域廣泛采用,涉及不同類型的時間序列數據,包括交通[36]、按需服務[37]、[38]、能源[39]、醫療保健[40]、[41]、經濟[42]以及其他領域[43]、[44]、[45]。雖然早期的研究工作主要集中在各種預測場景上[13]、[33]、[34],但利用GNN進行時間序列分析的最新進展已經在其他主流任務中展示出有希望的結果。這些任務包括分類[46]、[47]、異常檢測[48]、[49]和數據插補[50]、[51]。在圖1中,我們提供了圖神經網絡用于時間序列分析(GNN4TS)的概述。

為了填補這一空白,本綜述提供了對圖神經網絡在時間序列分析中的全面和最新的綜述,涵蓋了時間序列預測、分類、異常檢測和插補等主流任務。具體而言,我們首先從任務和方法論的角度提供了兩個廣泛的視角,對現有的工作進行分類和討論。然后,我們深入探討了GNN4TS領域內的六個熱門應用領域,并提出了幾個潛在的未來研究方向。我們的綜述旨在為對圖神經網絡在時間序列分析中的最新進展感興趣的機器學習從業者提供全面的內容。它也適用于領域專家,他們希望將GNN4TS應用于新的應用或在最近的進展基礎上探索新的可能性。我們綜述的主要貢獻總結如下:

本綜述的其余部分組織如下:第2節介紹了本文中使用的重要符號和相關定義。第3節從不同的角度提出了GNN4TS的分類法,以及一個總體流程。第4節、第5節、第6節和第7節回顧了GNN4TS文獻中的四個主要分析任務。第8節調查了GNN4TS在各個領域中的熱門應用,而第9節則討論了開放問題和潛在的未來方向。最后,第10節總結了本次綜述。

2. 分類法

在本節中,我們提出了一個基于任務的綜合分類法,用于描述圖神經網絡在時間序列分析中的應用。隨后,我們通過引入統一的方法論框架,闡明了在各種任務中對時間序列數據進行編碼的基本原則,并介紹了GNN體系結構的統一方法。根據這個框架,所有的體系結構都由一個類似的基于圖的處理模塊fθ和一個針對下游任務專門設計的第二個模塊p?組成。在這里,我們還提供了一個使用GNN分析時間序列數據的一般流程。這些視角的結合提供了對GNN4TS的全面概述。

2.1 基于任務的分類法

在圖3中,我們展示了一個基于任務的分類法,涵蓋了時間序列分析中的主要任務和主流建模視角,并展示了GNN4TS的潛力。總結起來,我們的綜述強調了四個類別:時間序列預測、異常檢測、插補和分類。這些任務是基于空間-時間圖神經網絡(STGNNs)學習到的時間序列表示進行的,STGNNs在現有文獻中被用作對時間序列數據進行編碼的基礎,在各種任務中發揮作用。我們將在第3.2節詳細介紹這一點。

在圖5中,我們展示了一個統一的方法論框架,用于進行時間序列分析中提到的STGNNs(第3.1節)。具體而言,我們的框架作為現有文獻中對時間序列數據進行編碼的基礎,用于各種下游任務(圖3)。作為擴展,STGNNs通過考慮圖中節點之間的關系和節點屬性隨時間演變的情況來融入空間信息和時間信息。與[13]類似,我們從三個角度系統地對STGNNs進行分類:空間模塊、時間模塊和整體模型架構。

3. 圖神經網絡在時間序列預測中

時間序列預測旨在基于歷史觀測來預測未來的時間序列值。時間序列預測的起源可以追溯到統計自回歸模型[105],該模型通過對過去數值的線性組合來預測時間序列的未來值。近年來,基于深度學習的方法通過更有效地捕捉非線性的時間和空間模式,在時間序列預測方面取得了顯著的成功[22]。這些方法包括循環神經網絡(RNNs)、卷積神經網絡(CNNs)和基于注意力的神經網絡等。然而,許多這些方法,如LSTNet [106]和TPA-LSTM [107],忽視并隱式地建模了時間序列之間豐富的動態空間相關性。最近,基于圖神經網絡(GNN)的方法在顯式和有效地建模多變量時間序列數據的空間和時間依賴關系方面顯示出了巨大的潛力,從而提高了預測性能。基于GNN的預測模型可以從多個角度進行分類和研究。在預測任務方面,盡管許多模型專注于多步預測(即基于歷史觀測來預測連續多步的未來值),少數模型也討論了單步預測(即預測下一步或任意一步的未來值)。從方法論的角度來看,這些模型可以從以下三個方面進行分析:(1)建模空間(即變量間)依賴關系,(2)建模時間間的依賴關系,以及(3)將空間和時間模塊進行架構融合以進行時間序列預測。代表性工作的總結見表2。

4. 圖神經網絡在時間序列異常檢測中

時間序列異常檢測旨在識別與數據生成過程的正常模式不符合的數據觀測[141]。我們將異常定義為任何這樣的數據點,而將符合正常模式的數據稱為正常數據;然而需要注意的是,在文獻中,不同的術語(如新穎性和離群值)幾乎可以互換地用于描述異常[142]。這些與正常條件的偏離可以以單個觀測(數據點)或一系列觀測(子序列)的形式出現[143]。然而,與正常的時間序列數據不同,異常很難進行特征化,主要有兩個原因。首先,它們通常與罕見事件相關聯,因此收集和標記異常數據通常是一項艱巨的任務。其次,確定潛在異常事件的全部范圍通常是不可能的,這破壞了監督學習技術的有效性。因此,非監督的檢測技術已經廣泛研究作為應對具有挑戰性的實際問題的實用解決方案。傳統上,方法[144],如基于距離的方法[145],[146],[147]和分布技術[148]被廣泛用于檢測時間序列數據中的不規則性。前者使用距離度量來量化觀測值與代表性數據點之間的差異,而后者則查看低概率點以識別異常值。隨著數據生成過程的復雜化和多變量時間序列的維度增長,這些方法的效果變得不那么有效[149]。隨著深度學習的進步,早期的研究提出了基于重構[150]和預測[151]策略的循環模型,以改進多變量時間序列數據中的異常檢測。預測和重構策略依賴于預測和重構誤差作為預期信號與實際信號之間的差異度量。這些策略依賴于一個事實,即如果在正常數據上訓練的模型無法對某些數據進行預測或重構,則很可能該數據與異常有關。然而,循環模型[152]在對變量對之間的顯式建模上存在不足,限制了其在檢測復雜異常[48],[153]方面的有效性。最近,圖神經網絡通過有效地捕捉變量對之間的時間和空間依賴關系,顯示出解決這一問題的潛力[49],[70],[154]。

5. 圖神經網絡在時間序列分類中

時間序列分類任務旨在根據時間序列的潛在模式或特征為給定的時間序列分配一個分類標簽。如最近的一項綜述所概述的[177],時間序列分類的早期文獻主要集中在基于距離的方法上,用于為時間序列分配類別標簽[178],[179],[180],以及像Hierarchical Vote Collective of Transformation-based Ensembles (HIVE-COTE) [181],[182]等集成方法。然而,盡管這些方法在性能上處于領先地位,但對于高維或大型數據集,它們的可擴展性仍然有限[183],[184]。為了解決這些限制,研究人員開始探索深度學習技術在提高時間序列分類方法的性能和可擴展性方面的潛力。深度學習具有學習復雜模式和特征層次結構的能力,已經顯示出在時間序列分類問題上的應用潛力,尤其是對于具有大量訓練標簽的數據集[185],[186]。有關基于深度學習的時間序列分類的綜述,請參閱Foumani等人的最新綜述[177]。在這個領域中,一項特別有趣的發展沒有在上述綜述[177]中涉及,那就是將圖神經網絡應用于時間序列分類任務。通過將時間序列數據轉化為圖表示,可以利用圖神經網絡的強大能力來捕捉局部和全局的模式。此外,圖神經網絡能夠映射特定數據集中不同時間序列數據樣本之間的復雜關系。在接下來的幾節中,我們將對單變量和多變量時間序列分類問題提供新穎的圖神經網絡視角。

6. 圖神經網絡在時間序列填補中

時間序列填補是許多實際應用中的關鍵任務,涉及估計一個或多個數據點序列中缺失或損壞的值。傳統的時間序列填補方法依賴于統計學方法,如均值填補、樣條插值[200]和回歸模型[201]。然而,這些方法往往難以捕捉數據中的復雜時間依賴關系和非線性關系。雖然一些基于深度神經網絡的工作,如[202],[203],[204],已經緩解了這些限制,但它們沒有明確考慮時間序列間的依賴關系。圖神經網絡的最近出現為時間序列填補帶來了新的可能性。基于圖神經網絡的方法更好地表征時間序列數據中復雜的空間和時間依賴關系,使其特別適用于由于數據的日益復雜而產生的實際場景。從任務的角度來看,基于圖神經網絡的時間序列填補可以大致分為兩種類型:樣本內填補和樣本外填補。前者涉及填充給定時間序列數據中的缺失值,而后者預測不連續序列中的缺失值[50]。從方法論的角度來看,圖神經網絡在時間序列填補中可以進一步分為確定性填補和概率性填補。確定性填補為缺失值提供單一的最佳估計,而概率性填補則考慮了填補過程中的不確定性,并提供了可能值的分布。在表5中,我們總結了迄今為止關于圖神經網絡在時間序列填補方面的大部分相關工作,提供了該領域及其當前發展狀況的綜合概述。

總結

本綜述通過詳細回顧最新進展并提供一個統一的分類法,從任務和方法的角度對現有工作進行分類,彌合了圖神經網絡在時間序列分析(GNN4TS)領域的知識差距。作為第一部綜合性的綜述,它涵蓋了廣泛的任務,包括預測、分類、異常檢測和填補,提供了對GNN4TS領域的最新技術水平的詳細了解。我們還深入探討了空間和時間依賴關系建模以及整體模型架構的復雜性,提供了對各個研究的細致分類。我們強調了GNN4TS在各個領域中不斷擴大的應用范圍,展示了它的多功能性和未來發展的潛力。本綜述對于對這一領域的最新進展感興趣的機器學習從業者和領域專家來說是一份寶貴的資源。最后,我們提出了潛在的未來研究方向,為GNN4TS領域的未來工作提供了啟示和指導。

文章轉自微信公眾號@算法進階

上一篇:

時間序列自監督學習綜述

下一篇:

無監督聚類算法,全匯總!
#你可能也喜歡這些API文章!

我們有何不同?

API服務商零注冊

多API并行試用

數據驅動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內容創意新穎性、情感共鳴力、商業轉化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費