圖1 代表性大型語(yǔ)言模型(左)和其他基礎(chǔ)模型(右)的路線圖

2.2 預(yù)訓(xùn)練基礎(chǔ)模型

預(yù)訓(xùn)練基礎(chǔ)模型(PFM)是大規(guī)模預(yù)訓(xùn)練模型,能夠適應(yīng)解決各種下游任務(wù)。PFM的特征是具有涌現(xiàn)能力和同質(zhì)化,以及在構(gòu)建AI系統(tǒng)時(shí)整合方法。PFM的能力有三個(gè)關(guān)鍵維度:模態(tài)橋接、推理和規(guī)劃以及交互。

模態(tài)橋接包括多模態(tài)模型,如視覺(jué)語(yǔ)言模型等MLLM,彌合圖像和文本之間的差距。推理和規(guī)劃能力包括LLM中的CoT、ToT和GoT,以及任務(wù)規(guī)劃代理。交互能力包括行動(dòng)和通信。時(shí)間序列和時(shí)空數(shù)據(jù)的PFM仍處于早期發(fā)展階段,遠(yuǎn)未達(dá)到上述第二和第三個(gè)關(guān)鍵維度。

2.3 時(shí)間序列和時(shí)空數(shù)據(jù)

時(shí)序數(shù)據(jù)是現(xiàn)實(shí)世界應(yīng)用的基礎(chǔ)數(shù)據(jù),包括時(shí)間序列和時(shí)空數(shù)據(jù)。時(shí)間序列是按時(shí)間順序排列的數(shù)據(jù)點(diǎn)序列,可以是單變量或多變量。在以下內(nèi)容中,我們使用特定字母表示法:粗體大寫(xiě)字母表示矩陣,粗體小寫(xiě)字母表示向量,書(shū)法大寫(xiě)字母表示集合,標(biāo)準(zhǔn)小寫(xiě)字母表示標(biāo)量。

時(shí)間序列數(shù)據(jù)。單變量時(shí)間序列x = {x1, x2, · · · , xT } ∈ R T是按時(shí)間順序索引的T個(gè)數(shù)據(jù)點(diǎn)的序列,其中xt ∈ R是時(shí)間序列在時(shí)間t的值。多變量時(shí)間序列X = {x1, x2, · · · , xT } ∈ R T ×D是按時(shí)間順序索引的T個(gè)數(shù)據(jù)點(diǎn)的序列,但具有D個(gè)維度,其中xt ∈ R D(1 ≤ t ≤ T)表示時(shí)間序列在時(shí)間t沿D個(gè)通道的值。時(shí)空數(shù)據(jù)包含時(shí)空?qǐng)D、時(shí)序知識(shí)圖譜、視頻、點(diǎn)云流和軌跡等多種結(jié)構(gòu),由時(shí)間和空間維度組織的數(shù)據(jù)點(diǎn)序列組成。本綜述主要關(guān)注前三類(lèi)。

時(shí)空?qǐng)D。時(shí)空?qǐng)DG = {G1, G2, · · · , GT }是以時(shí)間順序索引的T個(gè)靜態(tài)圖快照的序列,其中Gt = (Vt, Et)表示時(shí)間t的快照;Vt和Et是時(shí)間t的節(jié)點(diǎn)和邊集。相應(yīng)的鄰接矩陣和節(jié)點(diǎn)特征矩陣被定義為At ∈ R N×N和Xt ∈ R N×D,其中At = {a t ij},如果節(jié)點(diǎn)i和j之間存在邊,則a t ij = 0,s.t. e t ij ∈ Et。這里,N = |Vt|是節(jié)點(diǎn)數(shù),D是節(jié)點(diǎn)特征的維數(shù)。

時(shí)序知識(shí)圖譜。時(shí)序知識(shí)圖譜G = {G1, G2, · · · , GT }是按時(shí)間順序索引的T個(gè)靜態(tài)知識(shí)圖快照的序列,其中Gt = (Et, Rt)是由時(shí)間t處的實(shí)體和關(guān)系集組成的快照。具體來(lái)說(shuō),Et封裝了主體和客體實(shí)體,而Rt表示它們之間的關(guān)系集。在時(shí)序知識(shí)圖譜中,實(shí)體和關(guān)系可能具有不同的特征,由Xe t ∈ R|Et|×De和Xr t ∈ R |Rt|×Dr表示,其中De和Dr是特征維度。

視頻數(shù)據(jù)。視頻數(shù)據(jù)也可以被解釋為一種時(shí)空數(shù)據(jù),通常被定義為按時(shí)間順序索引的圖像序列。設(shè)V = {F1, F2, …, FT }是一個(gè)按時(shí)間順序索引的T幀組成的視頻,其中Ft表示第t幀。為簡(jiǎn)單起見(jiàn),我們假設(shè)每個(gè)幀F(xiàn)t都是一個(gè)像素矩陣,即Ft ∈ R H×W×C,不考慮其他元數(shù)據(jù),其中H、W和C分別是幀的高度、寬度和顏色通道。與每個(gè)數(shù)據(jù)類(lèi)別相關(guān)的代表性任務(wù),如圖2所示。可以總結(jié)為:時(shí)間序列任務(wù)包括預(yù)測(cè)、分類(lèi)、異常檢測(cè)和插補(bǔ)。時(shí)空?qǐng)D任務(wù)包括預(yù)測(cè)、鏈接預(yù)測(cè)和節(jié)點(diǎn)/圖分類(lèi)。時(shí)序知識(shí)圖譜任務(wù)包括完成和預(yù)測(cè)。視頻任務(wù)包括檢測(cè)、字幕、預(yù)測(cè)和查詢。

圖2 大模型(即語(yǔ)言和其他相關(guān)的基礎(chǔ)模型)可以被訓(xùn)練或巧妙地重新用于處理時(shí)間序列和時(shí)空數(shù)據(jù),以用于一系列通用任務(wù)和專(zhuān)用領(lǐng)域應(yīng)用。

3 時(shí)間序列數(shù)據(jù)的大模型

時(shí)間序列數(shù)據(jù)的大模型包括用于時(shí)間序列數(shù)據(jù)的LLM(LLM4TS)和用于時(shí)間序列數(shù)據(jù)的PFM(PFM4TS)。前者是指利用LLM解決時(shí)間序列任務(wù),無(wú)論LLM在適應(yīng)過(guò)程中是微調(diào)還是凍結(jié)。另一方面,后者側(cè)重于開(kāi)發(fā)明確針對(duì)各種時(shí)間序列任務(wù)的PFM。其中,PFM4TS領(lǐng)域較新,可能未完全發(fā)掘通用PFM的潛力,但為未來(lái)發(fā)展提供見(jiàn)解。每個(gè)細(xì)分領(lǐng)域再分為通用模型和特定領(lǐng)域模型,如圖3所示。


圖3 從方法論(即LLM與PFM)、動(dòng)機(jī)(如一般目的與特定領(lǐng)域目的)和應(yīng)用的角度對(duì)時(shí)間序列和時(shí)空數(shù)據(jù)的大型模型進(jìn)行綜合分類(lèi)。

3.1 時(shí)間序列中的大語(yǔ)言模型(LLM4TS)

時(shí)間序列分析在零售銷(xiāo)售預(yù)測(cè)、經(jīng)濟(jì)時(shí)間序列缺失數(shù)據(jù)的插補(bǔ)、工業(yè)維護(hù)的異常檢測(cè)以及來(lái)自不同領(lǐng)域的時(shí)間序列的分類(lèi)等應(yīng)用中至關(guān)重要。隨著NLP領(lǐng)域中LLM的快速增長(zhǎng),我們探索了利用這些模型進(jìn)行時(shí)間序列分析的可能性,分別從通用和特定領(lǐng)域模型的角度討論了LLM4TS。

通用模型基于提示的時(shí)間序列預(yù)測(cè)-PromptCast是一項(xiàng)新任務(wù),旨在基于提示進(jìn)行時(shí)間序列預(yù)測(cè),為時(shí)間序列預(yù)測(cè)提供了一種“無(wú)代碼”解決方案。LLMTime表明LLM是有效的零樣本時(shí)間序列學(xué)習(xí)者。為了應(yīng)對(duì)缺乏大規(guī)模數(shù)據(jù)訓(xùn)練的挑戰(zhàn),提出了一種基于部分凍結(jié)LLM的統(tǒng)一框架。類(lèi)似的工作是TEMPO,它僅專(zhuān)注于時(shí)間序列預(yù)測(cè),但結(jié)合了其他細(xì)粒度設(shè)計(jì),如時(shí)間序列分解和軟提示。等等,最近,Time-LLM被提出用源數(shù)據(jù)模式和基于自然語(yǔ)言的提示來(lái)重新編程時(shí)間序列,以釋放LLM作為有效時(shí)間序列機(jī)器的潛力。

特定領(lǐng)域模型運(yùn)輸。時(shí)間序列預(yù)測(cè)在智能交通系統(tǒng)(ITS)中起著關(guān)鍵作用。AuxMobLCast流程利用LLM進(jìn)行交通數(shù)據(jù)挖掘,將人類(lèi)移動(dòng)數(shù)據(jù)轉(zhuǎn)換為自然語(yǔ)言句子,以便微調(diào)現(xiàn)有的LLM進(jìn)行預(yù)測(cè)。

金融。最近金融領(lǐng)域有幾篇法學(xué)碩士論文報(bào)道了簡(jiǎn)單有效的指令調(diào)整方法,用于情感分析,并將分類(lèi)情感分析數(shù)據(jù)集轉(zhuǎn)化為生成任務(wù),使LLM更有效應(yīng)用其訓(xùn)練和推理能力。實(shí)驗(yàn)還使用了GPT-4進(jìn)行零樣本/少熱點(diǎn)推理,Llama進(jìn)行微調(diào),生成可解釋的預(yù)測(cè),實(shí)現(xiàn)了合理性能。還有使用類(lèi)似方法基于文本數(shù)據(jù)預(yù)測(cè)股票價(jià)格走勢(shì)的文獻(xiàn)。

事件預(yù)測(cè)。事件預(yù)測(cè)是對(duì)具有不規(guī)則時(shí)間戳的異步時(shí)間序列數(shù)據(jù)進(jìn)行建模的標(biāo)準(zhǔn)方法,例如金融、在線購(gòu)物和社交網(wǎng)絡(luò)等領(lǐng)域。時(shí)間點(diǎn)過(guò)程(TPPs)已成為對(duì)這些數(shù)據(jù)進(jìn)行建模的標(biāo)準(zhǔn)方法。事件預(yù)測(cè)旨在根據(jù)過(guò)去預(yù)測(cè)未來(lái)事件的時(shí)間和類(lèi)型。LLM在這種設(shè)置中可能很有用,因?yàn)樗鼈兩瞄L(zhǎng)處理豐富的文本信息。

醫(yī)療保健。醫(yī)療領(lǐng)域需要預(yù)測(cè)患者就診和癥狀時(shí)間序列的臨床模型,但現(xiàn)有模型因數(shù)據(jù)處理和開(kāi)發(fā)復(fù)雜性而受限。GatorTron和NYUTron是臨床LLM,改進(jìn)了五個(gè)臨床NLP任務(wù),展示了在醫(yī)學(xué)中使用臨床LLM的潛力。LLM可通過(guò)少量即時(shí)調(diào)諧將數(shù)字時(shí)間序列數(shù)據(jù)接地,改進(jìn)零樣本推斷和健康任務(wù)的監(jiān)督基線。心電圖是常用的醫(yī)療監(jiān)測(cè)工具之一,可利用自動(dòng)生成的臨床報(bào)告來(lái)指導(dǎo)自監(jiān)督預(yù)訓(xùn)練框架。

3.2 時(shí)間序列中的預(yù)訓(xùn)練基礎(chǔ)模型(PFM4TS)

除了利用LLM進(jìn)行時(shí)間序列分析外,時(shí)間序列預(yù)訓(xùn)練和相關(guān)基礎(chǔ)模型的開(kāi)發(fā)具有潛力,有助于識(shí)別跨領(lǐng)域和任務(wù)的一般時(shí)間序列模式。通用模型自2021年以來(lái),提出了大量預(yù)訓(xùn)練的基礎(chǔ)模型,其中大多數(shù)是通用的。Voice2Series是第一個(gè)能夠重新編程用于時(shí)間序列任務(wù)的框架。基于對(duì)比學(xué)習(xí)技術(shù)出現(xiàn)了幾個(gè)基于時(shí)間序列數(shù)據(jù)的預(yù)訓(xùn)練基礎(chǔ)模型,包括TF-C、TS2Vec和CLUDA。CLUDA是一種基于對(duì)比學(xué)習(xí)的無(wú)監(jiān)督時(shí)序域自適應(yīng)模型,具有自定義對(duì)比學(xué)習(xí)和最近鄰對(duì)比學(xué)習(xí)組件。此外,該領(lǐng)域還使用了許多其他技術(shù),如STEP模型、MTSMAE、SimMTM和PatchTST。TSMixer是一種輕量級(jí)的MLP-Mixer模型,用于多元時(shí)間序列預(yù)測(cè)。特定領(lǐng)域模型PromptTPP是一種預(yù)訓(xùn)練事件序列基礎(chǔ)模型,采用連續(xù)學(xué)習(xí)(CL)解決災(zāi)難性遺忘問(wèn)題。它將基礎(chǔ)模型與連續(xù)時(shí)間檢索提示池集成,提示為小型可學(xué)習(xí)參數(shù),與基礎(chǔ)模型聯(lián)合優(yōu)化,確保按順序?qū)W習(xí)事件流,無(wú)需緩沖或特定于任務(wù)的屬性。

4 時(shí)空數(shù)據(jù)的大型模型

本節(jié)將研究跨三個(gè)主要數(shù)據(jù)類(lèi)別(時(shí)空?qǐng)D、時(shí)間知識(shí)圖和視頻)的時(shí)空數(shù)據(jù)分析中大模型的進(jìn)展,每個(gè)類(lèi)別都具有廣泛的現(xiàn)實(shí)世界應(yīng)用。

4.1 時(shí)空?qǐng)D(STG)

STG是一種概念,表示個(gè)體進(jìn)入一個(gè)星球,其元素在空間和時(shí)間上進(jìn)行交互,形成深刻的時(shí)空組合。STG應(yīng)用廣泛,包括交通、空氣質(zhì)量、股票價(jià)格和人體骨骼分析等。STGNN是STG預(yù)測(cè)最流行的方法,利用GNN捕捉空間相關(guān)性,其他模型學(xué)習(xí)時(shí)間依賴性。LLM和PFM為STGNN提供文本數(shù)據(jù)支持,增強(qiáng)時(shí)空情境豐富性,融合多種形式數(shù)據(jù),擴(kuò)大時(shí)空理解深度和廣度。這些模型可生成人類(lèi)可解釋解釋?zhuān)岣咄该鞫群涂煽啃裕?jiǎn)化訓(xùn)練和推理過(guò)程,提高計(jì)算效率。

時(shí)空?qǐng)D的大語(yǔ)言模型相較于PFM,使用LLM增強(qiáng)STGNN學(xué)習(xí)能力的文獻(xiàn)較少。一種方式是利用LLM學(xué)習(xí)節(jié)點(diǎn)之間的關(guān)系,如早期研究提出框架,通過(guò)ChatGPT提取網(wǎng)絡(luò)結(jié)構(gòu),再集成到GNN中,提升股票預(yù)測(cè)性能。另一種方式是利用LLM的先驗(yàn)知識(shí)增強(qiáng)STGNN的下游應(yīng)用,如LA-GCN中轉(zhuǎn)化為先驗(yàn)全局和類(lèi)別關(guān)系拓?fù)洌x節(jié)點(diǎn)之間的互連,強(qiáng)調(diào)關(guān)鍵節(jié)點(diǎn)信息。總之,LLM在提高STGNN的準(zhǔn)確性、情境敏銳度和語(yǔ)義深度方面具有巨大潛力。

時(shí)空?qǐng)D的預(yù)訓(xùn)練基礎(chǔ)模型通用目的。對(duì)比學(xué)習(xí)在圖像和文本領(lǐng)域廣泛應(yīng)用,在STG學(xué)習(xí)領(lǐng)域也取得顯著效果。STGCL通過(guò)對(duì)比正負(fù)對(duì),從復(fù)雜STGtransformer的群體流量預(yù)測(cè)框架,具有兩階段解碼過(guò)程。TrafficBERT利用BERT激發(fā)的關(guān)鍵特征,采用雙向transformer結(jié)構(gòu)預(yù)測(cè)整體流量。TFM將交通模擬納入交通預(yù)測(cè)領(lǐng)域,利用圖形結(jié)構(gòu)和動(dòng)態(tài)圖形生成算法捕捉交通系統(tǒng)中參與者之間的動(dòng)態(tài)和相互作用。

4.2 時(shí)序知識(shí)圖譜

知識(shí)圖譜(KGs)和時(shí)態(tài)知識(shí)圖譜(TKGs)是研究知識(shí)上復(fù)雜多關(guān)系設(shè)置的重要模型。KGs表示事實(shí),通常從文本數(shù)據(jù)中提取,以三元組(s,p,o)的形式表示。TKGs通過(guò)擴(kuò)展事實(shí)為具有時(shí)間戳的四元組(s,p,o,t),有效地捕捉事實(shí)之間的時(shí)間依賴性,有助于提高對(duì)實(shí)體行為的理解。

4.3 視頻

視頻是圖像序列的數(shù)字表示,傳統(tǒng)視頻理解方法有2D CNN和3D CNN。最近,變換器用于建模時(shí)空依賴性。最新的LLMs和PFMs利用多模態(tài)特性,如CLIP和DALL-E,可聯(lián)合處理視覺(jué)和文本模態(tài),提高視頻分析任務(wù)的泛化和魯棒性。視頻的大語(yǔ)言模型現(xiàn)有的視頻理解模型僅針對(duì)特定任務(wù),缺乏綜合多種任務(wù)的能力。最新的研究表明,LLM的序列推理能力可以應(yīng)用于各種視頻處理任務(wù),源于預(yù)先訓(xùn)練的自然語(yǔ)言處理LLM。一些研究文獻(xiàn)關(guān)注使用LLM的視頻問(wèn)答(VQA)、多模態(tài)模型和多模式輸入。LAVILA利用大型語(yǔ)言模型的能力來(lái)獲取視頻語(yǔ)言表示,克服了視頻文本語(yǔ)料庫(kù)規(guī)模有限的挑戰(zhàn)。通過(guò)微調(diào)預(yù)先訓(xùn)練的LLM,LAVILA創(chuàng)建了自動(dòng)化的視頻敘述者,提供了全面覆蓋、增強(qiáng)時(shí)間同步和多樣性文本內(nèi)容的好處。視頻的預(yù)訓(xùn)練基礎(chǔ)模型近年來(lái),語(yǔ)言、視覺(jué)和多模態(tài)預(yù)訓(xùn)練方法融合,開(kāi)創(chuàng)了各種面向視頻的預(yù)訓(xùn)練策略。具體而言,OmniVL統(tǒng)一了圖像語(yǔ)言和視頻語(yǔ)言建模,PAXION整合了動(dòng)作知識(shí),mPLUG-2允許利用各種模塊組合進(jìn)行單模態(tài)和跨模態(tài)任務(wù),mPLUGvideo基于mPLUG-2的概念設(shè)計(jì)。這些方法為視頻處理帶來(lái)了一系列視頻或視頻語(yǔ)言基礎(chǔ)模型。

5 資源和應(yīng)用

本節(jié)總結(jié)了與時(shí)間序列和時(shí)空數(shù)據(jù)相關(guān)的各種應(yīng)用中常見(jiàn)的數(shù)據(jù)集、模型和工具,具體如表3。

5.1 交通應(yīng)用

交通流量預(yù)測(cè)已成為智能交通系統(tǒng)(ITS)發(fā)展的關(guān)鍵問(wèn)題。時(shí)間序列和時(shí)空數(shù)據(jù)的利用有助于創(chuàng)建更準(zhǔn)確和自適應(yīng)的預(yù)測(cè)模型。

數(shù)據(jù)集。多個(gè)交通數(shù)據(jù)集已成為基準(zhǔn),如METR-LA、PEMS-BAY、PEMS04、SUTD-TrafficQA、TaxiBJ、BikeNYC、TaxiNYC和SafeGraph的移動(dòng)數(shù)據(jù)集。這些數(shù)據(jù)集提供了交通速度和流量的詳盡見(jiàn)解,以及交通流量建模和預(yù)測(cè)的寶貴資源。LargeST是第一個(gè)大規(guī)模交通預(yù)測(cè)的交通數(shù)據(jù)集,包括五年內(nèi)道路網(wǎng)絡(luò)上的8,000多個(gè)傳感器。

工具。研究人員可以使用SUMO、TransWorldNG、SafeGraph Data for Academics和trafficBERT等工具進(jìn)行交通模擬和分析。SUMO是開(kāi)源的交通模擬器,TransWorldNG是GitHub上的復(fù)雜交通模擬工具。SafeGraph Data for Academics提供匿名數(shù)據(jù)訪問(wèn)。trafficBERT是針對(duì)不同道路條件的模型,利用多頭自注意力機(jī)制捕捉時(shí)間序列信息。

5.2 醫(yī)療保健應(yīng)用

醫(yī)療保健領(lǐng)域的時(shí)間序列預(yù)測(cè)面臨挑戰(zhàn),但具有實(shí)際意義。預(yù)測(cè)模型在疾病進(jìn)展、死亡率估計(jì)和時(shí)間依賴風(fēng)險(xiǎn)評(píng)估方面至關(guān)重要。本節(jié)概述了著名數(shù)據(jù)集和模型/工具,展示了其在推進(jìn)醫(yī)療解決方案方面的巨大潛力。

數(shù)據(jù)集。醫(yī)療保健領(lǐng)域有多個(gè)數(shù)據(jù)集,如PTBXL(18,885名患者,21,837份心電圖)、紐約大學(xué)數(shù)據(jù)集(10年住院臨床筆記)、UF Health臨床語(yǔ)料庫(kù)(900億字)、i2b2-2012(時(shí)間關(guān)系注釋?zhuān)IMICIII(ICD-9代碼、生命體征等)和CirCor DigiScope(最大兒科心音數(shù)據(jù)集)。

模型檢查點(diǎn)和工具包。模型檢查點(diǎn)和工具包在醫(yī)療保健領(lǐng)域廣泛應(yīng)用。NYUTron處理實(shí)時(shí)結(jié)構(gòu)化/非結(jié)構(gòu)化筆記和電子訂單,BioBERT優(yōu)化生物醫(yī)學(xué)數(shù)據(jù)集,ClinicalBERT適應(yīng)臨床領(lǐng)域,BlueBERT擅長(zhǎng)生物醫(yī)學(xué)NLP任務(wù),Clairvoyance支持臨床決策,ARL EEGModels和DeepEEG處理EEG信號(hào)。

5.3 天氣應(yīng)用

天氣預(yù)報(bào)是日常決策和經(jīng)濟(jì)考慮的基礎(chǔ),涉及大氣條件預(yù)測(cè)。本節(jié)介紹了用于天氣動(dòng)力學(xué)時(shí)間序列預(yù)測(cè)的主要數(shù)據(jù)集、模型和工具。

數(shù)據(jù)集。SEVIR(風(fēng)暴事件圖像)包含10,000多個(gè)事件,整合了GOES-16和NEXRAD數(shù)據(jù)。Shifts作為不確定性估計(jì),對(duì)真實(shí)世界分布偏差具有魯棒性。NASA提供了AvePRE、SurTEMP、SurUPS數(shù)據(jù)集,闡明了12個(gè)氣象參數(shù)的小時(shí)變化。WeatherBench作為中程天氣預(yù)報(bào)的基準(zhǔn),CMIP6是國(guó)際聯(lián)盟,專(zhuān)注于評(píng)估全球氣候模型,ERA5是廣泛的再分析數(shù)據(jù)庫(kù),提供1979年至2018年的顆粒大氣數(shù)據(jù)。

模型和工具。Pangu-Weather是快速、精確的全球預(yù)測(cè)模型;ClimaX基于Transformer架構(gòu),配備創(chuàng)新編碼和聚合技術(shù),可在CMIP6數(shù)據(jù)上預(yù)訓(xùn)練;GraphCast融合GNNs,在預(yù)測(cè)任務(wù)中表現(xiàn)出眾。天氣預(yù)報(bào)的時(shí)間序列評(píng)估得益于數(shù)據(jù)收集和建模的進(jìn)步,未來(lái)有望提供更精細(xì)的工具和數(shù)據(jù)集。

5.4 金融應(yīng)用

時(shí)間序列預(yù)測(cè),特別是在金融領(lǐng)域,面臨挑戰(zhàn)。需要深入研究線性和非線性歷史數(shù)據(jù)交互以進(jìn)行未來(lái)預(yù)測(cè)。常見(jiàn)應(yīng)用包括預(yù)測(cè)買(mǎi)賣(mài)信號(hào)和預(yù)測(cè)股票價(jià)格變動(dòng)。

數(shù)據(jù)集。金融(就業(yè))收集了COVID-19期間美國(guó)100萬(wàn)活躍員工的就業(yè)數(shù)據(jù),并考慮國(guó)家政策。StockNet研究了推文和歷史股價(jià)對(duì)88只股票的影響。EDT面向企業(yè)事件檢測(cè)和基于文本的股票預(yù)測(cè),包含9721篇新聞文章,為基于文本的股票預(yù)測(cè)提供基準(zhǔn)。NASDAQ-100包含NASDAQ-100的每日股票價(jià)格,使用yfinance包從雅虎財(cái)經(jīng)檢索。

模型和工具。FinGPT是開(kāi)源、擴(kuò)展、專(zhuān)門(mén)為金融領(lǐng)域定制的語(yǔ)言模型,強(qiáng)調(diào)數(shù)據(jù)管理管道和輕量級(jí)低秩適應(yīng)方法的價(jià)值。WeaverBird是金融領(lǐng)域的智能對(duì)話系統(tǒng),具有知識(shí)庫(kù)和搜索引擎,能理解復(fù)雜金融查詢,提高可信度。在快速發(fā)展的金融領(lǐng)域,預(yù)測(cè)模型和工具的不斷改進(jìn)至關(guān)重要。隨著數(shù)據(jù)量和模型復(fù)雜度的增加,金融行業(yè)將從更精確的預(yù)測(cè)和精細(xì)的決策中受益。

5.5 視頻應(yīng)用

視頻問(wèn)答(VideoQA)致力于使用給定視頻中的內(nèi)容回答自然語(yǔ)言問(wèn)題。該模型應(yīng)生成反映視頻中描繪內(nèi)容的精確答案。該領(lǐng)域還擴(kuò)展到視頻質(zhì)量評(píng)估和視頻預(yù)測(cè)。

數(shù)據(jù)集。TGIF-QA提供165K個(gè)動(dòng)畫(huà)GIF的QA對(duì),MSR-VTT有10,000個(gè)視頻剪輯和字幕,WebVid有1000萬(wàn)視頻剪輯和網(wǎng)絡(luò)字幕,MSVD有12萬(wàn)個(gè)視頻片段描述,DiDeMo有近27,000個(gè)事件時(shí)刻描述,COCO有328K圖像用于對(duì)象檢測(cè)、分割和字幕。

模型和應(yīng)用。對(duì)比語(yǔ)言圖像預(yù)訓(xùn)練(CLIP)利用自然語(yǔ)言監(jiān)督來(lái)訓(xùn)練圖像表示,BLIP提供獨(dú)特的引導(dǎo)方法處理VLP中的噪聲網(wǎng)絡(luò)數(shù)據(jù),ViLBERT擴(kuò)展BERT架構(gòu)聯(lián)合處理視覺(jué)和文本輸入,VisualBERT通過(guò)Transformer將圖像區(qū)域和語(yǔ)言結(jié)合起來(lái),允許self-attention識(shí)別隱式的語(yǔ)言-視覺(jué)對(duì)齊。

5.6 事件預(yù)測(cè)應(yīng)用

事件序列,也稱(chēng)為異步時(shí)間序列,在金融、購(gòu)物和社交等領(lǐng)域至關(guān)重要。本小節(jié)將討論用于事件預(yù)測(cè)任務(wù)的主要數(shù)據(jù)集、模型和工具。

數(shù)據(jù)集。亞馬遜和淘寶是兩個(gè)包含用戶產(chǎn)品評(píng)論行為的數(shù)據(jù)集,每個(gè)事件包含時(shí)間戳和類(lèi)別。Retweet、StackOverflow和Taxi是另外三個(gè)事件序列數(shù)據(jù)集,分別包含用戶轉(zhuǎn)發(fā)、用戶問(wèn)題解答和用戶出租車(chē)上車(chē)事件序列。

模型和應(yīng)用。Tick 是經(jīng)典 TPP 統(tǒng)計(jì)學(xué)習(xí)的著名庫(kù),但存在局限性。為克服這些局限性,研究人員開(kāi)發(fā)了神經(jīng) TPP,利用神經(jīng)網(wǎng)絡(luò)的表達(dá)能力學(xué)習(xí)復(fù)雜依賴關(guān)系。EasyTPP 是神經(jīng)事件序列建模領(lǐng)域的首個(gè)開(kāi)源研究資產(chǎn)中央存儲(chǔ)庫(kù),提供流行神經(jīng) TPP 實(shí)現(xiàn)、豐富模塊庫(kù)、統(tǒng)一數(shù)據(jù)集界面和易于使用擴(kuò)展的評(píng)估程序。

5.7 其他

除了前面提到的具體應(yīng)用之外,時(shí)間序列預(yù)測(cè)、分類(lèi)和異常檢測(cè)也是電力、云計(jì)算、零售等領(lǐng)域的普遍應(yīng)用領(lǐng)域。

數(shù)據(jù)集。ETT(電力變壓器溫度)包含中國(guó)兩個(gè)縣的變壓器兩年溫度數(shù)據(jù);M4提供100,000個(gè)時(shí)間序列;Electricity【309】含近四年家庭電力消耗數(shù)據(jù);阿里巴巴集群跟蹤捕獲24小時(shí)共置工作負(fù)載統(tǒng)計(jì)數(shù)據(jù);TSSB(時(shí)間序列分割基準(zhǔn))擁有75個(gè)注釋時(shí)間序列;UCR時(shí)間序列分類(lèi)檔案數(shù)據(jù)集從85個(gè)擴(kuò)展到128個(gè)系列。

通用工具和庫(kù)。OpenSTL 是時(shí)空預(yù)測(cè)學(xué)習(xí)的基準(zhǔn),涵蓋廣泛方法和任務(wù)。BasicTS 是基于 PyTorch 的基準(zhǔn)測(cè)試和工具箱,用于時(shí)間序列預(yù)測(cè)。Merlion 是開(kāi)源機(jī)器學(xué)習(xí)庫(kù),支持單變量和多元模型。darts 是專(zhuān)為時(shí)間序列預(yù)測(cè)和異常檢測(cè)設(shè)計(jì)的 Python 庫(kù)。PyTorch Geometric Temporal 是 PyTorch Geometric 的動(dòng)態(tài)擴(kuò)展庫(kù),支持各種功能。

6 展望

在本節(jié)中,我們討論了當(dāng)前研究的潛在局限性,并強(qiáng)調(diào)了未來(lái)六大研究方向,旨在開(kāi)發(fā)更強(qiáng)大、透明和可靠的大規(guī)模時(shí)序數(shù)據(jù)分析模型。

6.1 大模型的理論分析

大型語(yǔ)言模型(LLM)主要處理自然語(yǔ)言,但最近的研究將其擴(kuò)展到時(shí)間序列和時(shí)空任務(wù)。LLM的學(xué)習(xí)表示可被微調(diào)以捕捉時(shí)序數(shù)據(jù)模式。然而,LLM作為“黑匣子”,其預(yù)測(cè)和決策背后的數(shù)據(jù)影響難以理解。需要進(jìn)行更深入的理論分析,以了解語(yǔ)言和時(shí)序數(shù)據(jù)之間的潛在模式相似性,以及如何有效地將其用于特定的時(shí)間序列和時(shí)空任務(wù)。

6.2 多模式模型的開(kāi)發(fā)

現(xiàn)實(shí)世界應(yīng)用中的時(shí)間序列和時(shí)空數(shù)據(jù)通常帶有文本描述等補(bǔ)充信息,這在經(jīng)濟(jì)學(xué)和金融等領(lǐng)域尤其有用。LLM可以適應(yīng)學(xué)習(xí)聯(lián)合表示,考慮時(shí)間數(shù)據(jù)的順序性質(zhì)和其他模態(tài)的獨(dú)特特征,以及不同模態(tài)的時(shí)間分辨率差異,以充分利用來(lái)自不同時(shí)間分辨率的所有信息,獲得更好的性能。

6.3 持續(xù)學(xué)習(xí)和適應(yīng)

現(xiàn)實(shí)世界應(yīng)用需要研究模型適應(yīng)非平穩(wěn)環(huán)境的能力,避免災(zāi)難性遺忘。雖然已有一些研究關(guān)注常見(jiàn)模型中的這些問(wèn)題,但大型模型持續(xù)適應(yīng)不斷變化的時(shí)間數(shù)據(jù),包括在線學(xué)習(xí)策略、適應(yīng)概念漂移以及適應(yīng)數(shù)據(jù)中不斷演化的模式,仍未被充分探索。

6.4 可解釋性和可解釋性

理解LLM預(yù)測(cè)時(shí)間序列的原因至關(guān)重要,特別是在醫(yī)療和金融領(lǐng)域。目前對(duì)LLM內(nèi)部理解有限,因此需要建立理論框架以理解LLM所學(xué),并研究如何增強(qiáng)大型模型以執(zhí)行時(shí)間推理和推斷因果關(guān)系。這包括開(kāi)發(fā)識(shí)別因果關(guān)系的方法,對(duì)于根本原因分析和干預(yù)計(jì)劃等應(yīng)用至關(guān)重要。

6.5 大型模型的隱私和對(duì)抗性攻擊

時(shí)態(tài)數(shù)據(jù)敏感,LLM訓(xùn)練可能泄露隱私。研究隱私保護(hù)技術(shù)(如差分隱私和聯(lián)邦學(xué)習(xí)),確保數(shù)據(jù)隱私,同時(shí)受益于LLM在時(shí)間序列和時(shí)空分析方面的強(qiáng)大功能。

6.6 模型泛化和漏洞

LLM在通用數(shù)據(jù)上預(yù)訓(xùn)練,并在特定任務(wù)上微調(diào)。微調(diào)數(shù)據(jù)中的對(duì)抗性或噪聲示例可能導(dǎo)致模型存在漏洞。如果微調(diào)數(shù)據(jù)未經(jīng)過(guò)仔細(xì)整理,模型可能繼承偏見(jiàn)或漏洞,導(dǎo)致魯棒性受損。此外,LLM在大量數(shù)據(jù)集上訓(xùn)練,但可能無(wú)法很好地推廣到新數(shù)據(jù)。時(shí)間序列和時(shí)空數(shù)據(jù)可能突然變化或趨勢(shì),LLM在訓(xùn)練期間未遇到類(lèi)似模式,可能會(huì)產(chǎn)生不可靠的輸出,強(qiáng)調(diào)魯棒泛化的需求。

本文章轉(zhuǎn)載微信公眾號(hào)@算法進(jìn)階

熱門(mén)推薦
一個(gè)賬號(hào)試用1000+ API
助力AI無(wú)縫鏈接物理世界 · 無(wú)需多次注冊(cè)
3000+提示詞助力AI大模型
和專(zhuān)業(yè)工程師共享工作效率翻倍的秘密
返回頂部
上一篇
擴(kuò)散模型的解構(gòu)研究
下一篇
一文徹底搞懂大模型 - Prompt Engineering、Function Calling、RAG、Fine-tuning
国内精品久久久久影院日本,日本中文字幕视频,99久久精品99999久久,又粗又大又黄又硬又爽毛片
在线视频你懂得一区| 五月婷婷久久综合| 久久精品亚洲麻豆av一区二区 | 亚洲欧美国产三级| 国产一区二区在线免费观看| 精品精品国产高清a毛片牛牛| 韩国女主播成人在线| 亚洲一区二区三区在线| 日韩午夜av电影| 一级精品视频在线观看宜春院| 欧美一区二区免费视频| 99久免费精品视频在线观看 | 日韩电影免费在线看| 欧美激情在线一区二区| 欧美日韩另类一区| 国产河南妇女毛片精品久久久| 亚洲午夜电影网| 亚洲人一二三区| 中文字幕一区在线| 欧美—级在线免费片| 日韩一区二区三区电影| 4438成人网| 91麻豆精品国产91久久久久| 在线免费不卡电影| 欧美在线观看你懂的| 欧美日韩国产高清一区二区三区 | 性欧美疯狂xxxxbbbb| 国产精品日韩精品欧美在线 | 欧美日韩在线亚洲一区蜜芽| 欧美视频中文字幕| 欧美精品 日韩| 久久蜜桃av一区二区天堂| 欧美国产日本视频| 欧美亚洲综合色| 欧美午夜电影网| 国产日韩精品一区二区三区| 亚洲综合免费观看高清完整版在线| 亚洲日本在线视频观看| 视频一区视频二区中文| 成人三级伦理片| 欧美狂野另类xxxxoooo| 国产午夜精品福利| 午夜国产精品影院在线观看| 国产麻豆成人精品| 国产精品一二三在| 色综合天天综合网天天看片| 午夜日韩在线电影| 久久99日本精品| 在线看国产日韩| 国产精品麻豆一区二区| 国内精品伊人久久久久av影院| 欧美自拍丝袜亚洲| 亚洲欧美视频在线观看| 国产乱码精品一区二区三区五月婷| 欧美色大人视频| 亚洲大片精品永久免费| 欧美三级乱人伦电影| 久久精品一区二区三区不卡 | 91九色02白丝porn| 欧美成人高清电影在线| 激情国产一区二区| 欧美精品久久久久久久多人混战| 天天亚洲美女在线视频| 日韩视频一区二区| 国产一区二区不卡在线| 久久午夜国产精品| 国产成人av网站| 国产精品国产三级国产有无不卡| 中文字幕在线不卡| 亚洲免费观看高清完整版在线| 捆绑调教一区二区三区| 久久综合九色综合97婷婷| 免费精品视频最新在线| 国产欧美日韩在线看| 在线亚洲一区二区| 久久99久国产精品黄毛片色诱| 国产精品系列在线| 欧美日韩亚洲综合一区二区三区| 亚洲高清中文字幕| 亚洲欧美日韩国产中文在线| 91精品国产全国免费观看| 国产精品自拍在线| 午夜视频一区二区| 一区二区三区在线观看视频| 久久久久国产一区二区三区四区| 欧美亚州韩日在线看免费版国语版| 国内精品伊人久久久久影院对白| 一区二区三区精品视频在线| 中文欧美字幕免费| 欧美激情一区不卡| 精品国产乱码久久久久久免费| 欧美人牲a欧美精品| 在线日韩国产精品| 欧美性大战久久久| 欧美中文一区二区三区| 欧美日精品一区视频| 欧美日韩美少妇| 日韩欧美一二区| 精品国产青草久久久久福利| 2023国产精品自拍| 国产精品网曝门| 亚洲男同性视频| 亚洲成人一区在线| 免费成人你懂的| 蜜桃精品在线观看| 国产剧情一区在线| 波多野结衣中文一区| 欧美主播一区二区三区美女| 欧美一区欧美二区| ...av二区三区久久精品| 亚洲国产综合色| 国产精一区二区三区| 在线国产亚洲欧美| 国产性天天综合网| 香港成人在线视频| 色噜噜狠狠成人网p站| 精品国产123| 免费在线看成人av| 欧美亚州韩日在线看免费版国语版| 久久久高清一区二区三区| 夜夜夜精品看看| 99精品视频在线观看| 欧美国产乱子伦| 精品一区二区免费视频| av一区二区不卡| 在线成人免费观看| 91久久一区二区| 久久久精品人体av艺术| 国产精品美女久久久久av爽李琼 | 欧美三级日本三级少妇99| 亚洲激情成人在线| 99久久国产综合色|国产精品| 日本一区二区三区免费乱视频| 久草中文综合在线| 国产精品国产三级国产aⅴ原创| 成人av电影在线播放| 成人免费在线视频观看| 色天天综合色天天久久| 亚洲精品福利视频网站| 欧美男男青年gay1069videost | 国产成人免费视频网站| 亚洲精选视频在线| 91精品国产综合久久精品性色| 精品一区二区在线免费观看| 国产欧美日本一区视频| 欧美性色综合网| 精品在线你懂的| 一区二区三区中文免费| 在线观看不卡视频| 成人高清av在线| 久久精品国产99国产精品| 国产不卡高清在线观看视频| 国产精品美女一区二区三区| 国产一区高清在线| 亚洲视频免费在线| 欧美一级黄色大片| 九色综合狠狠综合久久| 一级做a爱片久久| 亚洲视频一二区| 国产蜜臀97一区二区三区| 久久嫩草精品久久久精品| 日韩亚洲欧美在线| 久久综合狠狠综合久久综合88 | 亚洲电影第三页| 一区二区三区四区乱视频| 国产精品人人做人人爽人人添| 久久久久久电影| 亚洲愉拍自拍另类高清精品| 亚洲韩国精品一区| 久久福利资源站| 99久久综合99久久综合网站| 欧美人成免费网站| 欧美国产日韩一二三区| 亚洲一线二线三线久久久| 蜜桃91丨九色丨蝌蚪91桃色| 本田岬高潮一区二区三区| 欧美一区二区三区视频在线| 欧美精品乱码久久久久久按摩| 久久九九全国免费| 日本成人中文字幕在线视频| 99热这里都是精品| 久久午夜色播影院免费高清| 午夜久久久久久久久久一区二区| 国产精品 欧美精品| 欧美一卡在线观看| 香蕉久久一区二区不卡无毒影院| 成人免费看黄yyy456| 国产精品天干天干在线综合| 国产精品一区二区久久不卡 | 成人网在线免费视频| 日韩小视频在线观看专区| 五月综合激情婷婷六月色窝| 欧美色视频在线| 蜜臀精品一区二区三区在线观看 | 欧美一区在线视频| 高清日韩电视剧大全免费| 亚洲伦在线观看| www国产精品av| 色婷婷狠狠综合| 视频一区免费在线观看|