3d动漫精品啪啪一区二区竹菊,亚洲国产成人精品电影,91老司机精品视频

預(yù)訓(xùn)練基礎(chǔ)模型（PFM）是大規(guī)模預(yù)訓(xùn)練模型，能夠適應(yīng)解決各種下游任務(wù)。PFM的特征是具有涌現(xiàn)能力和同質(zhì)化，以及在構(gòu)建AI系統(tǒng)時(shí)整合方法。PFM的能力有三個(gè)關(guān)鍵維度：模態(tài)橋接、推理和規(guī)劃以及交互。

模態(tài)橋接包括多模態(tài)模型，如視覺(jué)語(yǔ)言模型等MLLM，彌合圖像和文本之間的差距。推理和規(guī)劃能力包括LLM中的CoT、ToT和GoT，以及任務(wù)規(guī)劃代理。交互能力包括行動(dòng)和通信。時(shí)間序列和時(shí)空數(shù)據(jù)的PFM仍處于早期發(fā)展階段，遠(yuǎn)未達(dá)到上述第二和第三個(gè)關(guān)鍵維度。

2.3 時(shí)間序列和時(shí)空數(shù)據(jù)

時(shí)序數(shù)據(jù)是現(xiàn)實(shí)世界應(yīng)用的基礎(chǔ)數(shù)據(jù)，包括時(shí)間序列和時(shí)空數(shù)據(jù)。時(shí)間序列是按時(shí)間順序排列的數(shù)據(jù)點(diǎn)序列，可以是單變量或多變量。在以下內(nèi)容中，我們使用特定字母表示法：粗體大寫(xiě)字母表示矩陣，粗體小寫(xiě)字母表示向量，書(shū)法大寫(xiě)字母表示集合，標(biāo)準(zhǔn)小寫(xiě)字母表示標(biāo)量。

時(shí)間序列數(shù)據(jù)。單變量時(shí)間序列x = {x1, x2, · · · , xT } ∈ R T是按時(shí)間順序索引的T個(gè)數(shù)據(jù)點(diǎn)的序列，其中xt ∈ R是時(shí)間序列在時(shí)間t的值。多變量時(shí)間序列X = {x1, x2, · · · , xT } ∈ R T ×D是按時(shí)間順序索引的T個(gè)數(shù)據(jù)點(diǎn)的序列，但具有D個(gè)維度，其中xt ∈ R D(1 ≤ t ≤ T)表示時(shí)間序列在時(shí)間t沿D個(gè)通道的值。時(shí)空數(shù)據(jù)包含時(shí)空?qǐng)D、時(shí)序知識(shí)圖譜、視頻、點(diǎn)云流和軌跡等多種結(jié)構(gòu)，由時(shí)間和空間維度組織的數(shù)據(jù)點(diǎn)序列組成。本綜述主要關(guān)注前三類(lèi)。

時(shí)空?qǐng)D。時(shí)空?qǐng)DG = {G1, G2, · · · , GT }是以時(shí)間順序索引的T個(gè)靜態(tài)圖快照的序列，其中Gt = (Vt, Et)表示時(shí)間t的快照；Vt和Et是時(shí)間t的節(jié)點(diǎn)和邊集。相應(yīng)的鄰接矩陣和節(jié)點(diǎn)特征矩陣被定義為At ∈ R N×N和Xt ∈ R N×D，其中At = {a t ij}，如果節(jié)點(diǎn)i和j之間存在邊，則a t ij = 0，s.t. e t ij ∈ Et。這里，N = |Vt|是節(jié)點(diǎn)數(shù)，D是節(jié)點(diǎn)特征的維數(shù)。

時(shí)序知識(shí)圖譜。時(shí)序知識(shí)圖譜G = {G1, G2, · · · , GT }是按時(shí)間順序索引的T個(gè)靜態(tài)知識(shí)圖快照的序列，其中Gt = (Et, Rt)是由時(shí)間t處的實(shí)體和關(guān)系集組成的快照。具體來(lái)說(shuō)，Et封裝了主體和客體實(shí)體，而Rt表示它們之間的關(guān)系集。在時(shí)序知識(shí)圖譜中，實(shí)體和關(guān)系可能具有不同的特征，由Xe t ∈ R|Et|×De和Xr t ∈ R |Rt|×Dr表示，其中De和Dr是特征維度。

視頻數(shù)據(jù)。視頻數(shù)據(jù)也可以被解釋為一種時(shí)空數(shù)據(jù)，通常被定義為按時(shí)間順序索引的圖像序列。設(shè)V = {F1, F2, …, FT }是一個(gè)按時(shí)間順序索引的T幀組成的視頻，其中Ft表示第t幀。為簡(jiǎn)單起見(jiàn)，我們假設(shè)每個(gè)幀F(xiàn)t都是一個(gè)像素矩陣，即Ft ∈ R H×W×C，不考慮其他元數(shù)據(jù)，其中H、W和C分別是幀的高度、寬度和顏色通道。與每個(gè)數(shù)據(jù)類(lèi)別相關(guān)的代表性任務(wù)，如圖2所示。可以總結(jié)為：時(shí)間序列任務(wù)包括預(yù)測(cè)、分類(lèi)、異常檢測(cè)和插補(bǔ)。時(shí)空?qǐng)D任務(wù)包括預(yù)測(cè)、鏈接預(yù)測(cè)和節(jié)點(diǎn)/圖分類(lèi)。時(shí)序知識(shí)圖譜任務(wù)包括完成和預(yù)測(cè)。視頻任務(wù)包括檢測(cè)、字幕、預(yù)測(cè)和查詢。

圖2 大模型（即語(yǔ)言和其他相關(guān)的基礎(chǔ)模型）可以被訓(xùn)練或巧妙地重新用于處理時(shí)間序列和時(shí)空數(shù)據(jù)，以用于一系列通用任務(wù)和專(zhuān)用領(lǐng)域應(yīng)用。

3 時(shí)間序列數(shù)據(jù)的大模型

時(shí)間序列數(shù)據(jù)的大模型包括用于時(shí)間序列數(shù)據(jù)的LLM（LLM4TS）和用于時(shí)間序列數(shù)據(jù)的PFM（PFM4TS）。前者是指利用LLM解決時(shí)間序列任務(wù)，無(wú)論LLM在適應(yīng)過(guò)程中是微調(diào)還是凍結(jié)。另一方面，后者側(cè)重于開(kāi)發(fā)明確針對(duì)各種時(shí)間序列任務(wù)的PFM。其中，PFM4TS領(lǐng)域較新，可能未完全發(fā)掘通用PFM的潛力，但為未來(lái)發(fā)展提供見(jiàn)解。每個(gè)細(xì)分領(lǐng)域再分為通用模型和特定領(lǐng)域模型，如圖3所示。

圖3 從方法論（即LLM與PFM）、動(dòng)機(jī)（如一般目的與特定領(lǐng)域目的）和應(yīng)用的角度對(duì)時(shí)間序列和時(shí)空數(shù)據(jù)的大型模型進(jìn)行綜合分類(lèi)。

3.1 時(shí)間序列中的大語(yǔ)言模型（LLM4TS）

時(shí)間序列分析在零售銷(xiāo)售預(yù)測(cè)、經(jīng)濟(jì)時(shí)間序列缺失數(shù)據(jù)的插補(bǔ)、工業(yè)維護(hù)的異常檢測(cè)以及來(lái)自不同領(lǐng)域的時(shí)間序列的分類(lèi)等應(yīng)用中至關(guān)重要。隨著NLP領(lǐng)域中LLM的快速增長(zhǎng)，我們探索了利用這些模型進(jìn)行時(shí)間序列分析的可能性，分別從通用和特定領(lǐng)域模型的角度討論了LLM4TS。

通用模型基于提示的時(shí)間序列預(yù)測(cè)-PromptCast是一項(xiàng)新任務(wù)，旨在基于提示進(jìn)行時(shí)間序列預(yù)測(cè)，為時(shí)間序列預(yù)測(cè)提供了一種“無(wú)代碼”解決方案。LLMTime表明LLM是有效的零樣本時(shí)間序列學(xué)習(xí)者。為了應(yīng)對(duì)缺乏大規(guī)模數(shù)據(jù)訓(xùn)練的挑戰(zhàn)，提出了一種基于部分凍結(jié)LLM的統(tǒng)一框架。類(lèi)似的工作是TEMPO，它僅專(zhuān)注于時(shí)間序列預(yù)測(cè)，但結(jié)合了其他細(xì)粒度設(shè)計(jì)，如時(shí)間序列分解和軟提示。等等，最近，Time-LLM被提出用源數(shù)據(jù)模式和基于自然語(yǔ)言的提示來(lái)重新編程時(shí)間序列，以釋放LLM作為有效時(shí)間序列機(jī)器的潛力。

特定領(lǐng)域模型運(yùn)輸。時(shí)間序列預(yù)測(cè)在智能交通系統(tǒng)（ITS）中起著關(guān)鍵作用。AuxMobLCast流程利用LLM進(jìn)行交通數(shù)據(jù)挖掘，將人類(lèi)移動(dòng)數(shù)據(jù)轉(zhuǎn)換為自然語(yǔ)言句子，以便微調(diào)現(xiàn)有的LLM進(jìn)行預(yù)測(cè)。

金融。最近金融領(lǐng)域有幾篇法學(xué)碩士論文報(bào)道了簡(jiǎn)單有效的指令調(diào)整方法，用于情感分析，并將分類(lèi)情感分析數(shù)據(jù)集轉(zhuǎn)化為生成任務(wù)，使LLM更有效應(yīng)用其訓(xùn)練和推理能力。實(shí)驗(yàn)還使用了GPT-4進(jìn)行零樣本/少熱點(diǎn)推理，Llama進(jìn)行微調(diào)，生成可解釋的預(yù)測(cè)，實(shí)現(xiàn)了合理性能。還有使用類(lèi)似方法基于文本數(shù)據(jù)預(yù)測(cè)股票價(jià)格走勢(shì)的文獻(xiàn)。

事件預(yù)測(cè)。事件預(yù)測(cè)是對(duì)具有不規(guī)則時(shí)間戳的異步時(shí)間序列數(shù)據(jù)進(jìn)行建模的標(biāo)準(zhǔn)方法，例如金融、在線購(gòu)物和社交網(wǎng)絡(luò)等領(lǐng)域。時(shí)間點(diǎn)過(guò)程（TPPs）已成為對(duì)這些數(shù)據(jù)進(jìn)行建模的標(biāo)準(zhǔn)方法。事件預(yù)測(cè)旨在根據(jù)過(guò)去預(yù)測(cè)未來(lái)事件的時(shí)間和類(lèi)型。LLM在這種設(shè)置中可能很有用，因?yàn)樗鼈兩瞄L(zhǎng)處理豐富的文本信息。

醫(yī)療保健。醫(yī)療領(lǐng)域需要預(yù)測(cè)患者就診和癥狀時(shí)間序列的臨床模型，但現(xiàn)有模型因數(shù)據(jù)處理和開(kāi)發(fā)復(fù)雜性而受限。GatorTron和NYUTron是臨床LLM，改進(jìn)了五個(gè)臨床NLP任務(wù)，展示了在醫(yī)學(xué)中使用臨床LLM的潛力。LLM可通過(guò)少量即時(shí)調(diào)諧將數(shù)字時(shí)間序列數(shù)據(jù)接地，改進(jìn)零樣本推斷和健康任務(wù)的監(jiān)督基線。心電圖是常用的醫(yī)療監(jiān)測(cè)工具之一，可利用自動(dòng)生成的臨床報(bào)告來(lái)指導(dǎo)自監(jiān)督預(yù)訓(xùn)練框架。

3.2 時(shí)間序列中的預(yù)訓(xùn)練基礎(chǔ)模型（PFM4TS）

除了利用LLM進(jìn)行時(shí)間序列分析外，時(shí)間序列預(yù)訓(xùn)練和相關(guān)基礎(chǔ)模型的開(kāi)發(fā)具有潛力，有助于識(shí)別跨領(lǐng)域和任務(wù)的一般時(shí)間序列模式。通用模型自2021年以來(lái)，提出了大量預(yù)訓(xùn)練的基礎(chǔ)模型，其中大多數(shù)是通用的。Voice2Series是第一個(gè)能夠重新編程用于時(shí)間序列任務(wù)的框架。基于對(duì)比學(xué)習(xí)技術(shù)出現(xiàn)了幾個(gè)基于時(shí)間序列數(shù)據(jù)的預(yù)訓(xùn)練基礎(chǔ)模型，包括TF-C、TS2Vec和CLUDA。CLUDA是一種基于對(duì)比學(xué)習(xí)的無(wú)監(jiān)督時(shí)序域自適應(yīng)模型，具有自定義對(duì)比學(xué)習(xí)和最近鄰對(duì)比學(xué)習(xí)組件。此外，該領(lǐng)域還使用了許多其他技術(shù)，如STEP模型、MTSMAE、SimMTM和PatchTST。TSMixer是一種輕量級(jí)的MLP-Mixer模型，用于多元時(shí)間序列預(yù)測(cè)。特定領(lǐng)域模型PromptTPP是一種預(yù)訓(xùn)練事件序列基礎(chǔ)模型，采用連續(xù)學(xué)習(xí)（CL）解決災(zāi)難性遺忘問(wèn)題。它將基礎(chǔ)模型與連續(xù)時(shí)間檢索提示池集成，提示為小型可學(xué)習(xí)參數(shù)，與基礎(chǔ)模型聯(lián)合優(yōu)化，確保按順序?qū)W習(xí)事件流，無(wú)需緩沖或特定于任務(wù)的屬性。

4 時(shí)空數(shù)據(jù)的大型模型

本節(jié)將研究跨三個(gè)主要數(shù)據(jù)類(lèi)別（時(shí)空?qǐng)D、時(shí)間知識(shí)圖和視頻）的時(shí)空數(shù)據(jù)分析中大模型的進(jìn)展，每個(gè)類(lèi)別都具有廣泛的現(xiàn)實(shí)世界應(yīng)用。

4.1 時(shí)空?qǐng)D（STG）

STG是一種概念，表示個(gè)體進(jìn)入一個(gè)星球，其元素在空間和時(shí)間上進(jìn)行交互，形成深刻的時(shí)空組合。STG應(yīng)用廣泛，包括交通、空氣質(zhì)量、股票價(jià)格和人體骨骼分析等。STGNN是STG預(yù)測(cè)最流行的方法，利用GNN捕捉空間相關(guān)性，其他模型學(xué)習(xí)時(shí)間依賴性。LLM和PFM為STGNN提供文本數(shù)據(jù)支持，增強(qiáng)時(shí)空情境豐富性，融合多種形式數(shù)據(jù)，擴(kuò)大時(shí)空理解深度和廣度。這些模型可生成人類(lèi)可解釋解釋?zhuān)岣咄该鞫群涂煽啃裕?jiǎn)化訓(xùn)練和推理過(guò)程，提高計(jì)算效率。

時(shí)空?qǐng)D的大語(yǔ)言模型相較于PFM，使用LLM增強(qiáng)STGNN學(xué)習(xí)能力的文獻(xiàn)較少。一種方式是利用LLM學(xué)習(xí)節(jié)點(diǎn)之間的關(guān)系，如早期研究提出框架，通過(guò)ChatGPT提取網(wǎng)絡(luò)結(jié)構(gòu)，再集成到GNN中，提升股票預(yù)測(cè)性能。另一種方式是利用LLM的先驗(yàn)知識(shí)增強(qiáng)STGNN的下游應(yīng)用，如LA-GCN中轉(zhuǎn)化為先驗(yàn)全局和類(lèi)別關(guān)系拓?fù)洌x節(jié)點(diǎn)之間的互連，強(qiáng)調(diào)關(guān)鍵節(jié)點(diǎn)信息。總之，LLM在提高STGNN的準(zhǔn)確性、情境敏銳度和語(yǔ)義深度方面具有巨大潛力。

時(shí)空?qǐng)D的預(yù)訓(xùn)練基礎(chǔ)模型通用目的。對(duì)比學(xué)習(xí)在圖像和文本領(lǐng)域廣泛應(yīng)用，在STG學(xué)習(xí)領(lǐng)域也取得顯著效果。STGCL通過(guò)對(duì)比正負(fù)對(duì)，從復(fù)雜STGtransformer的群體流量預(yù)測(cè)框架，具有兩階段解碼過(guò)程。TrafficBERT利用BERT激發(fā)的關(guān)鍵特征，采用雙向transformer結(jié)構(gòu)預(yù)測(cè)整體流量。TFM將交通模擬納入交通預(yù)測(cè)領(lǐng)域，利用圖形結(jié)構(gòu)和動(dòng)態(tài)圖形生成算法捕捉交通系統(tǒng)中參與者之間的動(dòng)態(tài)和相互作用。

4.2 時(shí)序知識(shí)圖譜

知識(shí)圖譜（KGs）和時(shí)態(tài)知識(shí)圖譜（TKGs）是研究知識(shí)上復(fù)雜多關(guān)系設(shè)置的重要模型。KGs表示事實(shí)，通常從文本數(shù)據(jù)中提取，以三元組（s，p，o）的形式表示。TKGs通過(guò)擴(kuò)展事實(shí)為具有時(shí)間戳的四元組（s，p，o，t），有效地捕捉事實(shí)之間的時(shí)間依賴性，有助于提高對(duì)實(shí)體行為的理解。

4.3 視頻

視頻是圖像序列的數(shù)字表示，傳統(tǒng)視頻理解方法有2D CNN和3D CNN。最近，變換器用于建模時(shí)空依賴性。最新的LLMs和PFMs利用多模態(tài)特性，如CLIP和DALL-E，可聯(lián)合處理視覺(jué)和文本模態(tài)，提高視頻分析任務(wù)的泛化和魯棒性。視頻的大語(yǔ)言模型現(xiàn)有的視頻理解模型僅針對(duì)特定任務(wù)，缺乏綜合多種任務(wù)的能力。最新的研究表明，LLM的序列推理能力可以應(yīng)用于各種視頻處理任務(wù)，源于預(yù)先訓(xùn)練的自然語(yǔ)言處理LLM。一些研究文獻(xiàn)關(guān)注使用LLM的視頻問(wèn)答（VQA）、多模態(tài)模型和多模式輸入。LAVILA利用大型語(yǔ)言模型的能力來(lái)獲取視頻語(yǔ)言表示，克服了視頻文本語(yǔ)料庫(kù)規(guī)模有限的挑戰(zhàn)。通過(guò)微調(diào)預(yù)先訓(xùn)練的LLM，LAVILA創(chuàng)建了自動(dòng)化的視頻敘述者，提供了全面覆蓋、增強(qiáng)時(shí)間同步和多樣性文本內(nèi)容的好處。視頻的預(yù)訓(xùn)練基礎(chǔ)模型近年來(lái)，語(yǔ)言、視覺(jué)和多模態(tài)預(yù)訓(xùn)練方法融合，開(kāi)創(chuàng)了各種面向視頻的預(yù)訓(xùn)練策略。具體而言，OmniVL統(tǒng)一了圖像語(yǔ)言和視頻語(yǔ)言建模，PAXION整合了動(dòng)作知識(shí)，mPLUG-2允許利用各種模塊組合進(jìn)行單模態(tài)和跨模態(tài)任務(wù)，mPLUGvideo基于mPLUG-2的概念設(shè)計(jì)。這些方法為視頻處理帶來(lái)了一系列視頻或視頻語(yǔ)言基礎(chǔ)模型。

5 資源和應(yīng)用

本節(jié)總結(jié)了與時(shí)間序列和時(shí)空數(shù)據(jù)相關(guān)的各種應(yīng)用中常見(jiàn)的數(shù)據(jù)集、模型和工具，具體如表3。

5.1 交通應(yīng)用

交通流量預(yù)測(cè)已成為智能交通系統(tǒng)（ITS）發(fā)展的關(guān)鍵問(wèn)題。時(shí)間序列和時(shí)空數(shù)據(jù)的利用有助于創(chuàng)建更準(zhǔn)確和自適應(yīng)的預(yù)測(cè)模型。

數(shù)據(jù)集。多個(gè)交通數(shù)據(jù)集已成為基準(zhǔn)，如METR-LA、PEMS-BAY、PEMS04、SUTD-TrafficQA、TaxiBJ、BikeNYC、TaxiNYC和SafeGraph的移動(dòng)數(shù)據(jù)集。這些數(shù)據(jù)集提供了交通速度和流量的詳盡見(jiàn)解，以及交通流量建模和預(yù)測(cè)的寶貴資源。LargeST是第一個(gè)大規(guī)模交通預(yù)測(cè)的交通數(shù)據(jù)集，包括五年內(nèi)道路網(wǎng)絡(luò)上的8,000多個(gè)傳感器。

工具。研究人員可以使用SUMO、TransWorldNG、SafeGraph Data for Academics和trafficBERT等工具進(jìn)行交通模擬和分析。SUMO是開(kāi)源的交通模擬器，TransWorldNG是GitHub上的復(fù)雜交通模擬工具。SafeGraph Data for Academics提供匿名數(shù)據(jù)訪問(wèn)。trafficBERT是針對(duì)不同道路條件的模型，利用多頭自注意力機(jī)制捕捉時(shí)間序列信息。

5.2 醫(yī)療保健應(yīng)用

醫(yī)療保健領(lǐng)域的時(shí)間序列預(yù)測(cè)面臨挑戰(zhàn)，但具有實(shí)際意義。預(yù)測(cè)模型在疾病進(jìn)展、死亡率估計(jì)和時(shí)間依賴風(fēng)險(xiǎn)評(píng)估方面至關(guān)重要。本節(jié)概述了著名數(shù)據(jù)集和模型/工具，展示了其在推進(jìn)醫(yī)療解決方案方面的巨大潛力。

數(shù)據(jù)集。醫(yī)療保健領(lǐng)域有多個(gè)數(shù)據(jù)集，如PTBXL（18,885名患者，21,837份心電圖）、紐約大學(xué)數(shù)據(jù)集（10年住院臨床筆記）、UF Health臨床語(yǔ)料庫(kù)（900億字）、i2b2-2012（時(shí)間關(guān)系注釋?zhuān)IMICIII（ICD-9代碼、生命體征等）和CirCor DigiScope（最大兒科心音數(shù)據(jù)集）。

模型檢查點(diǎn)和工具包。模型檢查點(diǎn)和工具包在醫(yī)療保健領(lǐng)域廣泛應(yīng)用。NYUTron處理實(shí)時(shí)結(jié)構(gòu)化/非結(jié)構(gòu)化筆記和電子訂單，BioBERT優(yōu)化生物醫(yī)學(xué)數(shù)據(jù)集，ClinicalBERT適應(yīng)臨床領(lǐng)域，BlueBERT擅長(zhǎng)生物醫(yī)學(xué)NLP任務(wù)，Clairvoyance支持臨床決策，ARL EEGModels和DeepEEG處理EEG信號(hào)。

5.3 天氣應(yīng)用

天氣預(yù)報(bào)是日常決策和經(jīng)濟(jì)考慮的基礎(chǔ)，涉及大氣條件預(yù)測(cè)。本節(jié)介紹了用于天氣動(dòng)力學(xué)時(shí)間序列預(yù)測(cè)的主要數(shù)據(jù)集、模型和工具。

數(shù)據(jù)集。SEVIR（風(fēng)暴事件圖像）包含10,000多個(gè)事件，整合了GOES-16和NEXRAD數(shù)據(jù)。Shifts作為不確定性估計(jì)，對(duì)真實(shí)世界分布偏差具有魯棒性。NASA提供了AvePRE、SurTEMP、SurUPS數(shù)據(jù)集，闡明了12個(gè)氣象參數(shù)的小時(shí)變化。WeatherBench作為中程天氣預(yù)報(bào)的基準(zhǔn)，CMIP6是國(guó)際聯(lián)盟，專(zhuān)注于評(píng)估全球氣候模型，ERA5是廣泛的再分析數(shù)據(jù)庫(kù)，提供1979年至2018年的顆粒大氣數(shù)據(jù)。

模型和工具。Pangu-Weather是快速、精確的全球預(yù)測(cè)模型；ClimaX基于Transformer架構(gòu)，配備創(chuàng)新編碼和聚合技術(shù)，可在CMIP6數(shù)據(jù)上預(yù)訓(xùn)練；GraphCast融合GNNs，在預(yù)測(cè)任務(wù)中表現(xiàn)出眾。天氣預(yù)報(bào)的時(shí)間序列評(píng)估得益于數(shù)據(jù)收集和建模的進(jìn)步，未來(lái)有望提供更精細(xì)的工具和數(shù)據(jù)集。

5.4 金融應(yīng)用

時(shí)間序列預(yù)測(cè)，特別是在金融領(lǐng)域，面臨挑戰(zhàn)。需要深入研究線性和非線性歷史數(shù)據(jù)交互以進(jìn)行未來(lái)預(yù)測(cè)。常見(jiàn)應(yīng)用包括預(yù)測(cè)買(mǎi)賣(mài)信號(hào)和預(yù)測(cè)股票價(jià)格變動(dòng)。

數(shù)據(jù)集。金融（就業(yè)）收集了COVID-19期間美國(guó)100萬(wàn)活躍員工的就業(yè)數(shù)據(jù)，并考慮國(guó)家政策。StockNet研究了推文和歷史股價(jià)對(duì)88只股票的影響。EDT面向企業(yè)事件檢測(cè)和基于文本的股票預(yù)測(cè)，包含9721篇新聞文章，為基于文本的股票預(yù)測(cè)提供基準(zhǔn)。NASDAQ-100包含NASDAQ-100的每日股票價(jià)格，使用yfinance包從雅虎財(cái)經(jīng)檢索。

模型和工具。FinGPT是開(kāi)源、擴(kuò)展、專(zhuān)門(mén)為金融領(lǐng)域定制的語(yǔ)言模型，強(qiáng)調(diào)數(shù)據(jù)管理管道和輕量級(jí)低秩適應(yīng)方法的價(jià)值。WeaverBird是金融領(lǐng)域的智能對(duì)話系統(tǒng)，具有知識(shí)庫(kù)和搜索引擎，能理解復(fù)雜金融查詢，提高可信度。在快速發(fā)展的金融領(lǐng)域，預(yù)測(cè)模型和工具的不斷改進(jìn)至關(guān)重要。隨著數(shù)據(jù)量和模型復(fù)雜度的增加，金融行業(yè)將從更精確的預(yù)測(cè)和精細(xì)的決策中受益。

5.5 視頻應(yīng)用

視頻問(wèn)答（VideoQA）致力于使用給定視頻中的內(nèi)容回答自然語(yǔ)言問(wèn)題。該模型應(yīng)生成反映視頻中描繪內(nèi)容的精確答案。該領(lǐng)域還擴(kuò)展到視頻質(zhì)量評(píng)估和視頻預(yù)測(cè)。

數(shù)據(jù)集。TGIF-QA提供165K個(gè)動(dòng)畫(huà)GIF的QA對(duì)，MSR-VTT有10,000個(gè)視頻剪輯和字幕，WebVid有1000萬(wàn)視頻剪輯和網(wǎng)絡(luò)字幕，MSVD有12萬(wàn)個(gè)視頻片段描述，DiDeMo有近27,000個(gè)事件時(shí)刻描述，COCO有328K圖像用于對(duì)象檢測(cè)、分割和字幕。

模型和應(yīng)用。對(duì)比語(yǔ)言圖像預(yù)訓(xùn)練（CLIP）利用自然語(yǔ)言監(jiān)督來(lái)訓(xùn)練圖像表示，BLIP提供獨(dú)特的引導(dǎo)方法處理VLP中的噪聲網(wǎng)絡(luò)數(shù)據(jù)，ViLBERT擴(kuò)展BERT架構(gòu)聯(lián)合處理視覺(jué)和文本輸入，VisualBERT通過(guò)Transformer將圖像區(qū)域和語(yǔ)言結(jié)合起來(lái)，允許self-attention識(shí)別隱式的語(yǔ)言-視覺(jué)對(duì)齊。

5.6 事件預(yù)測(cè)應(yīng)用

事件序列，也稱(chēng)為異步時(shí)間序列，在金融、購(gòu)物和社交等領(lǐng)域至關(guān)重要。本小節(jié)將討論用于事件預(yù)測(cè)任務(wù)的主要數(shù)據(jù)集、模型和工具。

數(shù)據(jù)集。亞馬遜和淘寶是兩個(gè)包含用戶產(chǎn)品評(píng)論行為的數(shù)據(jù)集，每個(gè)事件包含時(shí)間戳和類(lèi)別。Retweet、StackOverflow和Taxi是另外三個(gè)事件序列數(shù)據(jù)集，分別包含用戶轉(zhuǎn)發(fā)、用戶問(wèn)題解答和用戶出租車(chē)上車(chē)事件序列。

模型和應(yīng)用。Tick 是經(jīng)典 TPP 統(tǒng)計(jì)學(xué)習(xí)的著名庫(kù)，但存在局限性。為克服這些局限性，研究人員開(kāi)發(fā)了神經(jīng) TPP，利用神經(jīng)網(wǎng)絡(luò)的表達(dá)能力學(xué)習(xí)復(fù)雜依賴關(guān)系。EasyTPP 是神經(jīng)事件序列建模領(lǐng)域的首個(gè)開(kāi)源研究資產(chǎn)中央存儲(chǔ)庫(kù)，提供流行神經(jīng) TPP 實(shí)現(xiàn)、豐富模塊庫(kù)、統(tǒng)一數(shù)據(jù)集界面和易于使用擴(kuò)展的評(píng)估程序。

5.7 其他

除了前面提到的具體應(yīng)用之外，時(shí)間序列預(yù)測(cè)、分類(lèi)和異常檢測(cè)也是電力、云計(jì)算、零售等領(lǐng)域的普遍應(yīng)用領(lǐng)域。

數(shù)據(jù)集。ETT（電力變壓器溫度）包含中國(guó)兩個(gè)縣的變壓器兩年溫度數(shù)據(jù)；M4提供100,000個(gè)時(shí)間序列；Electricity【309】含近四年家庭電力消耗數(shù)據(jù)；阿里巴巴集群跟蹤捕獲24小時(shí)共置工作負(fù)載統(tǒng)計(jì)數(shù)據(jù)；TSSB（時(shí)間序列分割基準(zhǔn)）擁有75個(gè)注釋時(shí)間序列；UCR時(shí)間序列分類(lèi)檔案數(shù)據(jù)集從85個(gè)擴(kuò)展到128個(gè)系列。

通用工具和庫(kù)。OpenSTL 是時(shí)空預(yù)測(cè)學(xué)習(xí)的基準(zhǔn)，涵蓋廣泛方法和任務(wù)。BasicTS 是基于 PyTorch 的基準(zhǔn)測(cè)試和工具箱，用于時(shí)間序列預(yù)測(cè)。Merlion 是開(kāi)源機(jī)器學(xué)習(xí)庫(kù)，支持單變量和多元模型。darts 是專(zhuān)為時(shí)間序列預(yù)測(cè)和異常檢測(cè)設(shè)計(jì)的 Python 庫(kù)。PyTorch Geometric Temporal 是 PyTorch Geometric 的動(dòng)態(tài)擴(kuò)展庫(kù)，支持各種功能。

6 展望

在本節(jié)中，我們討論了當(dāng)前研究的潛在局限性，并強(qiáng)調(diào)了未來(lái)六大研究方向，旨在開(kāi)發(fā)更強(qiáng)大、透明和可靠的大規(guī)模時(shí)序數(shù)據(jù)分析模型。

6.1 大模型的理論分析

大型語(yǔ)言模型（LLM）主要處理自然語(yǔ)言，但最近的研究將其擴(kuò)展到時(shí)間序列和時(shí)空任務(wù)。LLM的學(xué)習(xí)表示可被微調(diào)以捕捉時(shí)序數(shù)據(jù)模式。然而，LLM作為“黑匣子”，其預(yù)測(cè)和決策背后的數(shù)據(jù)影響難以理解。需要進(jìn)行更深入的理論分析，以了解語(yǔ)言和時(shí)序數(shù)據(jù)之間的潛在模式相似性，以及如何有效地將其用于特定的時(shí)間序列和時(shí)空任務(wù)。

6.2 多模式模型的開(kāi)發(fā)

現(xiàn)實(shí)世界應(yīng)用中的時(shí)間序列和時(shí)空數(shù)據(jù)通常帶有文本描述等補(bǔ)充信息，這在經(jīng)濟(jì)學(xué)和金融等領(lǐng)域尤其有用。LLM可以適應(yīng)學(xué)習(xí)聯(lián)合表示，考慮時(shí)間數(shù)據(jù)的順序性質(zhì)和其他模態(tài)的獨(dú)特特征，以及不同模態(tài)的時(shí)間分辨率差異，以充分利用來(lái)自不同時(shí)間分辨率的所有信息，獲得更好的性能。

6.3 持續(xù)學(xué)習(xí)和適應(yīng)

現(xiàn)實(shí)世界應(yīng)用需要研究模型適應(yīng)非平穩(wěn)環(huán)境的能力，避免災(zāi)難性遺忘。雖然已有一些研究關(guān)注常見(jiàn)模型中的這些問(wèn)題，但大型模型持續(xù)適應(yīng)不斷變化的時(shí)間數(shù)據(jù)，包括在線學(xué)習(xí)策略、適應(yīng)概念漂移以及適應(yīng)數(shù)據(jù)中不斷演化的模式，仍未被充分探索。

6.4 可解釋性和可解釋性

理解LLM預(yù)測(cè)時(shí)間序列的原因至關(guān)重要，特別是在醫(yī)療和金融領(lǐng)域。目前對(duì)LLM內(nèi)部理解有限，因此需要建立理論框架以理解LLM所學(xué)，并研究如何增強(qiáng)大型模型以執(zhí)行時(shí)間推理和推斷因果關(guān)系。這包括開(kāi)發(fā)識(shí)別因果關(guān)系的方法，對(duì)于根本原因分析和干預(yù)計(jì)劃等應(yīng)用至關(guān)重要。

6.5 大型模型的隱私和對(duì)抗性攻擊

時(shí)態(tài)數(shù)據(jù)敏感，LLM訓(xùn)練可能泄露隱私。研究隱私保護(hù)技術(shù)（如差分隱私和聯(lián)邦學(xué)習(xí)），確保數(shù)據(jù)隱私，同時(shí)受益于LLM在時(shí)間序列和時(shí)空分析方面的強(qiáng)大功能。

6.6 模型泛化和漏洞

LLM在通用數(shù)據(jù)上預(yù)訓(xùn)練，并在特定任務(wù)上微調(diào)。微調(diào)數(shù)據(jù)中的對(duì)抗性或噪聲示例可能導(dǎo)致模型存在漏洞。如果微調(diào)數(shù)據(jù)未經(jīng)過(guò)仔細(xì)整理，模型可能繼承偏見(jiàn)或漏洞，導(dǎo)致魯棒性受損。此外，LLM在大量數(shù)據(jù)集上訓(xùn)練，但可能無(wú)法很好地推廣到新數(shù)據(jù)。時(shí)間序列和時(shí)空數(shù)據(jù)可能突然變化或趨勢(shì)，LLM在訓(xùn)練期間未遇到類(lèi)似模式，可能會(huì)產(chǎn)生不可靠的輸出，強(qiáng)調(diào)魯棒泛化的需求。

2.2 預(yù)訓(xùn)練基礎(chǔ)模型

2.3 時(shí)間序列和時(shí)空數(shù)據(jù)

3 時(shí)間序列數(shù)據(jù)的大模型

3.1 時(shí)間序列中的大語(yǔ)言模型（LLM4TS）

3.2 時(shí)間序列中的預(yù)訓(xùn)練基礎(chǔ)模型（PFM4TS）

4 時(shí)空數(shù)據(jù)的大型模型

4.1 時(shí)空?qǐng)D（STG）

4.2 時(shí)序知識(shí)圖譜

4.3 視頻

5 資源和應(yīng)用

5.1 交通應(yīng)用

5.2 醫(yī)療保健應(yīng)用

5.3 天氣應(yīng)用

5.4 金融應(yīng)用

5.5 視頻應(yīng)用

5.6 事件預(yù)測(cè)應(yīng)用

5.7 其他

6 展望

6.1 大模型的理論分析

6.2 多模式模型的開(kāi)發(fā)

6.3 持續(xù)學(xué)習(xí)和適應(yīng)

6.4 可解釋性和可解釋性

6.5 大型模型的隱私和對(duì)抗性攻擊

6.6 模型泛化和漏洞

最新文章