一级毛片视频xx,国产精品一区二区三区高清在线 ,九九精品在线播放

圖1 Chronos的高層次描述。（左）輸入時間序列被縮放和量化以獲得一系列令牌。（中）令牌被饋送到語言模型中，該模型可以是編碼器-解碼器模型或解碼器模型。使用交叉熵?fù)p失訓(xùn)練模型。（右）在推理期間，我們從模型自動采樣的令牌并將其映射回數(shù)值值。從模型中采樣多個軌跡以獲得預(yù)測分布

Chronos使用分類模型對觀測值進(jìn)行分類分布建模，執(zhí)行回歸分類。該模型不需要針對時間序列進(jìn)行特定設(shè)計或特征，而是將時間序列值標(biāo)記化到固定詞匯表上，并在這些標(biāo)記上訓(xùn)練現(xiàn)有的語言模型架構(gòu)。其他時間序列任務(wù)。最近的研究已經(jīng)研究了適用于時間序列任務(wù)的一般性模型，包括填補(bǔ)、預(yù)測、分類和異常檢測。這些模型基于CNN的Inception模型和掩碼預(yù)訓(xùn)練框架，將一維時間序列轉(zhuǎn)換為二維圖像表示，并基于周期性對時間序列進(jìn)行分段和堆疊。這些模型在未見過的時間序列數(shù)據(jù)上表現(xiàn)出色，可以應(yīng)用于預(yù)測之外的任務(wù)，如分類和異常檢測。

2 工作背景及相關(guān)工作時間序列預(yù)測

可以使用經(jīng)典預(yù)測方法和深度學(xué)習(xí)方法，其中經(jīng)典預(yù)測方法如ETS、ARIMA等為每個時間序列獨立地擬合模型，而深度學(xué)習(xí)方法在給定的數(shù)據(jù)集中學(xué)習(xí)時間序列。這些方法在建模目標(biāo)上有所不同，一些模型直接預(yù)測一組分位數(shù)，而其他模型則建模密度函數(shù)。并非所有模型都產(chǎn)生概率預(yù)測。

大型語言模型（LLM）在自然語言處理任務(wù)中表現(xiàn)出色，基于transformer架構(gòu)，通常在文本語料庫上進(jìn)行訓(xùn)練，參數(shù)數(shù)量從數(shù)百萬到數(shù)百億不等。它們旨在通過建模條件分布來預(yù)測下一個標(biāo)記。目前，BART和T5等模型在許多流行的語言模型中。建議讀者參考Zhao等人（2023年）的最新研究。

基于預(yù)訓(xùn)練LLM的預(yù)測模型包括將數(shù)值時間序列數(shù)據(jù)視為原始文本，利用預(yù)訓(xùn)練的LLM進(jìn)行微調(diào)，或?qū)?shù)值數(shù)據(jù)編碼為數(shù)字字符串，在預(yù)訓(xùn)練的LLM上進(jìn)行零樣本設(shè)置來獲取預(yù)報。其中，周等（2023a）提出了一種通用的“一刀切”模型，使用預(yù)訓(xùn)練的GPT-2模型作為骨干，僅對位置嵌入和層歸一化的參數(shù)進(jìn)行微調(diào)以適應(yīng)每個任務(wù)。此外，還有重新利用LLM進(jìn)行時間序列預(yù)報的方法，如將時間序列補(bǔ)丁嵌入與文本原型對齊，并將這些對齊嵌入和描述任務(wù)的自然語言前綴提示給凍結(jié)的LLM。而Chronos從頭開始訓(xùn)練語言模型在一個大型時間序列集合上，通過縮放和量化進(jìn)行標(biāo)記化。

零樣本學(xué)習(xí)。Chronos模型是一種概率性的時間序列預(yù)測方法，它使用分類模型對觀測值進(jìn)行分類分布建模，執(zhí)行回歸分類。該模型不需要針對時間序列進(jìn)行特定設(shè)計或特征，而是將時間序列值標(biāo)記化到固定詞匯表上，并在這些標(biāo)記上訓(xùn)練現(xiàn)有的語言模型架構(gòu)。

其他時間序列任務(wù)。最近的研究已經(jīng)研究了適用于時間序列任務(wù)的一般性模型，包括填補(bǔ)、預(yù)測、分類和異常檢測。這些模型基于CNN的Inception模型和掩碼預(yù)訓(xùn)練框架，將一維時間序列轉(zhuǎn)換為二維圖像表示，并基于周期性對時間序列進(jìn)行分段和堆疊。這些模型在未見過的時間序列數(shù)據(jù)上表現(xiàn)出色，可以應(yīng)用于預(yù)測之外的任務(wù)，如分類和異常檢測。

3 Chronos：用于時間序列的語言建模框架

Chronos是一個框架，用于調(diào)整現(xiàn)有語言模型架構(gòu)和訓(xùn)練過程以進(jìn)行概率時間序列預(yù)測。盡管語言和時間序列都是順序的，但它們在表示上存在差異，自然語言由有限詞匯量的單詞組成，而時間序列是實值的。這種差異需要對現(xiàn)有語言建模框架進(jìn)行特定修改，特別是與分詞有關(guān)的修改，以便它們適用于時間序列數(shù)據(jù)。然而，由于現(xiàn)有的變換器模型在語言任務(wù)上表現(xiàn)出色，Chronos的設(shè)計理念是進(jìn)行最小化的修改。

3.1 時間序列標(biāo)記

考慮時間序列x1:C+H，其中前C個步驟是歷史上下文，后H個步驟是預(yù)測時域。由于語言模型處理有限令牌，我們需要將實值觀察值xi∈R映射到令牌集合。這涉及縮放和量化。為優(yōu)化深度學(xué)習(xí)模型，我們標(biāo)準(zhǔn)化時間序列，選擇均值縮放，將每個條目按歷史上下文的平均絕對值標(biāo)準(zhǔn)化。量化則是將實值轉(zhuǎn)換為離散令牌，使用B個bin中心和邊界。我們選擇數(shù)據(jù)無關(guān)的一致binning，以避免未見數(shù)據(jù)集與訓(xùn)練分布的差異。時間序列詞匯表Vts包括令牌{1, 2, …, B}以及PAD和EOS特殊標(biāo)記，用于填充缺失值、標(biāo)識序列結(jié)束。雖然時間和頻率信息常用于時間序列建模，但在Chronos中，我們只考慮序列本身。我們主要關(guān)注編碼器-解碼器T5模型的各種變體（Raffel等，2020），并額外使用GPT-2模型（Radford等，2019）進(jìn)行實驗，證明方法可擴(kuò)展至僅解碼器模型。為量化調(diào)整bin數(shù)量，需調(diào)整語言模型詞匯量，涉及截斷或擴(kuò)展輸入輸出嵌入層。

3.2 目標(biāo)函數(shù)

Chronos模型使用分類交叉熵?fù)p失函數(shù)，將分詞時間序列作為輸入，預(yù)測下一個詞的分類分布。Chronos模型的目標(biāo)是最小化真實標(biāo)簽的分布和預(yù)測分布之間的交叉熵。損失函數(shù)為：?(θ) = -H+1 X h=1 |Vts| X i=1 1(zC+h+1=i) log pθ(zC+h+1 = i|z1:C+h)。其中pθ(zC+h+1 = i|z1:C+h)表示由模型參數(shù)化θ預(yù)測的分類分布。分類交叉熵?fù)p失不是距離感知的目標(biāo)函數(shù)，而是根據(jù)訓(xùn)練數(shù)據(jù)集中桶索引的分布將相鄰?fù)瓣P(guān)聯(lián)在一起。Chronos通過分類進(jìn)行回歸，與典型的概率時間序列預(yù)測模型不同。選擇分類輸出分布有兩個關(guān)鍵優(yōu)勢：不需要修改語言模型架構(gòu)或訓(xùn)練目標(biāo)，允許模型學(xué)習(xí)任意分布，包括多模態(tài)分布。

3.3 預(yù)測

時序模型通過自回歸采樣，捕捉預(yù)測分布的未來多種可能性，并精確映射預(yù)測令牌到實際值。反標(biāo)化階段調(diào)整預(yù)測值，與原始數(shù)據(jù)尺度保持一致。在均值標(biāo)定情境下，通過乘以適當(dāng)?shù)某叨纫蜃觭，確保預(yù)測結(jié)果既準(zhǔn)確又實用。

4 數(shù)據(jù)增強(qiáng)

公共時間序列數(shù)據(jù)在自然語言處理領(lǐng)域的相對匱乏，可以通過混合增強(qiáng)數(shù)據(jù)多樣性和使用合成數(shù)據(jù)來補(bǔ)充訓(xùn)練來解決零樣本預(yù)測模型面臨的挑戰(zhàn)。

4.1 TSMix：時間序列混合器

混合時間序列數(shù)據(jù)增強(qiáng)方法（TSMix）是一種將Mixup思想擴(kuò)展到超過兩個數(shù)據(jù)點的時間序列領(lǐng)域的數(shù)據(jù)增強(qiáng)方案。它從訓(xùn)練數(shù)據(jù)集中隨機(jī)采樣特定長度的時間序列，對其進(jìn)行縮放，并取其凸組合，生成示例增強(qiáng)。該方法通過混合來自不同時間序列的模式來增強(qiáng)數(shù)據(jù)的多樣性，有助于緩解深度學(xué)習(xí)模型中的過度擬合和過擬合問題。該方法還展示了如何混合不同的模式，并生成示例增強(qiáng)。

圖2 k={1,2,3}時的TSmix增強(qiáng)示例。TSmix通過從不同數(shù)據(jù)集隨機(jī)抽樣的時間序列中取加權(quán)的組合來提高模式多樣性

4.2 KernelSynth：使用高斯過程生成合成數(shù)據(jù)

KernelSynth是一種使用高斯過程生成合成時間序列的方法，通過隨機(jī)組合高斯過程的核函數(shù)來生成新的時間序列。核函數(shù)指定了協(xié)方差函數(shù)，可以生成各種模式。我們構(gòu)建了一個基核函數(shù)的集合，包括用于趨勢的線性核，用于平滑局部變化的RBF核，以及用于在典型時間序列頻率中找到季節(jié)性的周期性核。合成時間序列是通過從GP先驗中抽取樣本來生成的。這種方法可以補(bǔ)充訓(xùn)練數(shù)據(jù)集。

圖3 （a）KernelSynth的示意圖，KernelSynth是一種基于高斯過程（GP）的合成時間序列生成方法。從核庫中采樣核函數(shù)，然后使用二進(jìn)制操作（×或+）隨機(jī)組合。生成的合成時間序列在高斯過程的前置中使用了組合后的核函數(shù)。圖中展示了每個步驟中來自不同核函數(shù)的隨機(jī)樣本，顏色分別為紅色和藍(lán)色。（b）KernelSynth生成的合成時間序列示例

5 實驗

這一部分展示了常用基準(zhǔn)數(shù)據(jù)集的實驗結(jié)果。首先，概述了數(shù)據(jù)集、訓(xùn)練策略、基準(zhǔn)和評估指標(biāo)。接著，評估了Chronos模型在領(lǐng)域內(nèi)和零樣本設(shè)置下的性能，并與局部模型和特定任務(wù)深度學(xué)習(xí)模型進(jìn)行了比較。然后，分析了各種設(shè)計選擇對Chronos模型性能的影響。最后，分析了Chronos模型的定性性能，并強(qiáng)調(diào)了其局限性。實驗細(xì)節(jié)已歸入附錄。

5.1 數(shù)據(jù)集

為了訓(xùn)練和評估Chronos模型，我們收集了來自多個應(yīng)用領(lǐng)域的大量公開可用數(shù)據(jù)集，包括能源、運輸、醫(yī)療保健、零售、網(wǎng)絡(luò)、天氣、金融等。數(shù)據(jù)集總共有55個，來自多個來源，包括莫納什時間序列預(yù)測存儲庫、M競賽和Kaggle上的公共領(lǐng)域數(shù)據(jù)集。我們將數(shù)據(jù)集分類為三類：僅用于訓(xùn)練的數(shù)據(jù)集（13個），用于訓(xùn)練和評估的基準(zhǔn)I數(shù)據(jù)集（15個），僅用于評估的基準(zhǔn)II數(shù)據(jù)集（27個）。我們使用28個數(shù)據(jù)集來訓(xùn)練Chronos模型，包括約89萬個一維時間序列，總共有約84億個觀察值。對于域內(nèi)（I）和零樣本（II）基準(zhǔn)數(shù)據(jù)集，我們使用每個時間序列的最后H觀察值作為留出測試集，所有模型的準(zhǔn)確性都通過它們在留出集合上的預(yù)測來判斷。預(yù)測長度H是任務(wù)特定的，我們將任務(wù)定義為數(shù)據(jù)集和預(yù)測長度的配對。兩個基準(zhǔn)的任務(wù)在數(shù)據(jù)集大小、頻率、歷史長度和預(yù)測長度方面表現(xiàn)出不同的屬性，使其成為豐富的基準(zhǔn)，反映了現(xiàn)實世界的場景。

5.2 訓(xùn)練策略

我們選擇了T5作為Chronos的主要架構(gòu)，因為它有多種尺寸可供選擇。我們訓(xùn)練了T5模型4種尺寸，分別為Mini（20M）、Small（46M）、Base（200M）和Large（710M），以及GPT-2基礎(chǔ)模型（90M）。我們在由28個訓(xùn)練數(shù)據(jù)集生成的10M TSMix增強(qiáng)上訓(xùn)練了這些模型，并在訓(xùn)練過程中從增強(qiáng)數(shù)據(jù)和合成數(shù)據(jù)中采樣時間序列的比例為9:1。每個模型使用實際批次大小為256個序列進(jìn)行訓(xùn)練，使用分布式數(shù)據(jù)并行和梯度積累。我們使用AdamW優(yōu)化器，使用權(quán)重衰減為0.01的Adam優(yōu)化器對模型進(jìn)行了為期200K步的訓(xùn)練。學(xué)習(xí)率在訓(xùn)練步驟中從初始值0.001線性降至0。我們使用具有8個A100（40GB）GPU的AWS EC2實例來訓(xùn)練所有Chronos模型。

5.3 基準(zhǔn)值

我們評估了Chronos模型的性能，并將其與多種時間序列預(yù)測基準(zhǔn)進(jìn)行了比較。這些基準(zhǔn)包括天真模型、季節(jié)性天真模型、自動ETS、自動ARIMA和AutoTheta等統(tǒng)計預(yù)測模型，以及WaveNet、DeepAR、N-BEATS、TFT、DLinear、PatchTST、N-HiTS和GPT4TS等神經(jīng)預(yù)測模型。我們還評估了ForecastPFN，這是一個僅使用合成時間序列數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練的轉(zhuǎn)換器模型。我們將Chronos模型和基準(zhǔn)分為三組：本地模型、任務(wù)特定模型和預(yù)訓(xùn)練模型。更多詳細(xì)信息請參閱附錄C。

5.4 評估指標(biāo)

我們評估了模型的概率和點預(yù)報性能，使用加權(quán)分位數(shù)損失（WQL）評估概率預(yù)報，平均絕對比例誤差（MASE）評估點預(yù)報。WQL衡量預(yù)測分布與地面真實觀察的兼容性，針對9個分位數(shù)級別計算。分位數(shù)預(yù)報器直接在這些分位數(shù)級別上進(jìn)行訓(xùn)練，對于需要采樣的方法，使用20個樣本預(yù)報路徑來估計分位數(shù)。MASE定義為預(yù)報的絕對誤差與時間序列的歷史季節(jié)誤差之比。對于概率預(yù)報器，我們使用中位數(shù)預(yù)報（0.5分位數(shù)）來計算MASE。我們采用幾何平均值聚合分?jǐn)?shù)，因為其對基準(zhǔn)的選擇不敏感，且模型排序保持不變。對于無法完成評估的模型，我們賦予其相對分?jǐn)?shù)為1。我們在匯總過程中給所有任務(wù)賦予了相同的權(quán)重。

5.5 主要結(jié)果

本節(jié)展示了42個數(shù)據(jù)集上的主要結(jié)果，包括Benchmark I（15個數(shù)據(jù)集）和Benchmark II（27個數(shù)據(jù)集）。Chronos模型在內(nèi)部域數(shù)據(jù)集（Benchmark I）上超過了經(jīng)典統(tǒng)計基線和特定任務(wù)的深度學(xué)習(xí)模型。在零樣本數(shù)據(jù)集（Benchmark II）上，Chronos模型超過了統(tǒng)計基線，與最佳深度學(xué)習(xí)模型表現(xiàn)相當(dāng)。通過微調(diào)方案，Chronos-T5（Small）模型在Benchmark II上取得了最佳成績，顯著超過所有基線。

5.5.1 基準(zhǔn)I：域內(nèi)結(jié)果

基準(zhǔn)I包含15個數(shù)據(jù)集，用于評估Chronos模型的領(lǐng)域內(nèi)性能。所有模型在留出的測試窗口上的概率和點預(yù)測性能，以聚合相對分?jǐn)?shù)和平均排名為指標(biāo)。Chronos-T5模型（基礎(chǔ)版和大模型）顯著優(yōu)于基準(zhǔn)模型，獲得了最佳的聚合相對分?jǐn)?shù)和平均排名。Chronos-T5模型的小型版本（Mini和Small）以及Chronos-GPT2也優(yōu)于大多數(shù)基準(zhǔn)模型。這些結(jié)果表明，使用跨多個數(shù)據(jù)集僅進(jìn)行一次訓(xùn)練的模型比為每個任務(wù)單獨訓(xùn)練的任務(wù)特定模型更有優(yōu)勢。這種模型可以通過消除為每個任務(wù)訓(xùn)練單獨模型的必要性，簡化生產(chǎn)預(yù)測系統(tǒng)中的預(yù)報工作。

圖4 在基準(zhǔn)I上的不同模型性能，包括15個數(shù)據(jù)集，這些數(shù)據(jù)集也包含在Chronos模型的訓(xùn)練數(shù)據(jù)中。基準(zhǔn)展示了Chronos模型相對于本地統(tǒng)計模型在域內(nèi)性能，這些模型為每個時間序列單獨擬合參數(shù)，以及針對每個任務(wù)專門訓(xùn)練的模型。使用季節(jié)性樸素貝葉斯基線的分?jǐn)?shù)對概率（WQL）和點（MASE）預(yù)報指標(biāo)進(jìn)行歸一化，并通過幾何平均值聚合以獲得聚合相對WQL和MASE。Chronos和任務(wù)特定模型（除GPT4TS外）的平均結(jié)果涵蓋了3個隨機(jī)種子。僅根據(jù)MASE對產(chǎn)生點預(yù)報的模型（GPT4TS）進(jìn)行比較。

5.5.2 基準(zhǔn)II：零樣本結(jié)果

基準(zhǔn)II由27個數(shù)據(jù)集組成，這些數(shù)據(jù)集在Chronos模型訓(xùn)練過程中未被使用過，用于評估模型的零樣本性能。Chronos模型在基準(zhǔn)II上的表現(xiàn)優(yōu)于本地統(tǒng)計模型，在概率預(yù)報方面取得第二和第三名，點預(yù)測性能排名第三。Chronos模型還顯著優(yōu)于ForecastPFN和GPT4TS。微調(diào)后的Chronos-T5（小型）模型在基準(zhǔn)II上總體排名第一，超過了更大的（零樣本）Chronos模型和最佳特定任務(wù)模型。

圖5 在基準(zhǔn)II上的不同模型性能，包含在訓(xùn)練過程中沒有看到Chronos模型的27個數(shù)據(jù)集。基準(zhǔn)提供了對Chronos模型與本地統(tǒng)計模型、針對每個時間序列單獨擬合參數(shù)的任務(wù)特定模型以及預(yù)訓(xùn)練ForecastPFN模型的零樣本性能的見解。概率性（WQL）和點（MASE）預(yù)報度量值使用季節(jié)性樸素貝葉斯基線的分?jǐn)?shù)進(jìn)行歸一化，并通過幾何平均值聚合以獲得聚合相對WQL和MASE，分別進(jìn)行比較。Chronos和任務(wù)特定模型（除GPT4TS）的性能結(jié)果平均了3個隨機(jī)種子。僅基于MASE對產(chǎn)生點預(yù)報的模型（GPT4TS和ForecastPFN）進(jìn)行比較。

圖6 在來自基準(zhǔn)II的各個數(shù)據(jù)集上進(jìn)行微調(diào)時，Chronos-T5（小型）相對于零樣本性能顯著提升，并且平均而言成為表現(xiàn)最佳的模型（見圖5）。

5.6 超參數(shù)分析

我們研究了不同設(shè)計選擇，如模型大小、初始化、訓(xùn)練步驟、合成數(shù)據(jù)比例、上下文長度和詞匯表大小，對下游模型性能的影響。在每次實驗中，我們只調(diào)整一個參數(shù)，保持其他因素不變，以評估其對Chronos-T5（小型）性能的單獨影響。模型大小：我們試驗了從20M到710M參數(shù)的四種模型大小。發(fā)現(xiàn)隨著模型容量的增加，訓(xùn)練損失逐漸降低，域內(nèi)和零樣本基準(zhǔn)的性能也相應(yīng)提升。這表明更大的模型可能進(jìn)一步提高性能。但考慮到推理時間的限制，我們沒有進(jìn)一步探索更大的模型。

圖7 模型大小。（a）不同大小的Chronos模型訓(xùn)練損失曲線。（b）Chronos模型隨模型大小變化的域內(nèi)和零樣本性能。初始化：我們研究了使用T5語言模型權(quán)重初始化Chronos模型的效果。結(jié)果顯示，隨機(jī)初始化的模型收斂到較低訓(xùn)練損失的趨勢更為明顯。對于大型模型，使用語言模型權(quán)重初始化的模型在初始階段訓(xùn)練損失下降較快，但最終收斂到較高的損失。總體來說，在語言模型背景下，隨機(jī)初始化可能更優(yōu)。

圖8?不同模型大小下，使用語言模型權(quán)重初始化（標(biāo)記為星號）的模型和三個隨機(jī)初始化的模型（標(biāo)記為圓圈）的域內(nèi)和零樣本性能的比較。

圖9 初始化。不同大小的隨機(jī)初始化的Chronos模型與使用語言模型權(quán)重的初始化的Chronos模型之間的訓(xùn)練損失的比較。TSMix增強(qiáng)：我們在TSMix增強(qiáng)的時間序列上訓(xùn)練了Chronos模型，并研究了其對下游性能的影響。結(jié)果顯示，使用TSMix增強(qiáng)的模型在零樣本性能上有所提升，這表明TSMix增強(qiáng)了訓(xùn)練數(shù)據(jù)多樣性，提高了對未見數(shù)據(jù)集的性能。隨著合成數(shù)據(jù)量的增加，零樣本性能進(jìn)一步提升。

圖10 (a)使用TSMix增強(qiáng)訓(xùn)練的Chronos-T5（Small）模型在域內(nèi)和零樣本性能之間的比較，以及沒有TSMix增強(qiáng)的模型。(b)Chronos-T5（Small）模型在訓(xùn)練語料庫中KernelSynth數(shù)據(jù)不同比例下的域內(nèi)和零樣本性能。

合成數(shù)據(jù)比例：我們探索了KernelSynth對下游模型性能的影響。實驗表明，在訓(xùn)練中加入合成數(shù)據(jù)可以提高域內(nèi)和零樣本指標(biāo)的性能。最穩(wěn)定的改進(jìn)出現(xiàn)在大約10%的合成數(shù)據(jù)比例時，進(jìn)一步提高比例通常會降低性能。盡管僅使用合成數(shù)據(jù)訓(xùn)練的模型表現(xiàn)略遜于同時使用真實數(shù)據(jù)的模型，但其絕對性能表現(xiàn)相當(dāng)不錯。

訓(xùn)練步驟：我們對Chronos-T5（小型，46M）進(jìn)行了1百萬步的訓(xùn)練，以研究更長的訓(xùn)練對模型性能的影響。結(jié)果顯示，隨著訓(xùn)練的進(jìn)行，下游模型性能在域內(nèi)和零樣本基準(zhǔn)上均有所提高。這表明，對于更大的模型，更長的訓(xùn)練可能有助于提高性能。

圖11 Chronos-T5（小型）模型在訓(xùn)練步數(shù)、訓(xùn)練上下文長度和詞匯量上的內(nèi)域和零樣本性能隨時間的變化情況。

上下文長度：我們研究了上下文長度對下游性能的影響，通過訓(xùn)練Chronos-T5模型，觀察到隨著上下文長度的增加，性能有所改善。然而，由于大多數(shù)基準(zhǔn)數(shù)據(jù)集頻率較低且時間序列長度小于1000步，需要進(jìn)一步評估更長上下文長度的效果。推測高頻數(shù)據(jù)集可能會受益于更長的上下文，有助于捕捉長期季節(jié)性模式。

詞匯量：我們通過不同詞匯量的Chronos-T5模型訓(xùn)練，發(fā)現(xiàn)隨著詞匯量的增加，點預(yù)測指標(biāo)MASE持續(xù)提高，而WQL在較大詞匯量時開始改善后惡化。MASE與單個系列規(guī)模無關(guān)，與訓(xùn)練損失緊密相關(guān)，而WQL與規(guī)模相關(guān)，表現(xiàn)不太可預(yù)測。這些指標(biāo)特性的討論詳見附錄D。

5.7 定性分析和局限性

在此部分，我們對Chronos模型生成的預(yù)測進(jìn)行定性分析，并指出標(biāo)記化技術(shù)的局限性。我們主要關(guān)注合成時間序列的生成，以進(jìn)行不同類型時序模式的受控分析。如需了解實際數(shù)據(jù)集的預(yù)測，請參考附錄E中的圖22至圖24。

獨立同分布噪聲：我們生成了由兩種高斯觀測值組成的時間序列，并用Chronos-T5（基礎(chǔ)版）進(jìn)行預(yù)測。結(jié)果顯示，模型預(yù)測準(zhǔn)確，80%的預(yù)測區(qū)間與真實區(qū)間相吻合。

圖12 Chronos-T5（基礎(chǔ)版）對合成模式生成的預(yù)測。(a) 噪聲：Chronos對于高斯噪聲生成了合理的預(yù)測，80%的預(yù)測區(qū)間與底層分布區(qū)間匹配（由水平虛線藍(lán)色線表示）。(b) 趨勢：Chronos正確地預(yù)測了線性趨勢（頂部），但對于指數(shù)趨勢（底部）則難以應(yīng)對。(c) 季節(jié)性：Chronos能夠準(zhǔn)確建模不同復(fù)雜程度的季節(jié)性模式（頂部為單季節(jié)性，底部為三季節(jié)性）。(d) 組合模式：Chronos對通過添加（頂部）或乘法（底部）組合趨勢和季節(jié)性模式生成的時間序列進(jìn)行準(zhǔn)確預(yù)測。

趨勢和季節(jié)性：Chronos能夠準(zhǔn)確預(yù)測線性趨勢，但對指數(shù)趨勢的預(yù)測較為困難。當(dāng)上下文不足時，模型在估計趨勢方面可能過于保守。然而，隨著上下文增長，模型能夠準(zhǔn)確識別模式和趨勢。此外，模型在識別季節(jié)性模式方面表現(xiàn)優(yōu)秀。

圖13 當(dāng)上下文不夠長時，Chronos-T5（基礎(chǔ)版）往往會低估趨勢，如經(jīng)典航空旅客數(shù)據(jù)（月度）和24個月預(yù)測時間跨度下的例子所示。上圖：只有120個觀測值作為上下文時，預(yù)測中位數(shù)與前一趨勢相比趨于平緩。下圖：有完整的上下文，即144個觀測值時，預(yù)測更緊密地跟隨趨勢。

自回歸過程：我們對不同階數(shù)的平穩(wěn)AR過程生成的時間序列進(jìn)行了預(yù)測，并將Chronos-T5（基礎(chǔ)版）的預(yù)測結(jié)果與真實AR模型、正確階數(shù)的AR模型和AutoARIMA模型的預(yù)測結(jié)果進(jìn)行了比較。結(jié)果顯示，Chronos在所有四個AR過程中都生成了令人信服的預(yù)測。

圖14 Chronos-T5（基礎(chǔ)版）針對AR(1)和AR(4)過程生成的時序的預(yù)測結(jié)果，與真實世界AR模型、正確階數(shù)的擬合AR模型和AutoARIMA模型生成的預(yù)測結(jié)果進(jìn)行比較。Chronos-T5（基礎(chǔ)版）在這兩種情況下都能生成可信的預(yù)測和預(yù)測區(qū)間。所有AR模型都能正確擬合更簡單的AR(1)過程，并且相對于Chronos-T5（基礎(chǔ)版），具有更好的MSE；然而，在AR(4)過程中，其復(fù)雜性增加，Chronos-T5（基礎(chǔ)版）在真實世界AR模型之后排名第二。

靈活的預(yù)測分布：使用分類分布為Chronos提供了生成不同形狀預(yù)測分布的靈活性。模型輸出的預(yù)測分布形狀各異，包括多模態(tài)分布。

圖15 來自Chronos模型對NN5（每日）、交通和醫(yī)院數(shù)據(jù)集的序列的預(yù)測分布分布圖。每個圖都顯示了五個預(yù)測步驟（h=1，…，5）的預(yù)測分布：密度是通過核密度估計從樣本預(yù)測中獲得的。盡管交叉熵不關(guān)心距離，但模型學(xué)會了估計鄰近標(biāo)記的分布，以及各種形狀的分布，包括多模態(tài)分布。

溢出和精度損失：Chronos的一個限制是其分詞方法（見第3.1節(jié)）。具體來說，標(biāo)記代表的數(shù)據(jù)范圍是[-15s, 15s]，其中s為數(shù)據(jù)的尺度。若s過小，某些觀察值會超出范圍，如圖16a的稀疏系列。而s過大則會導(dǎo)致精度損失，因為接近的值可能被映射到同一標(biāo)記上，如圖16b所示。盡管有這些限制，但第5.5節(jié)的結(jié)果表明，Chronos模型在現(xiàn)實數(shù)據(jù)上表現(xiàn)良好。未來的工作將關(guān)注如何改進(jìn)分詞方法以克服這些邊緣情況。

圖16 由于縮放和量化導(dǎo)致的精度損失。在(a)中，數(shù)據(jù)由每隔n=10、20、50個觀察值（從上到下）的單位尖峰組成：這里的尺度是1/n，因此最大可表示值為15/n。當(dāng)1>15/n時，模型不可能恰當(dāng)?shù)夭蹲降郊夥澹ǔ俗罡咔闆r），因為它們的值沒有被標(biāo)記準(zhǔn)確地代表。在(b)中，數(shù)據(jù)是一個正弦波，它向上移動了μ=1、10、50：這里的尺度是μ，隨著信號的方差相對于μ變得越來越小，標(biāo)記的精度就會下降。

6 討論及展望

Chronos作為實用預(yù)訓(xùn)練時間序列預(yù)測模型的先驅(qū)之一，在綜合測試數(shù)據(jù)集上展示了顯著的零樣本性能，打開了多種研究途徑。

6.1 超越單變量零步預(yù)測

我們在單變量時間序列預(yù)測上評估了Chronos的性能，并發(fā)現(xiàn)它在特定任務(wù)上表現(xiàn)優(yōu)異。雖然可以通過微調(diào)提高性能，但預(yù)測任務(wù)通常需要考慮協(xié)變量。未來研究可探索將協(xié)變量融入預(yù)訓(xùn)練模型中，或結(jié)合其他輕量級模型以提高性能。此外，Chronos也可能有助于其他時間序列分析任務(wù)。

6.2 推斷

Chronos模型的推理速度可能較慢，但其優(yōu)點在于可以部署在各種數(shù)據(jù)集上，簡化了預(yù)測流程。為提高推理速度，可考慮使用優(yōu)化的CUDA內(nèi)核、量化、更快解碼技術(shù)等。同時，長上下文語言模型的發(fā)展也可能提高Chronos在捕捉季節(jié)性模式方面的性能。其他文本語言模型技術(shù)也有望提高預(yù)報質(zhì)量。

圖17 不同模型對單個時間序列預(yù)測的推理時間，對每個數(shù)據(jù)集進(jìn)行了平均，同時突出了模型所需的計算要求。

6.3 數(shù)據(jù)

大模型在大規(guī)模時序數(shù)據(jù)集上訓(xùn)練可獲得出色的性能，但公開時序數(shù)據(jù)有限。為解決此問題，時序社區(qū)需獲取更大規(guī)模的數(shù)據(jù)集，或開發(fā)更好的合成時序生成方法。我們已在這方面取得進(jìn)展，使用高斯過程生成的合成數(shù)據(jù)可改善模型性能。未來研究可進(jìn)一步探索模型失敗模式，并提出改進(jìn)方案以縮小真實數(shù)據(jù)和合成數(shù)據(jù)之間的差距。

本文章轉(zhuǎn)載微信公眾號@算法進(jìn)階