Transformer因其捕捉长序列交互的能力而在时间序列预测中备受青睐。然而,尽管计算感知的自注意力模块取得了许多进展,但其对内存和计算的需求仍然是长期预测的一个关键瓶颈。
最近,来自IBM研究机构的研究者们为了解决上述问题,提出了TSMixer,这是一种轻量级的仅由多层感知机(MLP)模块组成的神经架构。TSMixer的灵感来自于在计算机视觉中成功使用的MLP-Mixer模型,并且特别为时间序列数据设计。研究者强调了在将MLP-Mixer应用于时间序列数据时所面临的挑战,并提出了一些创新的组件来提高准确性。这些组件包括在线协调头,用于建模时间序列的属性,如层次结构和通道相关性,一种混合通道建模方法来处理噪声通道相互作用,以及一种门控注意力机制来优先处理重要特征。
目前,该工作被数据挖掘领域顶级会议KDD 2023收录。那么,具体方法是什么样?本文将为大家简要介绍。
论文地址:https://arxiv.org/abs/2306.09364
论文源码:暂未公布
训练方法
01
训练方法
监督训练:
通过“预测”工作流进行训练。首先,输入的历史时间序列经过一系列的转换(归一化、分块和排列)。然后,进入TSMixer主干进行主要的学习过程。预测头将主干的输出嵌入转换为基础预测值。模型可以通过最小化基础预测的均方误差(MSE):
来进行训练。
自监督训练:
分为两个阶段。首先,使用自监督目标对模型进行预训练。(参见图1中的“pretrain”工作流程)然后,通过监督训练流程对预训练模型进行微调。自监督预训练在NLP、视觉和时间序列任务中已被证明是有效的。在本文中,采用了掩码时间序列建模(MTSM)任务作为自监督目标。
图1: 高级模型体系结构
MTSM任务会随机对输入patches应用掩码,并训练模型从未被掩码的输入patches中恢复被掩码的patches。预训练工作流程中的其他输入变换与预测工作流程中的相同。MTSM任务最小化了被掩码patches上的MSE重构误差。由于TSMixer的模块化设计,它可以通过仅更改模型头(并保持backbone不变)来用于有监督或自监督训练。
02
模型组件
本文中,研究者讨论了为了提高性能而引入到基本的MLP-Mixer模型中的建模组件。高级架构如图1所示。对于随机梯度下降(SGD),每个小批量数据
是通过移动窗口技术从𝑿中生成的。图1展示了一个小批量数据的前向传播过程以及其形状。
实例归一化。输入时间序列段通过可逆实例归一化(RevIN)进行处理。RevIN对数据分布进行标准化(即去除均值并除以标准差),以解决时间序列中的数据偏移问题。
Patching。每个单变量时间序列被分割成具有步长𝑠的重叠/非重叠patch。对于自监督训练流,patch必须是严格非重叠的。小批量
被重塑为
,其中𝑝𝑙表示patch长度,𝑛是patch数量(因此,𝑛=⌊(𝑠𝑙−𝑝𝑙)/𝑠⌋+1)。然后将patch后的数据排列为
并将其输入到TSMixer主干模型中。Patching将模型输入tokens的数量减少了𝑠倍,因此与标准的点对点Transformer方法相比,显著提高了模型运行时间性能。
TSMixer主干网络。研究者提出了两种新型主干网络:通道独立的骨干网络(CI-TSMixer)和跨通道骨干网络(IC-TSMixer)。它们在MLP混合层架构上有所不同。CI-TSMixer骨干网络受到PatchTST模型的启发,其中MLP混合层在通道之间共享,迫使模型在通道之间共享可学习的权重。这导致模型参数减少。在IC-TSMixer中,骨干网络中激活了一个额外的跨通道混合模块,以显式捕获跨通道依赖性。
MLP Mixer层。TSMixer主干堆叠了一组混合层,类似于Transformer中的编码器堆叠。直观上,每个混合层(图2b)试图学习三个不同方向上的相关性:(1)不同patch之间,(2)一个patch内的隐藏特征之间,(3)不同通道之间。前两个混合方法是从视觉MLP-Mixer中采用的,而最后一个是为多变量时间序列数据特别提出的。跨patch混合模块使用共享MLP(权重维度=𝑛×𝑛)来学习不同patch之间的相关性。intra patch混合块共享的MLP层混合了隐藏特征的维度,因此权重矩阵的维度为ℎ𝑓×ℎ𝑓。
图2:TSMixer 中的不同主干网和mixer layers的组织架构
门控注意力(GA)块。时间序列数据往往有很多令人困惑的重要特征。为了有效地过滤掉这些特征,研究者在每个混合组件的MLP块后添加了一个简单的门控注意力。GA起到一个简单的门控函数的作用,基于其特征值,以概率方式放大主要特征并缩小不重要的特征。通过将注意力权重与从混合模块中获得的隐藏张量进行点积运算,可得到门控注意力的输出:
(如图3b)。使用标准混合操作增强GA可以有效地引导模型关注重要特征,从而改善长期交互建模,而无需复杂的多头自注意力。
图3: 论文的 MLP block 设计对比原始的 MLP-Mixer
模型头。基于训练方法(即监督学习或自监督学习),要么向主干添加预测头,要么添加预训练头。两个头都采用简单的线性层,并在将所有patch的隐藏特征展平后使用dropout(如图4)。默认情况下,头在通道间共享相同的权重。预测头的输出是预测的多变量时间序列(
),而预训练头的输出是与输入相同维度的多变量序列(
)。
图4: 预训练与推理预测中的head
Forecast online reconciliation。研究者提出两种新的方法(在预测工作流中,请参见图1)来调整原始预测,即
,基于时间序列数据的两个重要特征:固有的时间层次结构和跨通道依赖性。研究者所提出的TSMixer模型可以激活其中任意一个或两个特征,以获得reconciled预测。
实验设置
在数据集处理方面,研究者使用了7个流行的多元数据集对所提出的TSMixer模型进行了性能评估,这些数据集在文献[1][2][3]中广泛用于基准测试多元预测模型,并可在[4]中公开获得。研究者遵循与[1]相同的参数设置(例如训练/验证/测试拆分比例)。
[1] Yuqi Nie, Nam H. Nguyen, Phanwadee Sinthong, and Jayant Kalagnanam. 2022. A Time Series is Worth 64 Words: Long-term Forecasting with Transformers.
https://doi.org/10.48550/ARXIV.2211.14730
[2] Ailing Zeng, Muxi Chen, Lei Zhang, and Qiang Xu. 2022. Are Transformers Effective for Time Series Forecasting? arXiv preprint arXiv:2205.13504(2022).
https://arxiv.org/pdf/2205.13504.pdf
[3] Haixu Wu, Jiehui Xu, Jianmin Wang, and Mingsheng Long. 2021. Autoformer:
Decomposition Transformers with Auto-Correlation for Long-Term Series Forecasting. In Advances in Neural Information Processing Systems.
[4] Ailing Zeng, Muxi Chen, Lei Zhang, and Qiang Xu. 2022. Github Repo: Are Transformers Effective for Time Series Forecasting? arXiv preprint arXiv:2205.13504(2022). https://github.com/cure-lab/LTSF-Linear
该论文的实验部分主要比较了TSMixer模型与其他基准模型在多变量时间序列预测任务上的性能。首先,比较了不同的通道混合技术,结果表明CI-TSMixer模型在均方误差(MSE)指标上相对于V-TSMixer模型有13.5%的改进(见表1)。
表1: 通道混合技术比较 (MSE)
研究者还将TSMixer模型与其他自监督学习的基准模型进行了比较,结果显示CI-TSMixer-Best模型相对于现有的基准模型在预测准确性上有50-70%的改进(见表2)。
表2:通过表征学习进行预测 (MSE)
此外,论文还分析了TSMixer模型中的各个关键组件和设计选择的影响,例如通道独立性、门控注意力和层次调和等。总体而言,TSMixer模型通过引入通道独立性和其他增强组件,在多变量时间序列预测任务中取得了较好的性能改进。
总结
研究者在受到视觉领域MLP-Mixers成功启发后,提出了TSMixer,这是一种纯粹设计的MLP架构,具有经验上验证的针对时间序列的特定增强功能,用于多元预测和表示学习。特别是研究者引入了一种新的混合架构,将各种reconciliation heads和Gated attention增强到通道独立的骨干网络中,这极大地增强了简单MLP结构的学习能力,使其超越了复杂的Transformer模型。
通过广泛的实验,研究者表明TSMixer显著减少了计算资源,且优于所有流行的基准。在未来的工作中,研究者计划将TSMixer扩展到其他下游任务(如分类、异常检测等),并提高跨数据集的转移学习能力。
Theory of Evolutionary Computation – Recent Developments in Discrete Optimization