ICLR 2025 | 一行代码!FreDF频域损失稳定提升时间序列预测精度

2025-04-15 发布 · 浏览70次 · 点赞0次 · 收藏0次

图片

本文由浙江大学、中南大学、上海交通大学、Tiktok、北京大学、南洋理工大学联合完成。第一作者王浩为浙江大学硕博连读生,发表NeurIPS、ICLR、KDD、WWW、TOIS等顶级会议和期刊十余篇。通讯作者为北京大学李昊轩助理研究员和南洋理工大学陶大程教授。

时间序列预测在气象预报、工业设备维护、医疗监测等领域具有关键应用价值。本文揭示现有方法忽略了标签序列中的自相关性,导致训练目标有偏。进一步,提出一种基于频域标签训练的新范式——FreDF,只需加入一行代码,即可在主流模型上实现预测精度的稳定提升。

图片
  • 论文标题:FreDF: Learning to Forecast in the Frequency Domain

  • 论文地址:https://openreview.net/forum?id=4A9IdSa1ul

  • 代码地址:https://github.com/Master-PLC/FreDF

被忽视的标签自相关性

时间序列中的自相关性指的是「序列在不同时间步之间的相关性」,在时间序列预测中,这种自相关性既存在于模型的输入序列(历史观测值之间的相关性),也存在于标签序列(不同步标签之间的相关性)。然而,现有方法(如 Transformer、LSTM 等)主要聚焦于输入序列的自相关建模,普遍忽视了标签序列自相关性的影响。

具体而言,主流的直接预测范式(Direct Forecast,DF)通过多任务学习同时预测多步标签,其损失函数为:
图片

其中,图片为标签,图片为预测值。该方法隐式假设标签序列在给定输入时条件独立(这样极大似然才等价于最小化 MSE)。但时间序列预测任务中,标签序列往往呈现显著的自相关性。因此,现有 DF 方法与时序数据生成机制存在失配。 

【形式化】根据定理 3.1:当标签之间的相关系数大于 0 时,DF 方法的损失函数相比对数似然函数有偏。

图片
使用频域标签训练时间序列模型 

Motivation

FreDF 的核心是利用傅里叶变换将标签序列投影到频域。在频域中,不同标签之间的相关性被有效抑制。这一预期符合直觉:频率 k 处的频谱分量一般不依赖于频率 k'<k 处的频谱分量生成。论文中的定理 3.3 进一步验证了这一点。

由于频域中标签之间的相关性被抑制,根据定理 3.1,在频域计算的损失函数(如 MSE、MAE)相对对数似然函数无偏。

图片

                                        图 1. 标签序列中的自相关性分析。

案例分析:图 1(a)展示了自相关性在生成标签序列中的影响:第 t 时刻的标签不仅和输入有关,也和上一时刻的状态有关。图 2(b-d)量化了给定输入后,不同标签在时域和频域的自相关强度。结果表明:标签序列的自相关性在时域中显著,在频域中被抑制

实现方法

Motivation 节启发,FreDF 提出了一种基于频域标签的模型训练方法,具体步骤如下:

  • 使用傅里叶变换将标签序列从时域转换到频域:图片 。标签序列的自相关性在频域中被有效抑制。类似地,将模型的时域预测值由时域变换到频域:图片
  • 计算频域损失:图片
  • 融合时频损失:图片这一步是可选的——频域损失单独使用,即可吃下绝大多数性能收益

FreDF 方法支持多种预测模型(如 Transformer、MLP 等),其实现非常简单:只需在模型的损失函数中添加频域损失即可。以下是一个基于 PyTorch 的简单实现示例,其中 outputs 为模型的时域预测值,batch_y 为标签序列。

# 原时域损失
loss_tmp = ((outputs-batch_y)**2).mean()
# 所提频域损失
loss_feq = (torch.fft.rfft(outputs, dim=1) - torch.fft.rfft(batch_y, dim=1)).abs().mean() 
# 注释1. 频域损失可与时域损失加权融合,也可单独使用,一般均有性能提升,见灵敏度实验部分。
# 注释2. 频域损失使用MAE而不是MSE,是因为不同频谱分量的量级相差非常大。使用MSE会进一步放大这种差异,导致优化过程不稳定。 
图片

                                                                     图 2. FreDF 工作流。

实验结果
图片

FreDF 可以显著提高预测性能。以 ETTm1 数据集为例,FreDF 将 iTransformer 的 MSE 降低了 0.019,这一改进与过去 1.5 年中该数据集性能提升相当(Fedformer 到 TimesNet,MSE 降低了 0.017)。这说明通过处理标签中的自相关性,FreDF 可以显著提升模型的预测性能。

图片

FreDF 在短期预测任务上也有显著提升。在 M4 数据集上,FreDF 增强的 FreTS 在 3 个指标上均平均优于原生 FreTS 和基线模型。FreDF 在长期和短期预测任务上都展现出了良好的性能,证明了其作为一种通用预测范式的潜力。

图片

论文还进行了消融实验,研究时域损失、频域损失对模型性能的贡献。结果表明:仅使用频域损失即可取得显著的性能改进,而适当融合时域损失可以进一步优化性能。

图片

进一步细化消融实验,研究权重 α 对性能的影响。在绝大多数情况下,频域损失的性能均优于时域损失(α=1 vs α=0)。这说明即使不对 α 做调节,直接将时域损失替换为频域损失,也可以有效提升时序预测性能,真正实现「一行代码涨点」。此外,预测性能一般在 α 接近 1(如 0.8 或 0.9)时最佳。这意味着在时域和频域损失之间取得适当的平衡,并适当强调频域损失,可以获得较好的预测结果。

图片

通过可视化预测序列发现,FreDF 生成的预测序列与真实标签序列之间的拟合度更高,能够更准确地捕捉到标签序列中的高频成分,同时抑制明显的噪声和异常波动。这说明频域损失可以在一定程度上抑制时域损失的过拟合,保持较好的泛化能力。

图片

论文还测试了 FreDF 在不同神经网络架构上的表现,包括 iTransformer、DLinear、Autoformer 和 Transformer 等,证明了其与模型无关的特性:可以切实有效提升大多数主流时序预测模型的精度。

结论

自相关性的处理是时间序列预测的核心问题。现有方法聚焦输入中的自相关性的处理,而对标签中的自相关性尚未给予广泛关注。特别是,现有的多任务预测方法,其损失函数假设掉了标签中的自相关性,导致其相对似然函数有偏

FreDF 提出了一种基于频域标签的训练方法,既保留了多任务预测的特性,又有效避免了标签自相关性带来的偏差。作为一种模型无关的损失函数,实验结果表明,其在多个预测模型上均表现出一致的性能提升。

不快来试一下?让 FreDF 成为你性能优化的「最后一棒」!

ICLR 2025 | 一行代码!FreDF频域损失稳定提升时间序列预测精度 - AI 资讯 - 资讯 - AI 中文社区

声明:本文转载自机器之心,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。本站拥有对此声明的最终解释权。如涉及作品内容、版权和其它问题,请联系我们删除,我方收到通知后第一时间删除内容。

点赞(0) 收藏(0)
0条评论
珍惜第一个评论,它能得到比较好的回应。
评论

游客
登录后再评论
  • 鸟过留鸣,人过留评。
  • 和谐社区,和谐点评。