扫码阅读
手机扫码阅读

再见One-Hot!时间序列特征循环编码火了!

201 2024-10-16

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

查看原文:再见One-Hot!时间序列特征循环编码火了!
文章来源:
数据STUDIO
扫码关注公众号

当训练时间序列机器学习模型时,重要的时间特征包括小时、星期、月份以及一周或一年的时间。利用日期时间对象的.dt方法,可以从时间戳列中轻松提取这些特征。例如,在处理每小时电力消耗数据的数据集时,这些时间序列特征的提取尤为重要。

时间序列特征的提取后,我们会得到如小时、月份、周天等多个特征列。在机器学习中,直接使用时间序列特征可能不理想,因为大多数模型会错误地将其作为数值特征处理。例如,小时特征可以视为分类变量,因为不同小时的能源消耗模式通常不同。

独热编码是处理分类特征的常见方法,它通过二进制0或1来表示特定的类别。在Python中,可以通过pd.get_dummies函数来轻松实现独热编码,从而将原始的几个时间特征转换为40多个新特征列。

除了独热编码,时间序列数据的周期性特征也可以通过正弦和余弦值来编码。这种编码方法反映了一天、一周或一年等时间段的周期性,并保留了时间序列的关联性。正弦余弦编码使用单位圆的方式来表示时间,例如将每天的24小时映射到圆周上,并计算出对应的正弦和余弦坐标值。

正弦余弦编码的优势在于它保持了时间的周期性,避免了边界问题,并且相比独热编码提供了更丰富的信息。其他周期性时间序列也可以采用类似的编码方式。在Python中,通过将时间戳转换为Unix时间,然后映射到单位圆上,计算出相应的正弦和余弦值。

正弦余弦编码方法在使用时需要注意数据分布、模型算法的差异,并根据具体问题进行分析。在某些情况下,决策树模型可能无法充分利用正弦余弦编码所带来的优势。因此,在选择编码方案时,应对比独热编码和正弦余弦编码在数据上的表现,确定最优方案。

最后,原文推荐了多篇相关阅读材料,涵盖了时间序列概率预测、多步时间序列预测策略、时间序列预测的探索性数据分析、时间序列中的变点检测算法等多个方面,以及介绍了如何使用AutoML、DeepAR、蒙特卡罗模拟、共形预测等方法进行时间序列预测。

想要了解更多内容?

查看原文:再见One-Hot!时间序列特征循环编码火了!
文章来源:
数据STUDIO
扫码关注公众号