第1章 预测科学基础
1.1 概述
预测科学是对未知事件做出事先估计与推断的科学,是人们认识自然、经济、社会发展变化规律的基础。科学技术发展使得环境、资源、市场、信息越来越呈现出更新速率快、数据复杂度高等特点,这就要求在进行预测活动时需要做到稳定、准确、精细。在现代信息社会中,预测科学不能仅提供概括性的定性表述,更要依靠计算机科学、信息处理、数理统计等科学技术的发展,对预测对象未来发展变化给出全面、准确、可靠的定量描述,从而为经济社会运行、企业经营管理、水文环境管理及其他决策场景提供更加精准、个性化的信息支撑[1-4]。
电力系统是世界上*复杂的人造系统,其空间分布广泛,动态特性复杂,数学模型具有显著的高维、非线性、时变特性。近年来,以风电、光伏等为代表的间歇性新能源发电大规模接入,使得电力系统不确定性显著提升。新能源电力系统中,预测能够为系统的决策调度、电力市场化交易、能源规划等场景提供可靠信息支撑,从而更好地保障新能源电力系统的安全、经济运行,促进新能源在电力系统中的高比例接入和消纳[5]。本章从预测的一般步骤、时间尺度、新能源电力系统预测对象等方面阐述预测的基本原理,综述物理预测模型、时间序列预测模型、统计法预测模型、机器学习预测模型、组合预测模型等基本的预测模型与方法,进而从数据冗余、预测问题的多学科交叉、预测不确定性量化、高分辨率预测、预测方法泛化性能检验与提升、预测理论与方法创新下的实际应用探索等多个角度总结概括预测科学面临的挑战。
1.2 预测的基本原理
1.2.1 预测的定义
预测是利用科学的计量与统计方法,根据历史和现实规律,综合考虑多类型、多维度信息,得到预测对象自身发展变化的规律特征及其与外部因素的变化联系,对不确定事件或未知事件进行估计或描述,从而对预测对象未来的可能变化情况做出事先推断的科学[6]。预测基于一个前提,即利用当前和过去的知识可以推测未来。特别是对于时间序列而言,可以从历史统计数据中识别变化规律,并且可以预测未来的变化趋势[7]。简而言之,预测是通过分析对事物的现有认识,做出对预测对象的未来评估。
科学预测理论中,预测对象可视为随机变量。预测对象在时刻的实际测量值可以看作是随机变量的一个实现。那么,在时刻可以根据给定的预测模型、预测模型参数和预测信息集合做出对时刻的预测,定义为
(1-1)
预测信息集合是在时刻可以获取到的与预测对象相关的所有信息,是预测决策者做出对预测对象未来发展变化规律正确估计的基础。做出科学预测不仅需要考虑预测对象自身的自相关特性,也要关注外部相关变量对预测对象的影响,如在风电功率预测中要考虑风速风向等外部环境信息对风电功率的影响。预测信息集合包括以下几部分信息:
(1)预测对象的历史时刻统计信息,其中为历史统计时长。
(2)外部解释变量的历史时刻统计信息。
(3)外部解释变量的预测信息。
1.2.2 预测的一般步骤
预测通常包含以下几个步骤。
1. 预测关键要素抽象化
预测问题研究中,首先需要从现实场景的预测问题中,抽象出预测问题的关键要素。对于具体的预测场景,需要对预测任务进行明确定义,包括预测对象、预测时间尺度、预测输入信息、可供选择的预测方法、预测性能要求等。预测关键要素的抽象化有助于预测信息的筛选、预测模型的选取、模型超参数的设定及便于预测结果的表达。
2. 预测输入信息获取及预处理
预测输入信息需选择与预测对象相关性高的信息,同时需平衡预测性能与数据冗余。预测输入信息还需经过预处理,主要包括以下内容。
(1)缺失值处理:对于缺少部分数值的预测信息,根据输入信息的分布特性和对预测对象影响的重要性采用数据插值、哑变量填充等方式处理。
(2)离群点处理:对于输入信息中存在的超出一般区域范围的“噪点”,可根据箱线图、原则、绝对离差中位数、数值聚类等方式加以清除,或利用邻近样本替换。
(3)维度变换:对于高维复杂数据,采用数值聚类、主成分分析、奇异值分解等方式,在保证数值信息完整性的前提下实现数据降维,从而更高效地实现信息利用。
(4)数值规范化处理:不同输入信息其数值范围存在不同,不宜直接作为统一的输入信息输入预测模型,需进行数值规范化处理,如min-max规范化、Z-score规范化、log变换等。
3. 预测模型构建与评估
对于给定原始数据集,将划分为训练数据集和测试数据集,两个数据集相互独立。用于训练预测模型,用于评估预测模型的性能。在测试集中,预测结果的生成应当模拟实际的预测情形,即利用时刻已知的信息集合估计时刻的预测对象。
通常情况下,预测误差是难以避免的,预测因而被视为具有天然的不确定性。单一的评价指标不足以得出某一预测方法性能优劣的结论,因此可以从多个角度进行评价预测误差。常用的预测误差评价指标有平均偏差(mean bias error,MBE)、平均绝对误差(mean absolute error,MAE)、平均绝对百分误差(mean absolute percentage error,MAPE)、均方误差(mean square error,MSE)及均方根误差(root mean square error,RMSE)等。单个预测值误差定义为
(1-2)
式中,和分别为实际值与预测值。则MBE定义为
(1-3)
其中,为测试集样本数。
MBE是预测性能的一个基本方面,它表明该方法是否倾向于高估或低估预测对象,一般很难说明预测方法的实际性能。即便MBE为零,也不能说明预测方法提供了完美的预测结果,很多情况下只是因为正负误差值在测试集上相互抵消。
表示正误差和负误差对预测偏差贡献度的一个常用度量方法是平均绝对误差,它是测试集上绝对值误差的平均值:
(1-4)
MAPE在MAE基础上计算预测误差相对于真实值的相对值,再计算均值,定义为
(1-5)
MAPE避免了数据大小对误差计算的影响,但当真实值接近于零时,很小的预测误差也会带来很大的MAPE值,从而影响对预测结果的客观评价。
另一种常用的预测精度测量方法是均方误差,它是测试集上误差平方的平均值:
(1-6)
或以其平方根形式表示为均方根误差
(1-7)
不同于MSE,RMSE与预测对象具有相同单位。
除RMSE之外,还可以考虑误差的样本标准差(standard deviation of the error, SDE),表示为
(1-8)
在统计上,MBE和MAE的值与预测误差分布的一阶矩有关,因而它们是与预测误差均值直接相关的量度。RMSE和SDE的值与二阶矩有关,反映的是预测误差分散程度。与MAE相比,RMSE对离群值、异常值等错误数据更敏感,而MAE则表现更加稳健。因此,如果在预测结果中离群值或异常值较多的情况下,应将MAE作为主要评判标准。否则,将会出现由于异常值过多导致RMSE误差过大,从而得出预测性能不佳的结论。
1.2.3 预测时间尺度
预测时间尺度是指做出预测所提前的时间跨度。预测时间尺度是根据决策应用场景而确定的。对于长期规划类、评估类场景,需要开展中长期时间尺度预测,而对于实时控制决策则要求开展高精度的短期、超短期时间尺度的预测。
在新能源电力系统中,按照不同时间尺度,可以分为超短期、短期、中期和长期预测[5]。不同时间尺度的预测采用的输入变量和预测方法不同,对预测结果精度要求也有所不同,预测结果应用场景亦有所差别。目前对预测时间尺度的明确定义尚未形成共识,本节主要介绍一般意义上的时间尺度分类。
1. 超短期预测
超短期预测一般指秒级、分钟级的预测,主要利用实际历史统计数据,有些场合下还考虑实测气象信息等外部变量。超短期预测采用数据驱动模型如时间序列模型、人工神经网络方法,挖掘历史数据内在统计规律,对未来时刻出力情况做出预测。新能源电力系统中,超短期预测通常用在实时控制和实时经济调度等对实时性要求高的场合。
2. 短期预测
短期预测一般指对未来数小时到数天的预测,除利用历史统计数据外,通常会结合数值天气预报等外部信息,一般采用考虑外部输入的人工神经网络模型、时间序列模型等做出预测。对于统计数据多样性强、信息量丰富的场合,还会进行相似日分析以提升预测准确度。新能源电力系统中,短期预测常用于短期控制调度、机组组合优化、备用安排、电力市场交易等场合。
3. 中期预测
中期预测一般指对未来一周到数月的预测,易受外部因素特别是气象信息影响,在统计特性上常呈现出周期性、季节性特征,预测过程中需要更多外界变量的补充。新能源电力系统中,通常采用考虑气象信息和相似特征提取的物理模型或时间序列模型,用于制定一段时间内的检修计划和运行方式。
4. 长期预测
长期预测一般指季度或年度预测,受外部因素影响较大。新能源电力系统中,气象信息、政策信息、成本信息等都是影响预测结果的重要因素,常利用气象统计信息作为决策输入变量,对电站选址、电力系统规划、新能源资源评估等场景提供规划指导。
不同预测时间尺度下预测应用场景有所不同。新能源电力系统中,各时间尺度的预测应用场景可概括为表1.1。
1.2.4 新能源电力系统预测对象
1. 电力负荷
负荷主要受季节、温度等因素影响,而间歇性、波动性显著的分布式新能源大规模接入电网,使得用电模式复杂性大大增加,新能源电力系统中负荷的随机波动性显著增强[8,9]。图1.1展示了华东某城市110kV变电站在有光伏和无光伏接入情况下,净负荷曲线呈现出不同特点。在有光伏接入的情况下,净负荷曲线在午间出现低谷,呈现出“鸭型曲线”的特征,负荷波动性更强,甚至在光伏出力较强的情况下出现负荷小于零的现象。此外,电力市场和需求响应等外界影响因素的增加,使得用户用电模式的复杂性增强,负荷预测的不确定性进一步加剧[10]。
表1.1 不同时间尺度下新能源电力系统预测应用场合
图1.1 华东某城市110kV变电站不同情形下净负荷曲线
展开