首页 资讯 招标 项目 展会 更多

位置:首页 > 新闻频道 > 技术动态


关于顾及数据特征的贝叶斯网络PM2.5浓度预报的探索

2016-01-27 10:44:58 安装信息网

相关链接: 中国安全网 中国质量网 中国论文网 中国资讯网

作者:郑晓敏

  国内外已报道的空气污染预报方法包括潜势预报、数值预报和统计预报3类。潜势预报假设历史污染事件均存在对应的气象条件、天气形势和气象指标,方法简单,但因仅考虑气象因素,精度较低。数值预报主要依托基于大气物理化学反应过程建立的污染物稀释扩散数值模型,可相对准确地模拟任意时空尺度污染物的浓度分布,但数值模型运行要求的高时空分辨率污染源排放清单数据、气象数据和地形数据往往难以获取。统计预报具有在不了解污染物变化机理的条件下,可通过动态分析污染发展规律开展预报的优势,但预报的精度常取决于历史数据的样本数量是否充足。

    PM2.5的形成是一个十分复杂的物理化学变化过程,受污染源强、气象、地形等众多因素影响,PM2.5浓度存在明显的时空分异特征,PPM2.5浓度的精确预报理论上由此也必然是一个涉及多变量、非线性的问题。在我国当前尚未完全阐明PM2.5形成机理、大多数城市污染源排放清单仍然缺失的数据条件下,从统计预报角度开展PM2.5浓度的预报研究仍是一种具有重要实践价值的空气污染预报手段。尤其对于短期空气质量预报,统计预报具有十分重要的科学价值和指导意义。

    神经网络模型作为一种典型的统计预报方法,因具有拟合输入和输出变量间非线性关系的能力,已被广泛应用于城市空气污染预报中。相对于神经网络的知识表示不易理解、易受数据不充分等因素的影响,基于概率理论的贝叶斯网络是一种描述变量间概率关系的有向图模型,在处理不确定性复杂问题方面具有独特优势,具有清晰的因果关系推理能力和先验知识融合能力,可有效避免数据的过度拟合。作为人工智能研究中不确定性推理和建模的有效工具,贝叶斯网络已在经济、军事、医学等领域得到了广泛运用。

    由于贝叶斯方法是通过计算某事件过去发生的频率来估计它未来发生的概率,即一个事件发生与否取决于该事件在先验分布中已发生过的次数。利用贝叶斯网络模型预报PM2.5浓度的准确程度不可避免地受限于先验信息中“历史情景的存在”。在实际应用中,受资料获取条件等的限制,有限的先验信息往往不能充分揭示PM2.5浓度的变化规律或无法保证贝叶斯网络模型预报所需的“历史情景”,进而造成模型预报功能的“失效”。如何在有限样本数据条件下提高预报精度,成为了困扰贝叶斯网络空气质量预报的一个难题。

    鉴于此,本研究以长沙市2013年空气质量监测数据为基础,在分析长沙市PM2.5污染特征基础上,理论设计和实验对比检验了Jaccard相似性系数修正下的贝叶斯网络PM2.5浓度预报模型,可为PM2.5浓度贝叶斯网络统计预报模型的改进提供新的思路与借鉴。

1  贝叶斯网络模型与改进

1.1 贝叶斯网络原理

    贝叶斯网络,又称因果网或置信网,是一种有向无环图(DAG,directed acyclic graph)模型,由模型结构(节点、有向弧)和相关参数两部分组成。贝叶斯网络模型中节点表示变量,连接节点的有向弧表示变量间的条件依赖关系;相关参数则指为每个节点指定的条件概率表(CPT,conditional probability tables)。对于一个有n个节点的贝叶斯网络,其联合概率分布可表达为:

    式(l)中,parents(xi)是节点xi的父节点集,n是贝叶斯网络的节点个数,i=l,2,…,,n。

    在贝叶斯网络中,所有事件的先验信息都以概率分布的形式表示,利用贝叶斯公式(式(2》可以综合先验信息和样本数据,求得各事件的后验分布。贝叶斯网络推理的实质是概率计算,即根据网络结构及其条件概率表,结合已知条件来计算某些事件发生的概率。设随机试验E的样本空间为Ω,B为的E事件,A1,A2,…,An为Ω的一个划分,则:

    式(2)中,P(Ai)为事件A的先验概率.P(AiIB)为后验概率,表示在已知事件B发生的条件下,事件A发生的可能性。

1.2  模型改进

    传统贝叶斯网络模型通过综合先验信息和历史样本数据,挖掘污染物浓度的内部隐藏规律进行预报。若无法获取足够充分的历史样本数据来训练不同预报因子条件下PM2.5浓度及其概率,则可能出现预报日缺失对应PM2.5浓度值输出的情景,导致模型无法准确预报。此时,若能在现有模型基础上融入一种测度历史样本数据和预报日样本数据相似性的方法、尽可能为预报日对应PM2.5浓度值缺失情景匹配相似历史情景、增强预报模型的先验知识获取能力,理论上则可在最大限度地保证预报精度的前提下降低模型对历史样本数据量的要求。本研究对此引入测度分类型数据相似程度的Jaccard相似性系数改进传统贝叶斯网络模型。

    Jaccard相似性系数(Jaccard coefficient),即Ja-ccard系数,是用来比较样本集相似性和分散性的一个概率。给定2个集合A和B,Jaccard系数的含义是A、B集合共同拥有的元素数,除以A、B集合总共拥有的元素数,即样本集交集与样本集合集的元素数目之比。Jaccard系数取值区间为[0,1],值越大,表示样本集相似程度越高,计算公式如下:

    基于Jaccard系数修正贝叶斯网络模型的基本假设是:在不考虑其他因素的影响下,预报前后2d的预报因子越相似,则这2d对应的PM2.5浓度值越相近。该假设依据Jaccard系数分析预报日预报因子与历史样本数据中每日预报因子间的相似程度,筛选与预报日预报因子最相似的历史样本数据,基于筛选出的相似样本对应PM2.5浓度估算预报日PM2.5浓度值。理论分析可知,Jaccard系数修正下的贝叶斯网络模型可在不改变传统贝叶斯网络预报模型的基础上,有效提取历史资料中的相似信息,提高传统贝叶斯网络模型在预报日缺失对应浓度输出时的预报精度。见图1。

1.3  算法设计与实现

1.3.1  算法设计

  设模型样本数据描述为:R={R1,R2,…,RN):N是样本数据个数;其中,每个样本数据Rt=(Xt,Yt),t=1,…,N;Xt是预报日的预报因子.Yt是预报日对应的PM2.5浓度;X= (Xt1,…,Xtn),n是模型预报因子个数,则改进贝叶斯网络模型的预报流程和算法描述如下:

    第一步:构建贝叶斯网络,利用样本数据进行贝叶斯网络的参数学习;

    第二步:输入预报日预报因子Xa=(Xa1,….Xan),计算预报日PM2.5浓度值及其概率;

    第三步:将最大概率值对应的PM2.5浓度值作为预报结果并输出;

    第四步:若预报日缺失对应PM2.5浓度输出,则将预报日预报因子X作为目标数据,两两计算目标数据X与样本数据R中每日样本数据预报因子X间的Jaccard相似系数Jt;

    第五步:将相似度最高即相似系数^最大的若干相似样本X加入目标数据的相似集合M中,M={X1,X,…,Xn),其中兄诺Ma根据实际模型预报因子个数,本研究取Jr=(n-1)/(n+l)时对应的样本为目标数据的相似样本;

    第六步:基于目标数据相似集合M中所有相似样本及其对应的PM2.5浓度,按公式(4)计算预报日PM2.5浓度估算值。定义计算公式为:

    第七步:将PM2.5浓度估算值作为预报结果并输出。

    逐日预报过程中,若预报第n天的PM2.5浓度值,则需将第,z天前所有历史数据作为样本数据进行参数学习。每完成一次预报,即向原有学习样本加入当天预报因子和PM2.5实测浓度,组建新的学习样本。如此循环,不断更新预报模型学习样本和条件概率,自适应PM2.5浓度的动态变化。

1.3.2  具体实现

    在MATLAB7.1环境下,本研究借助Kevin PMurphy开发的贝叶斯网络工具箱BNT实现上述改进模型的表示、学习及推理等过程,并开展相应的浓度预报。

2  模型验证实验

2.1  实验区与数据

    依据长沙市空气污染物空间分布特征分析报道,选取分别位于居民区、城郊以及高新技术工业园区3种典型城市功能区的岳麓山下湖南师范大学站、东郊马坡岭站、河西高开区站3个城市环境空气自动监测站点,代表长沙市区大气环境污染状况。上述3个监测点周围绿化设施完善,交通道路车流量稳定,无明显工业污染排放源,空气污染程度相对较轻。

    长沙市一年四季分明,3-5月、6-8月、9-11月、

12-2月分别代表春季,夏季,秋季和冬季。采用湖南省环境监测中心站提供的上述3个监测点2013年S02、N02、PM10、PM2.5小时浓度值监测数据,进行合理修约并剔除无效数据,通过算术平均值计算获取各污染物日均浓度值序列。

2.2  实验区PM2.5污染特征

    2013年长沙市各监测点PM2.5浓度逐日变化曲线及月均值线见图2。图2表明,长沙市PM2.5浓度变化在年均时间幅度整体上呈现出较为明显的变化规律,春、冬两季浓度高,夏、秋两季浓度低,较高浓度出现在冬季1月和12月,较低浓度出现在夏季6-8月,高低浓度呈现出交替式上升与下降的过程。相对而言,日均时间幅度PM2.5浓度的变化则伴随有显著的‘锯齿状’随机变化特征,前后日均PM2.5浓度常呈现出“突变式”的无序上升或下降。

    考虑到长沙市大气PM2.5浓度变化主要受污染源排放和气象变化等因素驱动,预报因子在不同季节对大气PM2.5浓度的影响存在差异,本研究选取数据缺失较少、最具季节特征的5月、8月、ll月、2月(分别代表春、夏、秋、冬4个季节),开展改进贝叶斯网络预报模型与传统贝叶斯网络预报模型预报PM2.5浓度的精度检验试验。

2.3  预报因子选取

    已报道的城市PM2.5源解析研究表明:煤烟尘、机动车尾气、建筑尘、硫酸盐、硝酸盐、土壤尘、钢铁尘是城市PM2.5的主要来源。燃煤等化石燃料燃烧产生的S02和机动车尾气、工业废气等排放的NO2在大气中可经过一系列化学反应,转化生成硫酸盐、硝酸盐等二次污染物,成为PM2.5的主要贡献因子。多项研究表明,空气中PM2.5与PM10浓度的比值(PM2.5/PM10)相对稳定在0.5-0.8。考虑到S02、N02为主要污染物减排重点控制的一次污染物,PM10和PM2.5为我国大气污染治理行动计划重点考核的减排颗粒物指标,故选取S02、N02、PM10、PM2.5为研究对象,在对长沙市2013年S02、N02、PM10、PM2.5浓度变化规律定性分析的基础上,本研究还利用SPSS统计软件基于Pearson相关系数定量评估了各监测点S02、N02、PM10、PM2.5浓度数据间的相关性。结果见表1和图3。

    由图3可知,长沙市各监测点S02、N02、PM10、PM2.5浓度全年变化趋势大致相同,当S02、N02、PM10出现高浓度时,PM2.5浓度通常也较高。在年均时间幅度各污染物浓度整体上均呈现出春、冬两季浓度高,夏、秋两季浓度低的明显变化规律。日均时间幅度各污染物浓度虽分别呈现出显著的‘锯齿状’随机上升或下降特征,但这些随机变化特征在时间上存在相对一致性。与此同时,表l中的Pearson相关系数表明,长沙市各监测点PM2.5浓度与S02、N02、PM10浓度在0.01置信水平显著正相关,也证实了这4种污染物浓度变化具有相似规律。

    鉴于上述S02、N02、PM10和PM2.5的相似性分析结果,本研究在贝叶斯网络模型检验实验过程中选定SS02、N02、PM10为PM2.5浓度预报因子,预报日前一日PM2.5浓度为初始浓度值,以经典统计预报方式建立样本序列,即预报日前一日预报因子对应预报日预报对象,由此确定贝叶斯网络模型的4个输入变量:T-l时刻S02、N02、PM10、PM2.5浓度;输出变量:T时刻PM2.5浓度及其概率。丁表示预报日,T-l表示预报日前一日。若当天数据记录中缺失PM2.5或其任一预报因子浓度数据,则当天数据视作无效,给予删除。据此对原始数据进行清理并整理成便于计算机处理的统一输入文件格式。

2.4  数据离散

    贝叶斯网络主要处理离散型变量,建模前需考虑对连续变量进行离散化。连续变量离散化指通过将连续变量的取值空间划分为多个取值区间实现连续变量向离散变量的转化。参照国家《环境空气质量指数(AQI)技术规定(试行)》,本研究依据各污染物浓度限值分别将S02、N02、PM10、PM2.5浓度值域划分为6个区间,完成变量离散过程,如表2所示。

2.5  结果

    在相同数据处理条件下,运用改进贝叶斯网络预报模型和传统贝叶斯网络预报模型分别预报长沙市各监测点不同季节典型月份(5月、8月、11月、2月)PM2.5日均浓度的结果如表3和图4所示。

    预报结果的月准确率定义为:当月PM2.5浓度等级预报准确的天数占预报总天数的百分比。由表3可知,改进贝叶斯网络预报模型相对传统贝叶斯网络预报模型在5月、11月、2月预报PM2.5浓度的准确率均有不同程度的提高,证实了模型修正思路的正确性和改进模型的有效性。而改进模型在8月预报准确率无明显提高的原因可能是长沙市夏季8月的PM2.5浓度变化幅度小,传统贝叶斯网络模型已经具有较高的PM2.5浓度预报精度。在同一月份,各监测点间PM2.5浓度预报效果无显著差异;但各监测点在不同月份PM2.5浓度预报效果却差别明显,预报准确率从高到低依次为8月、5月、11月和2月。

    图4中PM2.5观测浓度与改进贝叶斯网络模型预报的PM2.5浓度日变化趋势对比进一步表明,在PM。。浓度变化幅度较小的5月和8月,改进贝叶斯网络模型预报的各监测点PM2.5浓度能较好拟合其观测浓度值的变化趋势,再次证明了运用改进贝叶斯网络模型开展PM2.5浓度逐日预报的可行性。但在PM2.5浓度变化幅度较大的11月和2月,改进贝叶斯网络模型预报的PM2.5浓度仍与观测数据揭示的变化规律存在一定差异,尤其是2月。

2.6  讨论

    受亚热带季风和北方南下冷空气共同影响,长沙市冬季气温低,加之多存在逆温、静风等不利于污染物扩散的气象条件,气象条件转化较频繁,造成冬季PM2.5浓度高且变化幅度大;不仅如此,2月正值春节假期,烟花爆竹燃放等偶然性PM2.5排放源,也增加了PM2.5浓度预报的难度。相对而言,夏季大气扩散条件一直处于较好的水平,PM2.5浓度长时问位于较低的水平,预报难度相对较小。上述现象极可能是造成改进贝叶斯网络模型在2月预报精度低,在8月预报精度高的主要原因。

    贝叶斯网络模型对PM2.5浓度突变点的预报效果整体上不够理想,主要原因是建模时缺乏相关资料,无法对长沙市不同季节污染特征及其成因进行深入分析和比较,在一定程度上制约了预报因子选择的有效性。在今后工作中,需充分考虑污染源排放因子和气象因子以更好适应浓度突变等情况。

3  结论

    针对传统贝叶斯网络模型在样本数据不充分限+制下预报精度低的缺陷,引入相似性度量方法,本文提出了一种基于Jaccard相似性系数的贝叶斯网络修正模型,并实验检验了改进模型预报PM2.5浓度的精度。主要结论如下:

    (1)改进贝叶斯网络模型相对传统贝叶斯网络模型在5月、11月、2月的预报准确率均有不同程度的提高,证实了模型修正思路的正确性和改进模型的有效性。

    (2)改进和传统贝叶斯网络模型同一月份在各监测点的PM2.5浓度预报效果无显著差异;但各监测点在不同月份PM2.5浓度预报效果却差别明显,预报准确率从高到低依次是8月、5月、11月和2月。

(3)改进贝叶斯网络模型预报的各监测点PM2.5浓度与其观测浓度值的拟合趋势分析表明,改进贝叶斯网络模型高准确率预报PM2.5浓度的前提是相对稳定的污染排放源和有利于污染扩散的气象条件。基于不同季节的污染特征,融合污染源排放因子和气象因子是未来持续改进贝叶斯网络模型的重要途径之一。

4摘要:针对传统贝叶斯网络模型在样本数据不充分限制下预报精度低的缺陷,引入相似性度量方法,提出一种基于Jaccard相似性系数修正的贝叶斯网络PM2.5日均浓度预报模型。在传统模型缺失对应输出时,改进贝叶斯网络模型可依据相似性原理,从历史资料筛选预报日相似样本,并基于筛选出的相似样本估算预报日PM2.5浓度值。以2013年长沙市3个空气质量监测点监测数据为例,运用改进模型和传统模型在各站点不同季节典型月份开展了预报实验。结果表明:改进贝叶斯网络模型相对传统贝叶斯网络模型在5月、11月、2月

的预报准确率均有不同程度的提高;同一月份,各站点预报效果无显著差异;不同月份预报效果差别明显,预报准确率从高到低依次是8月、5月、II月和2月。研究证实,引入样本相似性度量手段提高传统贝叶斯网络模型在空气质量预报中的精度具有可行性。

关键字:

上一篇:一种高频燃烧红外吸收法测定钒铝合金中碳的新方法

下一篇:返回列表

行业资讯月点击排行

展会信息月点击排行

招商信息月点击排行

首页 资讯 招标 项目 展会
关于我们 | 广告服务 | 友情连接 | 联系我们
触屏版 电脑版
安装信息网 www.36qyk.cn.