- 文档大小:395.57 KB
- 文档格式:pdf
- 约 6页
- 2021-06-13 发布
- 举报
已阅读完毕,您还可以下载文档进行保存
- 1、本文档共6页,内容下载后可编辑。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
第44卷第24期2016年12月16日电力系统保护与控制PowerSystemProtectionandControlVbI.44No.24Dec.16,2016DOI:10.7667/PSPCl52053一种基于Hadoop的电力大数据属性实体识别算法齐俊,曲朝阳,娄建楼,王冲(1.东北电力大学信息工程学院,吉林吉林132012;(2.国网内蒙古东部电力有限公司信息通信分公司,内蒙古呼和浩特010020)摘要:随着大数据时代的来临,传统的实体识别技术由于电网数据体积大以及类型复杂等特性已经无法有效地进行数据预处理。近年来兴起的Hadoop技术能够对大数据进行较好的处理。因此提出一种基于Hadoop的电力大数据属性实体识别算法。该算法利用改进离散化算法选取出信息准确率较高的离散点,并提出了一种离散化评价指标。最后,在Hadoop平台上对某风电机组的监测数据进行了属性实体识别。实验证明,该算法在实验正确性和断点数目方面表现良好,并且具有较好的加速比,适用于电力大数据的属性实体识别处理。关键词:电力大数据;实体识别;离散化算法;信息准确率AkindofattributeentityrecognitionalgorithmbasedonHadoopforpowerbigdataQIJun,QUZhaoyang,LOUJianlou,WANGChong(1.SchoolofInformationScienceandEngineering,NortheastDianliUniversity,Jilin132012,China;2.Information&TelecommunicationBranchCompany,StateGridEastInnerMongoliaElectricPowerCo.,Ltd.,Hohhot010020,China)Abstract:Withthecomingoftheeraofbigdata,traditionalentityrecognitiontechnologieshavebeenunabletoeffectivelyfinishdatapre-processingbecauseofthelargescaleofpowergriddataandvolumecomplextypefeatures.TherisingoftheHadooptechnologiesintheseyearscarldealwiththebigdataprocessingbetter.ThereforethispaperproposesapowerbigdataentityrecognitionalgorithmbasedonHadoop.Thisalgorithmusesthediscretizationalgorithmtoselecthigherinformationaccuracydiscretepointsandputsforwardadiscretizationevaluationindicator.Intheend,theentityrecognitionofthemonitoringdataofwindturbinesisfinishedonHadoopplatform.ExperimentalresuRsshowthattheproposedalgorithmperformswellintermsofcorrectnessandbreakpointnumberexperimentsandithasagoodspeed-upratio.Theproposedalgorithmcanbeappliedtopowerlargedataentityrecognitionprocessing.ThisworkissupportedbyNationalNaturalScienceFoundationofChina(No.51277023).Keywords:powerbigdata;entityrecognitionalgorithm;discretization;informationaccuracy0引言随着信息通信技术的不断进步,数字化、信息化已经深入渗透到我们生活的方方面面,电力企业的信息化进程也得到了长足的发展。下一代智能电网的全面建设过程中产生的温度、时间等数据的关联分析也使得电力大数据的类型不断增加,对电力大数据中有效信息的分析处理要求也不断提高。如何从电力大数据中获取电力企业决策时需要的有效信息,是在大数据时代电网企业进行数据预处理时基金项目:国家自然科学基金资助项目(51277023);吉林省科技厅社发处重点科技攻关项目(20150204084GX)…的一个重要难题。实体识别一直以来都是数据质量管理研究的一项关键技术,对能否提高数据预处理的质量起着至关重要的作用。在电力大数据中,数据类型复杂、数据表现不一致的现象更为普遍。因此,实体识别技术在电力大数据中也具有更为广泛的应用。电力大数据中的属性实体识别是在给定的大数据集中,精准地识别属于同一种实体的不同实体名和属性并将其聚类,使得每个实体在电网决策中能够被更为有价值地识别出来的过程。与传统的中文实体识别技术不同,电力大数据具有更为复杂的结构,如XML数据等。因此,尽可能地寻找一种有效的电力大数据实体识别方法对降低数据处理规齐俊,等一种基于Hadoop的电力大数据属性实体识别算法一53一模,提高数据分析效率具有重要作用,例如文献[3】利用基于并行机群的大数据实体识别算法。此算法借助n.Gram算法辅助解决同一物体有不同属性的问题,在短时问内对大数据高效地进行实体识别并取得了较好的效果。传统的实体识别技术有很多,但主要集中在文本形式的词组或关系数据上,针对不同类型数据的实体识别的研究还刚刚兴起。文献[4]提出了一种两阶段的关联实体识别模型,考虑了实体的模式特征与属性特征,并提出了一种增量式验证算法。当前已有的研究方法主要是面向识别的有效性,即重点在于如何能够准确地识别出描述同一实体的对象,面向大数据中的实体识别效率的技术仍然较少。而且这些方法大多针对字符串和关系元组,对XML数据、图数据等非结构化数据的判别方法研究仍然较少】。同时,这些算法缺少有效评估大数据实体识别结果质量的理论及公共测试数据集合。Hadoop是一种能够对大数据进行分布式处理的基础架构平台。其架构底层HDFS的上层是Map.Reduce执行引擎,该引擎由单独运行在主节点上的JobTracker和多个运行在集群节点上的TaskTracker组成。MapReduce是一种编程模型,用于大规模数据集的并行运算。其主要概念包括“”“”Map(映射)和Reduce(归约)两个过程。当前的算法实现是指定一个Map(映射1函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约1函数。本文深入研究了Map.Reduce编程模型,在电力大数据的背景下,给出了一种基于信息准确率的电力大数据实体识别算法(EntityRecognitioninBigDataBasedonInformationAccuracy,ERBIA)。该算法首先通过离散化方案计算类属性的分布与属性值的相似程度,从而通过ERBIA算法选出信息准确率较高的离散点,而后提出一种改进的离散化评价指标得到了最终决策结果。最后,在Hadoop平台上对真实数据集和随机产生的数据进行了多组对比试验,得到了具有更好的有效性和高效性的电力大数据处理方案。1电力大数据实体识别离散化方案描述数据处理的首要问题是知识的表达。为了便于数据的集成处理,提高数据预处理的效率,本文采用列联表对电力大数据属性进行形式化定义,每组数据的属性形式化定义如式(1)。S=(U,V,C,厂)(1)…在表达式中:U={a1,a2,,a}定义为数据的非空有限集合,称为属性域;V=UZa(VacC)定义为有效信息函数厂的值域;c称为属性域,并且有≠C(2j;厂={:V}表示关联列表的信息函数,其中为属性a的信息函数。根据上述定义,电力大数据集可以表示为属性Ⅳ域中元素个数为的关系列表,即电力大数据集Ⅳ中有个属性值,对于其中的第i个属性值有aicV,值域为e,中ai的值的集合可以表示为…a)={qi,,i,,:},其中n表示ai在【,中的数量。假设a为数据集中的任一连续属性,且在每一个连续属性上都存在一种离散化方案R,将阈值为Ⅳ的属性域集合划分为n个交集为零的区间,…R:{[Co,C1),(Cl,c2),,(cn_l,cn]},其中属性a的值域=[Co,C],方案R中的值按顺序排列并组成相应n…的断点集{CO,C1,,C}。由于断点集与所提出的离n散化方案相对应,因此可以采用两者中的任意一种对属性离散化进行表述。根据以上定义可以建立某种属性a对应的离散化方案D的对应表,如表1所示。表1某种属性a对应的离散化方案D的对应表Table1Correspondingtableofsomeattributecorrespondingtodiscretizationschemegl●:g●:amqmI…g卅…q从上述定义可以看出,本文提出的离散化算法对电力大数据集进行实体识别【引,实质上是通过选取适当的间断区问对数据的属性集进行划分。这样可以避免传统数据实体识别方法通常采用的针对单一实体模式特征或者基于单一类型实体属性特征的方法对数据间的关联性进行衡量时,难以对两者进行有效地整合的问题。下面给出一种Hadoop平台上一种基于信息准确率的大数据实体识别算法。2Hadoop平台上一种基于信息准确率的大数据实体识别算法传统的属性离散化算法主要用于知识发现以及知识决策等领域,检验离散化效果优劣的指标主要由信息熵来表现。信息熵作为用于度量信息量的概;吼..54..电力系统保护与控制念,可以更为细致地对离散化区间进行划分,并使离散化后的区间上的信息更加明确。但是基于信息熵的评价指标的弊端在于,虽然分类的信息量所包含的内容越来越多,但是由于离散区间的划分过于细致,会导致计算过程中产生的内存过大,对算法的效率和硬件的消耗均有影响,并且不利于后续数据的处理【9]。因此,本文在信息论的基础上,针对电力大数据属性提出了一种基于信息准确率的大数据实体识别算法ERBIA,并提出了一种新的离散化评价指标使算法的效率得到提高。2.1电力大数据的来源及特点电力系统不断运行的过程中所产生的数据也具有大数据的典型特征。电力系统大数据地理位置分布广、通信调度高度可靠、实时运行从不停止的特点决定了电力系统运行时产生的数据数量庞大、增长快速、类型丰富,完全符合大数据的描述特征,是典型的大数据。因此在电力系统数据高速增长的形势下,传统的数据处理技术不能满足从海量电力数据中快速获取知识与信息的要求,大数据技术在电力行业中的应用是电力行业信息化、智能化发展…的必然要求Ll。由于智能电网的不断深入推进,电力系统的数字化、信息化带来了更多的数据源,例如智能电表收集到的家庭和企业终端用电数据,电力设备状态监测系统从数以万计的变压器、发电机、开关设备、高压电缆等设备中获取的不断累积的监测数据,光伏和风电功率预测过程中所需的大量历史运行数据等。这些运行数据会有若干种属性,然而在监测机器是否正常运行时无关属性过多会导致决策时的效率低下。因此,将若干相似属性进行离散化处理可以简化决策过程,提高决策效率。电力大数据属性离散划分点的选取就成为提高离散化算法处理效率需要处理的首要问题。2.2信息准确率定义电力大数据属性离散化的本质是在属性的值域范围内设置离散划分点,将属性的值域划分为区间,最后用整数值点代表每种划分的属性值L1。因此首先要对划分点的选取进行研究。在本文中将划分点选取的标准定义为信息准确率,假设存在信息表,…存在属性a=1,2,3,,)的信息准确率Q,则."1Q=÷表示决策系统中属性ai的信息准确率,。冒,表示当属性a取值为i时的值,即决策属性可能取到的数目值。从定义可以看出,当Q的值越大,说明属性ai在离散化点的选取中越准确。在文献[101中已经得到证明,属性的重要程度之间在概率统计上是相互独立的,则信息表离散点总准确率可以定义为Qo=n,其中当数据量趋于无限大时,可i=1以认为各个Qf相等,将其标记为Q,则有Qo=Q,√可得Q=Q0。2.3改进的离散化评价指标在确定了信息准确率的定义之后,本文提出了一种改进的基于信息熵的离散化评价指标,用来度量电力大数据中某种属性a所对应的离散化方案D的离散效果。传统的信息熵定义表示如下。LH(X)=一Pilogzpf,Pi=ni/(2)i=1式中:ll表示的基数;属性f的实例个数为。在本文的离散化方案中,将每一个区间d上的d∑信息熵表示为HD(X)=一P,logzp,如果离散点di=1可以将集合分成两个子集一和+,则可以将点d对于集合的信息熵定义为H(X)=(I一l(一)/+…‘lXd+(H(Xd+)/j1)/1og2()。对所提出的改进的离散化评价指标定义如下:(1)当日()越大时,说明电力大数据连续属性离散化后的信息准确率越高,离散化方案的划分质量较高;(2)本文使用log:(,z)作为调节算子尽量将离散区间数限定在一个合理的范围内,避免由于区间划分得过大或者过小导致的离散结果不理想;(3)当区间取零时,表示所有划分区间类分布均匀,()取最小值。2.4算法描述算法:一种基于信息准确率的电力大数据实体识别算法。输入:训练样本监测数据集D;输出:决策表S;Ⅳ令S=(U,V,C,f),属性数目为,决策属性集为d。Stepl:通过聚类生成需要进行电力大数据预处理的初始离散点集合Sz,;Step2:计算中各个离散点的信息准确率Q=f,并对所得到的结果进行升序排列,组成信息准确率Q的集合;Step3:对离散点集合进行初始化;齐俊,等一种基于Hadoop的电力大数据属性实体识别算法-55一Step4:将中的值Q进行赋值,把得到的新集合命名为;Step5:设定划分区间数目初始值为1;Step6:对于下一个中的属性值返回执行Stepl,循环执行直到所有的属性完成;Step7:根据评价指标判断当前离散化方案是否满足()在值域范围内,如果满足则将决策结果在决策表中表示出来,即将最后的决策结果输出并保存在决策表中,若不满足则将该离散区间的方案排除执行下一区间,直至所有区间完成;Step8.将评价后的结果用数字进行编码表示,得到决策结果。3实验分析为了验证本文提出的基于信息准确率的大数据实体识别算法的有效性,本文以辽宁某风电公司并网风电机组在线监测数据为例,从算法的正确性、断点数目分析以及加速比为例进行分析[]。3.1正确性本文选取2013年12月辽宁某风电公司风电机组部分运行监测数据,选取数据中的几种运行参数作为类别属性,以离散效果作为决策条件,选取风电机组的6种不同温度作为输入数据,分别为NCC300温度,NCC320温度,机侧半导体温度,环境温度,网侧半导体温度a5和齿轮箱轴承温度。为了方便表示,本文将决策结果用三种编码表示,分别是用00表示正常,用10表示合格,用11表示不合格。表2是从监测数据中截取的部分属性的数值(单位为摄氏温度)。表2部分监测数据属性值Table2PartofthevaluesofthemonitoringdataattributeSDaLa3a4a5a6‘25.827.832.821.630.822.800226.329.332.922.631.624.110327.929.733.623.632.424.80027.130.631.823.433.124.100530.533.540.626.434.329.111t31.234.546.128.635.628.000在Eclipse环境下采用ERBIA算法对上述属性进行离散化后的数据如表3所示。可以看出,本文提出的ERBIA算法与常规算法所得出的计算结果具有一致性,而常规算法采用的整体计算均值的算法会使个别属性的评判具有较大偏差,使得决策结果与实际运行情况偏差较大。3.2断点数目分析对数据属性进行离散化的目标就是在保持原数据信息的前提下简化断点区间数,断点数目越少,说明算法对数据类别信息的完整性保持的越好。在电力系统大数据中,断点数目越少说明需要合并的数据属性越少,对原数据的破坏性越小。对于上述实验数据使用CAIM算法进行离散化处理,CAIM算法是一种全局静态的、白上而下的有监督离散化算法,该算法的优点是以实现属性相关度最大化和最少断点数为目标,因此将本文提出的ERBIA算法与CAlM算法在断点数目方面进行比较。表4是两种离散化算法在断点数目方面的比较。由表4可以看出,ERBIA算法的断点数显著减少。表4两种算法在断点数目方面的比较Table4TwokindsofalgofithmcomparinginbreakpointnumberCAIM911O5217335372312ERBIA6435673.3加速比本实验采用两台DELLPowerEdgeR720服务器。在每台服务器上安装VMwareESXI5.5虚拟机软件。此外,本实验JDK采用JDK1.6版本,程序—集成开发环境采用EclipseSDK一4.2.2,Hadoop版本是2.4.0。加速比定义为同一个任务在单处理器系统和并行处理器系统中运行时间的比率,用来衡量程序并行化的性能和效果,加速比也可以定义为在单机中运行的时间与在集群中运行的时间的比率。本文提供的测试数据集为某风电机组的运行监测数据,其中包含若干监测属性,数据大小为2G,分别在节点数为2,4,6,8的不同集群上进行加速比试验,得到的实验数据如表5所示。一一一一一。,。■罢一~~一一:一56.电力系统保护与控制表5不同节点集群的加速比Table5Speedupondifferentnodesofthecluster本文对数据进行加速比测试的主要目的是证明ERBIA算法在大数据并行处理环境下有较好的表现。从实验结果可以看出,随着节点数目的增加,算法运行时间明显减少,算法的运算速度得到提高,本文提出的算法获得了良好的加速比。4结语传统的实体识别算法只能对简单的命名等关系进行识别,而随着电力大数据时代的来临,对电力大数据中关系复杂的数据属性进行实体识别的问题已经迫在眉睫[13-15】。本文提出的ERBIA算法,针对现有实体识别算法的不足,利用离散化方法的优点,提出了一种基于信息准确率的离散化方案,并提出了一种改进的离散评价指标对算法进行评价,最后在Hadoop集群上进行了实验。实验证明了本文算法的正确性以及在离散断点数目和加速比方面的优势。下一步的工作重点是研究对大数据集冗余和相关分析的问题【l,以便更好地对大数据集进行预处理,从而为电网中的最终决策提供支持。参考文献[1]李明达,王宏志,张佳程,等.PEIF:基于并行机群的大数据实体识别算法[J].计算机研究与发展,2013,50(增刊1:211-220.LIMingda,WANGHongzhi,ZHANGJiacheng,eta1.PEIF:parallelentityresolutiononbigdata[J].JournalofComputerResearchandDevelopment,2013,50(S1):2l1.220.[23寇月,申德荣,刘恒,等.异构网络中关联实体识别模型及增量式验证算法研究[J].计算机学报,2013,—36(10):20962108.KOUYue,SHENDerong,LIUHeng,eta1.Researchonrelatedentityidentificationmodelandincrementalverificationalgorithmforheterogeneousnetworks[J].—ChineseJournalofComputers,2013,36(10):20962108.——[3]覃雄派王会举,杜小勇,等.大数据分析RDBMS与MapReduce的竞争与共生[J]_软件学报,2012,23(1):32.45.QrNXiongpai,WANGHuiju,DUXiaoyuan,eta1.Bigdataanalysis-competitionandsymbiosisofRDBMsandMapreduce[J].JournalofSoftware,2012,23(1):32-45.[4]李玲娟,张敏.云计算环境下关联规则挖掘算法的研究[J】.计算机技术与发展,2011,21(2):43.46,50.LILingjuan,ZHANGMin.Researchonalgorithmofminingassociationruleundercloudcomputingenvironment[J].ComputerTechnologyandDevelopment,2011,21(2):43-46,50.[5]LIL,WANGH,GAOH,eta1.EIF:aframeworkofeffectiveentityidentification[J].LectureNotesinComputerScience,2010:717-728.[6]曲朝阳,朱莉,张士林.基于Hadoop的广域测量系统数据处理【J】.电力系统自动化,2013,37(4):92.97.QuZhaoyang,ZHULi,ZHANGShilin.DataprocessingofHadoop-basedwideareameasurementsystem[J].AutomationofElectricPowerSys ̄ms,2013,37(4):92.97.[7]王宏志,樊文飞.复杂数据上的实体识别技术研究【J].计算机学报,2011,34(10):1843.1852.WANGHongzhi,FANWenfei.Objectidentificationoncomplexdata:asurvey[J].ChineseJournalofComputers,2011,34(10):1843-1852.[8]董雷,张昭,蒲天骄,等.基于PMU量测信息的电压稳定在线评估指标[J].电力系统保护与控制,2015,43(1n:1-6.DONGLei,ZHANGZhao,PUTianjiao,eta1.Anonlinevoltagestabilityindexbasedonmeasuringinformationofphasormeasurementunit[J].PowerSystemProtectionandControl,2015,43(11):1-6.[9]周国亮,朱永利,王桂兰,等.实时大数据处理技术在状态监测领域中的应用[J].电工技术学报,2014,29(增刊1:432.437.ZHOUGuoliang,ZHUYongli,WANGGuilan,eta1.—Realtimebigdataprocessingtechnologyapplicationinthefieldofstatemonitoring[J].TransactionsofChinaElectrotechnicalSociety,2014,29(S1):432-437.[1O]孙英娟.基于粗糙集的分类方法研究【D】.长春:吉林大学,2011.SUNYingjuan.Researchonclassificationmethodsbasedonroughset[D].Changchun:JilinUniversity,2011.[11]曲朝阳,陈帅,杨帆,等.基于云计算技术的电力大数据预处理属性约简方法【J】.电力系统自动化,2014,38(8):67-71.QUZhaoyang,CHENShuai,YANGFan,eta1.Anattributereducingmethodforelectricpowerbigdata齐俊,等一种基于Hadoop的电力大数据属性实体识别算法一57一processingbasedoncloudcomputingtechnology[J].AutomationofElectricPowerSystems,2014,38(8):67.71.[12]李辉,胡姚刚,唐显虎,等.并网风电机组在线运行状态评估方法[J].中国电机工程学报,2010,30(33):103.1O9.LIHui,HUYaogang,TANGXianhu,eta1.Methodforon-lineoperatingconditionsassessmentforad-connectedwindturbinegeneratorsystem[J].ProceedingsoftheCSEE,2010,30(33):103-109.[13]李俊刚,张爱民,张杭,等.广域保护系统数据网络可靠性评估[J】.电工技术学报,2015,30(12):344-350.LIJungang,ZHANGAimin,ZHANGHang,eta1.Reliabilityevaluationofthewideareaprotectsystem[J].TransactionsofChinaElectrotechnicalSociety,2014,—2015,30(12):344350.[14]刘巍,黄望,李鹏,等.面向智能配电网的大数据统一支撑平台体系与构架【J]_电工技术学报,2014,29(增刊—1、:486491.LIUWei,HUANGZhao,LIPeng,eta1.Summaryaboutsystemandframeworkofunifiedsupportingplatformofbigdataforsmartdistributiongrid[J].Transactionsof—ChinaElectrotechnicalSociety,2014,29(S1):486491.[15]王茂海,赵玉江,齐霞,等.电网实际运行环境中相量测量装置性能在线评价方法【J].电力系统保护与控制,2015,43(6):86-92.WANGMaohai,ZHAOYujiang,QIXia,eta1.ProposalofindexforPMUfieldperformanceevaluationinactualoperatingenvironment[J].PowerSystemProtectionand—Control,2015,43(6):8692.[16]金小明,吴鸿亮,周保荣,等.电网规划运行数据库与集成管理平台的设计与实现【J].电力系统保护与控制,—2015,43(15):126131.JINXiaoming,WUHongliang,ZHOUBaorong,eta1.Designandimplementationofintegrateddatabasemanagementplatformforpowergridplanningandoperation[J].PowerSystemProtectionandControl,2015,—43(15、:126131.收稿日期:2015-11-25;修回日期:2016-01-19作者简介:齐俊(1989-),男,通信作者,硕士研究生,研究方向为智能电网信息工程;E-mail:q ̄0427@163.com曲朝阳(1964一),男,博士,教授,主要研究方向为电力信息化、计算机网络技术;娄建楼(1972一),男,副教授,硕导,主要研究方向为云计算、物联网应用、大数据处理等。(编辑魏小丽)
您可能关注的文档
- 电流闭环对三相PWM变流器输出阻抗的影响分析.pdf
- 电流反馈型Buck变换器分岔动力学分析及稳定性控制.pdf
- 电能在线计量分析算法设计与实现.pdf
- 电流互感器饱和对低压电动机保护的影响及对策.pdf
- 电能质量复合扰动分类的研究进展.pdf
- 电能质量监测系统研究现状及发展趋势.pdf
- 电能质量扰动发生器控制策略及其实现.pdf
- 电气化铁路电能质量评估及新型控制方案研究.pdf
- 电能质量扰动信号时频原子分解的进化匹配追踪算法.pdf
- 电容器串联电抗消除谐振的最大值最小优化.pdf
- 电网备自投自适应建模方法研究.pdf
- 电网不对称故障下双馈风力发电机组穿越控制的研究.pdf
- 电网不平衡下基于滑模变结构的三相电压型PWM整流器恒频控制.pdf
- 电网电压不对称跌落时DFIG的控制策略研究.pdf
- 电网电压跌落下双馈风力发电系统强励控制.pdf
- 电网电压不平衡时永磁直驱风电机组的控制策略.pdf
- 电网调控数据综合智能分析决策架构设计.pdf
- 电网故障下直驱式风电机组建模与控制仿真研究.pdf
- 电网故障诊断的智能方法综述.pdf
- 电网规划运行数据库与集成管理平台的设计与实现.pdf
- 分享达人
- 该用户很懒,什么也没介绍
