一种基于Hadoop的电力大数据属性实体识别算法.pdf

下载文档

文档大小：395.57 KB
文档格式：pdf
约 6页
2021-06-13 发布
举报

已阅读完毕，您还可以下载文档进行保存

下载文档

文档单价：￥6.00 会员免费

开通会员可免费下载任意文档

会员免费下载以6.00元购买此文档

1、本文档共6页，内容下载后可编辑。
2、本文档内容版权归属内容提供方，所产生的收益全部归内容提供方所有。如果您对本文有版权争议，可选择认领。
3、本文档由用户上传，本站不保证质量和数量令人满意，可能有诸多瑕疵，付费之前，请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形，可联系本站下载客服投诉处理。

第４４卷第２４期２０１６年１２月１６日电力系统保护与控制ＰｏｗｅｒＳｙｓｔｅｍＰｒｏｔｅｃｔｉｏｎａｎｄＣｏｎｔｒｏｌＶｂＩ．４４Ｎｏ．２４Ｄｅｃ．１６，２０１６ＤＯＩ：１０．７６６７／ＰＳＰＣｌ５２０５３一种基于Ｈａｄｏｏｐ的电力大数据属性实体识别算法齐俊，曲朝阳，娄建楼，王冲（１．东北电力大学信息工程学院，吉林吉林１３２０１２；（２．国网内蒙古东部电力有限公司信息通信分公司，内蒙古呼和浩特０１００２０）摘要：随着大数据时代的来临，传统的实体识别技术由于电网数据体积大以及类型复杂等特性已经无法有效地进行数据预处理。近年来兴起的Ｈａｄｏｏｐ技术能够对大数据进行较好的处理。因此提出一种基于Ｈａｄｏｏｐ的电力大数据属性实体识别算法。该算法利用改进离散化算法选取出信息准确率较高的离散点，并提出了一种离散化评价指标。最后，在Ｈａｄｏｏｐ平台上对某风电机组的监测数据进行了属性实体识别。实验证明，该算法在实验正确性和断点数目方面表现良好，并且具有较好的加速比，适用于电力大数据的属性实体识别处理。关键词：电力大数据；实体识别；离散化算法；信息准确率ＡｋｉｎｄｏｆａｔｔｒｉｂｕｔｅｅｎｔｉｔｙｒｅｃｏｇｎｉｔｉｏｎａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎＨａｄｏｏｐｆｏｒｐｏｗｅｒｂｉｇｄａｔａＱＩＪｕｎ，ＱＵＺｈａｏｙａｎｇ，ＬＯＵＪｉａｎｌｏｕ，ＷＡＮＧＣｈｏｎｇ（１．ＳｃｈｏｏｌｏｆＩｎｆｏｒｍａｔｉｏｎＳｃｉｅｎｃｅａｎｄＥｎｇｉｎｅｅｒｉｎｇ，ＮｏｒｔｈｅａｓｔＤｉａｎｌｉＵｎｉｖｅｒｓｉｔｙ，Ｊｉｌｉｎ１３２０１２，Ｃｈｉｎａ；２．Ｉｎｆｏｒｍａｔｉｏｎ＆ＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎＢｒａｎｃｈＣｏｍｐａｎｙ，ＳｔａｔｅＧｒｉｄＥａｓｔＩｎｎｅｒＭｏｎｇｏｌｉａＥｌｅｃｔｒｉｃＰｏｗｅｒＣｏ．，Ｌｔｄ．，Ｈｏｈｈｏｔ０１００２０，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｗｉｔｈｔｈｅｃｏｍｉｎｇｏｆｔｈｅｅｒａｏｆｂｉｇｄａｔａ，ｔｒａｄｉｔｉｏｎａｌｅｎｔｉｔｙｒｅｃｏｇｎｉｔｉｏｎｔｅｃｈｎｏｌｏｇｉｅｓｈａｖｅｂｅｅｎｕｎａｂｌｅｔｏｅｆｆｅｃｔｉｖｅｌｙｆｉｎｉｓｈｄａｔａｐｒｅ－ｐｒｏｃｅｓｓｉｎｇｂｅｃａｕｓｅｏｆｔｈｅｌａｒｇｅｓｃａｌｅｏｆｐｏｗｅｒｇｒｉｄｄａｔａａｎｄｖｏｌｕｍｅｃｏｍｐｌｅｘｔｙｐｅｆｅａｔｕｒｅｓ．ＴｈｅｒｉｓｉｎｇｏｆｔｈｅＨａｄｏｏｐｔｅｃｈｎｏｌｏｇｉｅｓｉｎｔｈｅｓｅｙｅａｒｓｃａｒｌｄｅａｌｗｉｔｈｔｈｅｂｉｇｄａｔａｐｒｏｃｅｓｓｉｎｇｂｅｔｔｅｒ．ＴｈｅｒｅｆｏｒｅｔｈｉｓｐａｐｅｒｐｒｏｐｏｓｅｓａｐｏｗｅｒｂｉｇｄａｔａｅｎｔｉｔｙｒｅｃｏｇｎｉｔｉｏｎａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎＨａｄｏｏｐ．Ｔｈｉｓａｌｇｏｒｉｔｈｍｕｓｅｓｔｈｅｄｉｓｃｒｅｔｉｚａｔｉｏｎａｌｇｏｒｉｔｈｍｔｏｓｅｌｅｃｔｈｉｇｈｅｒｉｎｆｏｒｍａｔｉｏｎａｃｃｕｒａｃｙｄｉｓｃｒｅｔｅｐｏｉｎｔｓａｎｄｐｕｔｓｆｏｒｗａｒｄａｄｉｓｃｒｅｔｉｚａｔｉｏｎｅｖａｌｕａｔｉｏｎｉｎｄｉｃａｔｏｒ．Ｉｎｔｈｅｅｎｄ，ｔｈｅｅｎｔｉｔｙｒｅｃｏｇｎｉｔｉｏｎｏｆｔｈｅｍｏｎｉｔｏｒｉｎｇｄａｔａｏｆｗｉｎｄｔｕｒｂｉｎｅｓｉｓｆｉｎｉｓｈｅｄｏｎＨａｄｏｏｐｐｌａｔｆｏｒｍ．ＥｘｐｅｒｉｍｅｎｔａｌｒｅｓｕＲｓｓｈｏｗｔｈａｔｔｈｅｐｒｏｐｏｓｅｄａｌｇｏｒｉｔｈｍｐｅｒｆｏｒｍｓｗｅｌｌｉｎｔｅｒｍｓｏｆｃｏｒｒｅｃｔｎｅｓｓａｎｄｂｒｅａｋｐｏｉｎｔｎｕｍｂｅｒｅｘｐｅｒｉｍｅｎｔｓａｎｄｉｔｈａｓａｇｏｏｄｓｐｅｅｄ－ｕｐｒａｔｉｏ．Ｔｈｅｐｒｏｐｏｓｅｄａｌｇｏｒｉｔｈｍｃａｎｂｅａｐｐｌｉｅｄｔｏｐｏｗｅｒｌａｒｇｅｄａｔａｅｎｔｉｔｙｒｅｃｏｇｎｉｔｉｏｎｐｒｏｃｅｓｓｉｎｇ．ＴｈｉｓｗｏｒｋｉｓｓｕｐｐｏｒｔｅｄｂｙＮａｔｉｏｎａｌＮａｔｕｒａｌＳｃｉｅｎｃｅＦｏｕｎｄａｔｉｏｎｏｆＣｈｉｎａ（Ｎｏ．５１２７７０２３）．Ｋｅｙｗｏｒｄｓ：ｐｏｗｅｒｂｉｇｄａｔａ；ｅｎｔｉｔｙｒｅｃｏｇｎｉｔｉｏｎａｌｇｏｒｉｔｈｍ；ｄｉｓｃｒｅｔｉｚａｔｉｏｎ；ｉｎｆｏｒｍａｔｉｏｎａｃｃｕｒａｃｙ０引言随着信息通信技术的不断进步，数字化、信息化已经深入渗透到我们生活的方方面面，电力企业的信息化进程也得到了长足的发展。下一代智能电网的全面建设过程中产生的温度、时间等数据的关联分析也使得电力大数据的类型不断增加，对电力大数据中有效信息的分析处理要求也不断提高。如何从电力大数据中获取电力企业决策时需要的有效信息，是在大数据时代电网企业进行数据预处理时基金项目：国家自然科学基金资助项目（５１２７７０２３）；吉林省科技厅社发处重点科技攻关项目（２０１５０２０４０８４ＧＸ）…的一个重要难题。实体识别一直以来都是数据质量管理研究的一项关键技术，对能否提高数据预处理的质量起着至关重要的作用。在电力大数据中，数据类型复杂、数据表现不一致的现象更为普遍。因此，实体识别技术在电力大数据中也具有更为广泛的应用。电力大数据中的属性实体识别是在给定的大数据集中，精准地识别属于同一种实体的不同实体名和属性并将其聚类，使得每个实体在电网决策中能够被更为有价值地识别出来的过程。与传统的中文实体识别技术不同，电力大数据具有更为复杂的结构，如ＸＭＬ数据等。因此，尽可能地寻找一种有效的电力大数据实体识别方法对降低数据处理规齐俊，等一种基于Ｈａｄｏｏｐ的电力大数据属性实体识别算法一５３一模，提高数据分析效率具有重要作用，例如文献［３】利用基于并行机群的大数据实体识别算法。此算法借助ｎ．Ｇｒａｍ算法辅助解决同一物体有不同属性的问题，在短时问内对大数据高效地进行实体识别并取得了较好的效果。传统的实体识别技术有很多，但主要集中在文本形式的词组或关系数据上，针对不同类型数据的实体识别的研究还刚刚兴起。文献［４］提出了一种两阶段的关联实体识别模型，考虑了实体的模式特征与属性特征，并提出了一种增量式验证算法。当前已有的研究方法主要是面向识别的有效性，即重点在于如何能够准确地识别出描述同一实体的对象，面向大数据中的实体识别效率的技术仍然较少。而且这些方法大多针对字符串和关系元组，对ＸＭＬ数据、图数据等非结构化数据的判别方法研究仍然较少】。同时，这些算法缺少有效评估大数据实体识别结果质量的理论及公共测试数据集合。Ｈａｄｏｏｐ是一种能够对大数据进行分布式处理的基础架构平台。其架构底层ＨＤＦＳ的上层是Ｍａｐ．Ｒｅｄｕｃｅ执行引擎，该引擎由单独运行在主节点上的ＪｏｂＴｒａｃｋｅｒ和多个运行在集群节点上的ＴａｓｋＴｒａｃｋｅｒ组成。ＭａｐＲｅｄｕｃｅ是一种编程模型，用于大规模数据集的并行运算。其主要概念包括“”“”Ｍａｐ（映射）和Ｒｅｄｕｃｅ（归约）两个过程。当前的算法实现是指定一个Ｍａｐ（映射１函数，用来把一组键值对映射成一组新的键值对，指定并发的Ｒｅｄｕｃｅ（归约１函数。本文深入研究了Ｍａｐ．Ｒｅｄｕｃｅ编程模型，在电力大数据的背景下，给出了一种基于信息准确率的电力大数据实体识别算法（ＥｎｔｉｔｙＲｅｃｏｇｎｉｔｉｏｎｉｎＢｉｇＤａｔａＢａｓｅｄｏｎＩｎｆｏｒｍａｔｉｏｎＡｃｃｕｒａｃｙ，ＥＲＢＩＡ）。该算法首先通过离散化方案计算类属性的分布与属性值的相似程度，从而通过ＥＲＢＩＡ算法选出信息准确率较高的离散点，而后提出一种改进的离散化评价指标得到了最终决策结果。最后，在Ｈａｄｏｏｐ平台上对真实数据集和随机产生的数据进行了多组对比试验，得到了具有更好的有效性和高效性的电力大数据处理方案。１电力大数据实体识别离散化方案描述数据处理的首要问题是知识的表达。为了便于数据的集成处理，提高数据预处理的效率，本文采用列联表对电力大数据属性进行形式化定义，每组数据的属性形式化定义如式（１）。Ｓ＝（Ｕ，Ｖ，Ｃ，厂）（１）…在表达式中：Ｕ＝｛ａ１，ａ２，，ａ｝定义为数据的非空有限集合，称为属性域；Ｖ＝ＵＺａ（ＶａｃＣ）定义为有效信息函数厂的值域；ｃ称为属性域，并且有≠Ｃ（２ｊ；厂＝｛：Ｖ｝表示关联列表的信息函数，其中为属性ａ的信息函数。根据上述定义，电力大数据集可以表示为属性Ⅳ域中元素个数为的关系列表，即电力大数据集Ⅳ中有个属性值，对于其中的第ｉ个属性值有ａｉｃＶ，值域为ｅ，中ａｉ的值的集合可以表示为…ａ）＝｛ｑｉ，，ｉ，，：｝，其中ｎ表示ａｉ在【，中的数量。假设ａ为数据集中的任一连续属性，且在每一个连续属性上都存在一种离散化方案Ｒ，将阈值为Ⅳ的属性域集合划分为ｎ个交集为零的区间，…Ｒ：｛［Ｃｏ，Ｃ１），（Ｃｌ，ｃ２），，（ｃｎ＿ｌ，ｃｎ］｝，其中属性ａ的值域＝［Ｃｏ，Ｃ］，方案Ｒ中的值按顺序排列并组成相应ｎ…的断点集｛ＣＯ，Ｃ１，，Ｃ｝。由于断点集与所提出的离ｎ散化方案相对应，因此可以采用两者中的任意一种对属性离散化进行表述。根据以上定义可以建立某种属性ａ对应的离散化方案Ｄ的对应表，如表１所示。表１某种属性ａ对应的离散化方案Ｄ的对应表Ｔａｂｌｅ１Ｃｏｒｒｅｓｐｏｎｄｉｎｇｔａｂｌｅｏｆｓｏｍｅａｔｔｒｉｂｕｔｅｃｏｒｒｅｓｐｏｎｄｉｎｇｔｏｄｉｓｃｒｅｔｉｚａｔｉｏｎｓｃｈｅｍｅｇｌ●：ｇ●：ａｍｑｍＩ…ｇ卅…ｑ从上述定义可以看出，本文提出的离散化算法对电力大数据集进行实体识别【引，实质上是通过选取适当的间断区问对数据的属性集进行划分。这样可以避免传统数据实体识别方法通常采用的针对单一实体模式特征或者基于单一类型实体属性特征的方法对数据间的关联性进行衡量时，难以对两者进行有效地整合的问题。下面给出一种Ｈａｄｏｏｐ平台上一种基于信息准确率的大数据实体识别算法。２Ｈａｄｏｏｐ平台上一种基于信息准确率的大数据实体识别算法传统的属性离散化算法主要用于知识发现以及知识决策等领域，检验离散化效果优劣的指标主要由信息熵来表现。信息熵作为用于度量信息量的概；吼．．５４．．电力系统保护与控制念，可以更为细致地对离散化区间进行划分，并使离散化后的区间上的信息更加明确。但是基于信息熵的评价指标的弊端在于，虽然分类的信息量所包含的内容越来越多，但是由于离散区间的划分过于细致，会导致计算过程中产生的内存过大，对算法的效率和硬件的消耗均有影响，并且不利于后续数据的处理【９］。因此，本文在信息论的基础上，针对电力大数据属性提出了一种基于信息准确率的大数据实体识别算法ＥＲＢＩＡ，并提出了一种新的离散化评价指标使算法的效率得到提高。２．１电力大数据的来源及特点电力系统不断运行的过程中所产生的数据也具有大数据的典型特征。电力系统大数据地理位置分布广、通信调度高度可靠、实时运行从不停止的特点决定了电力系统运行时产生的数据数量庞大、增长快速、类型丰富，完全符合大数据的描述特征，是典型的大数据。因此在电力系统数据高速增长的形势下，传统的数据处理技术不能满足从海量电力数据中快速获取知识与信息的要求，大数据技术在电力行业中的应用是电力行业信息化、智能化发展…的必然要求Ｌｌ。由于智能电网的不断深入推进，电力系统的数字化、信息化带来了更多的数据源，例如智能电表收集到的家庭和企业终端用电数据，电力设备状态监测系统从数以万计的变压器、发电机、开关设备、高压电缆等设备中获取的不断累积的监测数据，光伏和风电功率预测过程中所需的大量历史运行数据等。这些运行数据会有若干种属性，然而在监测机器是否正常运行时无关属性过多会导致决策时的效率低下。因此，将若干相似属性进行离散化处理可以简化决策过程，提高决策效率。电力大数据属性离散划分点的选取就成为提高离散化算法处理效率需要处理的首要问题。２．２信息准确率定义电力大数据属性离散化的本质是在属性的值域范围内设置离散划分点，将属性的值域划分为区间，最后用整数值点代表每种划分的属性值Ｌ１。因此首先要对划分点的选取进行研究。在本文中将划分点选取的标准定义为信息准确率，假设存在信息表，…存在属性ａ＝１，２，３，，）的信息准确率Ｑ，则．＂１Ｑ＝÷表示决策系统中属性ａｉ的信息准确率，。冒，表示当属性ａ取值为ｉ时的值，即决策属性可能取到的数目值。从定义可以看出，当Ｑ的值越大，说明属性ａｉ在离散化点的选取中越准确。在文献［１０１中已经得到证明，属性的重要程度之间在概率统计上是相互独立的，则信息表离散点总准确率可以定义为Ｑｏ＝ｎ，其中当数据量趋于无限大时，可ｉ＝１以认为各个Ｑｆ相等，将其标记为Ｑ，则有Ｑｏ＝Ｑ，√可得Ｑ＝Ｑ０。２．３改进的离散化评价指标在确定了信息准确率的定义之后，本文提出了一种改进的基于信息熵的离散化评价指标，用来度量电力大数据中某种属性ａ所对应的离散化方案Ｄ的离散效果。传统的信息熵定义表示如下。ＬＨ（Ｘ）＝一Ｐｉｌｏｇｚｐｆ，Ｐｉ＝ｎｉ／（２）ｉ＝１式中：ｌｌ表示的基数；属性ｆ的实例个数为。在本文的离散化方案中，将每一个区间ｄ上的ｄ∑信息熵表示为ＨＤ（Ｘ）＝一Ｐ，ｌｏｇｚｐ，如果离散点ｄｉ＝１可以将集合分成两个子集一和＋，则可以将点ｄ对于集合的信息熵定义为Ｈ（Ｘ）＝（Ｉ一ｌ（一）／＋…‘ｌＸｄ＋（Ｈ（Ｘｄ＋）／ｊ１）／１ｏｇ２（）。对所提出的改进的离散化评价指标定义如下：（１）当日（）越大时，说明电力大数据连续属性离散化后的信息准确率越高，离散化方案的划分质量较高；（２）本文使用ｌｏｇ：（，ｚ）作为调节算子尽量将离散区间数限定在一个合理的范围内，避免由于区间划分得过大或者过小导致的离散结果不理想；（３）当区间取零时，表示所有划分区间类分布均匀，（）取最小值。２．４算法描述算法：一种基于信息准确率的电力大数据实体识别算法。输入：训练样本监测数据集Ｄ；输出：决策表Ｓ；Ⅳ令Ｓ＝（Ｕ，Ｖ，Ｃ，ｆ），属性数目为，决策属性集为ｄ。Ｓｔｅｐｌ：通过聚类生成需要进行电力大数据预处理的初始离散点集合Ｓｚ，；Ｓｔｅｐ２：计算中各个离散点的信息准确率Ｑ＝ｆ，并对所得到的结果进行升序排列，组成信息准确率Ｑ的集合；Ｓｔｅｐ３：对离散点集合进行初始化；齐俊，等一种基于Ｈａｄｏｏｐ的电力大数据属性实体识别算法－５５一Ｓｔｅｐ４：将中的值Ｑ进行赋值，把得到的新集合命名为；Ｓｔｅｐ５：设定划分区间数目初始值为１；Ｓｔｅｐ６：对于下一个中的属性值返回执行Ｓｔｅｐｌ，循环执行直到所有的属性完成；Ｓｔｅｐ７：根据评价指标判断当前离散化方案是否满足（）在值域范围内，如果满足则将决策结果在决策表中表示出来，即将最后的决策结果输出并保存在决策表中，若不满足则将该离散区间的方案排除执行下一区间，直至所有区间完成；Ｓｔｅｐ８．将评价后的结果用数字进行编码表示，得到决策结果。３实验分析为了验证本文提出的基于信息准确率的大数据实体识别算法的有效性，本文以辽宁某风电公司并网风电机组在线监测数据为例，从算法的正确性、断点数目分析以及加速比为例进行分析［］。３．１正确性本文选取２０１３年１２月辽宁某风电公司风电机组部分运行监测数据，选取数据中的几种运行参数作为类别属性，以离散效果作为决策条件，选取风电机组的６种不同温度作为输入数据，分别为ＮＣＣ３００温度，ＮＣＣ３２０温度，机侧半导体温度，环境温度，网侧半导体温度ａ５和齿轮箱轴承温度。为了方便表示，本文将决策结果用三种编码表示，分别是用００表示正常，用１０表示合格，用１１表示不合格。表２是从监测数据中截取的部分属性的数值（单位为摄氏温度）。表２部分监测数据属性值Ｔａｂｌｅ２ＰａｒｔｏｆｔｈｅｖａｌｕｅｓｏｆｔｈｅｍｏｎｉｔｏｒｉｎｇｄａｔａａｔｔｒｉｂｕｔｅＳＤａＬａ３ａ４ａ５ａ６‘２５．８２７．８３２．８２１．６３０．８２２．８００２２６．３２９．３３２．９２２．６３１．６２４．１１０３２７．９２９．７３３．６２３．６３２．４２４．８００２７．１３０．６３１．８２３．４３３．１２４．１００５３０．５３３．５４０．６２６．４３４．３２９．１１１ｔ３１．２３４．５４６．１２８．６３５．６２８．０００在Ｅｃｌｉｐｓｅ环境下采用ＥＲＢＩＡ算法对上述属性进行离散化后的数据如表３所示。可以看出，本文提出的ＥＲＢＩＡ算法与常规算法所得出的计算结果具有一致性，而常规算法采用的整体计算均值的算法会使个别属性的评判具有较大偏差，使得决策结果与实际运行情况偏差较大。３．２断点数目分析对数据属性进行离散化的目标就是在保持原数据信息的前提下简化断点区间数，断点数目越少，说明算法对数据类别信息的完整性保持的越好。在电力系统大数据中，断点数目越少说明需要合并的数据属性越少，对原数据的破坏性越小。对于上述实验数据使用ＣＡＩＭ算法进行离散化处理，ＣＡＩＭ算法是一种全局静态的、白上而下的有监督离散化算法，该算法的优点是以实现属性相关度最大化和最少断点数为目标，因此将本文提出的ＥＲＢＩＡ算法与ＣＡｌＭ算法在断点数目方面进行比较。表４是两种离散化算法在断点数目方面的比较。由表４可以看出，ＥＲＢＩＡ算法的断点数显著减少。表４两种算法在断点数目方面的比较Ｔａｂｌｅ４ＴｗｏｋｉｎｄｓｏｆａｌｇｏｆｉｔｈｍｃｏｍｐａｒｉｎｇｉｎｂｒｅａｋｐｏｉｎｔｎｕｍｂｅｒＣＡＩＭ９１１Ｏ５２１７３３５３７２３１２ＥＲＢＩＡ６４３５６７３．３加速比本实验采用两台ＤＥＬＬＰｏｗｅｒＥｄｇｅＲ７２０服务器。在每台服务器上安装ＶＭｗａｒｅＥＳＸＩ５．５虚拟机软件。此外，本实验ＪＤＫ采用ＪＤＫ１．６版本，程序—集成开发环境采用ＥｃｌｉｐｓｅＳＤＫ一４．２．２，Ｈａｄｏｏｐ版本是２．４．０。加速比定义为同一个任务在单处理器系统和并行处理器系统中运行时间的比率，用来衡量程序并行化的性能和效果，加速比也可以定义为在单机中运行的时间与在集群中运行的时间的比率。本文提供的测试数据集为某风电机组的运行监测数据，其中包含若干监测属性，数据大小为２Ｇ，分别在节点数为２，４，６，８的不同集群上进行加速比试验，得到的实验数据如表５所示。一一一一一。，。■罢一～～一一：一５６．电力系统保护与控制表５不同节点集群的加速比Ｔａｂｌｅ５Ｓｐｅｅｄｕｐｏｎｄｉｆｆｅｒｅｎｔｎｏｄｅｓｏｆｔｈｅｃｌｕｓｔｅｒ本文对数据进行加速比测试的主要目的是证明ＥＲＢＩＡ算法在大数据并行处理环境下有较好的表现。从实验结果可以看出，随着节点数目的增加，算法运行时间明显减少，算法的运算速度得到提高，本文提出的算法获得了良好的加速比。４结语传统的实体识别算法只能对简单的命名等关系进行识别，而随着电力大数据时代的来临，对电力大数据中关系复杂的数据属性进行实体识别的问题已经迫在眉睫［１３－１５】。本文提出的ＥＲＢＩＡ算法，针对现有实体识别算法的不足，利用离散化方法的优点，提出了一种基于信息准确率的离散化方案，并提出了一种改进的离散评价指标对算法进行评价，最后在Ｈａｄｏｏｐ集群上进行了实验。实验证明了本文算法的正确性以及在离散断点数目和加速比方面的优势。下一步的工作重点是研究对大数据集冗余和相关分析的问题【ｌ，以便更好地对大数据集进行预处理，从而为电网中的最终决策提供支持。参考文献［１］李明达，王宏志，张佳程，等．ＰＥＩＦ：基于并行机群的大数据实体识别算法［Ｊ］．计算机研究与发展，２０１３，５０（增刊１：２１１－２２０．ＬＩＭｉｎｇｄａ，ＷＡＮＧＨｏｎｇｚｈｉ，ＺＨＡＮＧＪｉａｃｈｅｎｇ，ｅｔａ１．ＰＥＩＦ：ｐａｒａｌｌｅｌｅｎｔｉｔｙｒｅｓｏｌｕｔｉｏｎｏｎｂｉｇｄａｔａ［Ｊ］．ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＲｅｓｅａｒｃｈａｎｄＤｅｖｅｌｏｐｍｅｎｔ，２０１３，５０（Ｓ１）：２ｌ１．２２０．［２３寇月，申德荣，刘恒，等．异构网络中关联实体识别模型及增量式验证算法研究［Ｊ］．计算机学报，２０１３，—３６（１０）：２０９６２１０８．ＫＯＵＹｕｅ，ＳＨＥＮＤｅｒｏｎｇ，ＬＩＵＨｅｎｇ，ｅｔａ１．Ｒｅｓｅａｒｃｈｏｎｒｅｌａｔｅｄｅｎｔｉｔｙｉｄｅｎｔｉｆｉｃａｔｉｏｎｍｏｄｅｌａｎｄｉｎｃｒｅｍｅｎｔａｌｖｅｒｉｆｉｃａｔｉｏｎａｌｇｏｒｉｔｈｍｆｏｒｈｅｔｅｒｏｇｅｎｅｏｕｓｎｅｔｗｏｒｋｓ［Ｊ］．—ＣｈｉｎｅｓｅＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒｓ，２０１３，３６（１０）：２０９６２１０８．——［３］覃雄派王会举，杜小勇，等．大数据分析ＲＤＢＭＳ与ＭａｐＲｅｄｕｃｅ的竞争与共生［Ｊ］＿软件学报，２０１２，２３（１）：３２．４５．ＱｒＮＸｉｏｎｇｐａｉ，ＷＡＮＧＨｕｉｊｕ，ＤＵＸｉａｏｙｕａｎ，ｅｔａ１．Ｂｉｇｄａｔａａｎａｌｙｓｉｓ－ｃｏｍｐｅｔｉｔｉｏｎａｎｄｓｙｍｂｉｏｓｉｓｏｆＲＤＢＭｓａｎｄＭａｐｒｅｄｕｃｅ［Ｊ］．ＪｏｕｒｎａｌｏｆＳｏｆｔｗａｒｅ，２０１２，２３（１）：３２－４５．［４］李玲娟，张敏．云计算环境下关联规则挖掘算法的研究［Ｊ】．计算机技术与发展，２０１１，２１（２）：４３．４６，５０．ＬＩＬｉｎｇｊｕａｎ，ＺＨＡＮＧＭｉｎ．Ｒｅｓｅａｒｃｈｏｎａｌｇｏｒｉｔｈｍｏｆｍｉｎｉｎｇａｓｓｏｃｉａｔｉｏｎｒｕｌｅｕｎｄｅｒｃｌｏｕｄｃｏｍｐｕｔｉｎｇｅｎｖｉｒｏｎｍｅｎｔ［Ｊ］．ＣｏｍｐｕｔｅｒＴｅｃｈｎｏｌｏｇｙａｎｄＤｅｖｅｌｏｐｍｅｎｔ，２０１１，２１（２）：４３－４６，５０．［５］ＬＩＬ，ＷＡＮＧＨ，ＧＡＯＨ，ｅｔａ１．ＥＩＦ：ａｆｒａｍｅｗｏｒｋｏｆｅｆｆｅｃｔｉｖｅｅｎｔｉｔｙｉｄｅｎｔｉｆｉｃａｔｉｏｎ［Ｊ］．ＬｅｃｔｕｒｅＮｏｔｅｓｉｎＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ，２０１０：７１７－７２８．［６］曲朝阳，朱莉，张士林．基于Ｈａｄｏｏｐ的广域测量系统数据处理【Ｊ】．电力系统自动化，２０１３，３７（４）：９２．９７．ＱｕＺｈａｏｙａｎｇ，ＺＨＵＬｉ，ＺＨＡＮＧＳｈｉｌｉｎ．ＤａｔａｐｒｏｃｅｓｓｉｎｇｏｆＨａｄｏｏｐ－ｂａｓｅｄｗｉｄｅａｒｅａｍｅａｓｕｒｅｍｅｎｔｓｙｓｔｅｍ［Ｊ］．ＡｕｔｏｍａｔｉｏｎｏｆＥｌｅｃｔｒｉｃＰｏｗｅｒＳｙｓ￣ｍｓ，２０１３，３７（４）：９２．９７．［７］王宏志，樊文飞．复杂数据上的实体识别技术研究【Ｊ］．计算机学报，２０１１，３４（１０）：１８４３．１８５２．ＷＡＮＧＨｏｎｇｚｈｉ，ＦＡＮＷｅｎｆｅｉ．Ｏｂｊｅｃｔｉｄｅｎｔｉｆｉｃａｔｉｏｎｏｎｃｏｍｐｌｅｘｄａｔａ：ａｓｕｒｖｅｙ［Ｊ］．ＣｈｉｎｅｓｅＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒｓ，２０１１，３４（１０）：１８４３－１８５２．［８］董雷，张昭，蒲天骄，等．基于ＰＭＵ量测信息的电压稳定在线评估指标［Ｊ］．电力系统保护与控制，２０１５，４３（１ｎ：１－６．ＤＯＮＧＬｅｉ，ＺＨＡＮＧＺｈａｏ，ＰＵＴｉａｎｊｉａｏ，ｅｔａ１．Ａｎｏｎｌｉｎｅｖｏｌｔａｇｅｓｔａｂｉｌｉｔｙｉｎｄｅｘｂａｓｅｄｏｎｍｅａｓｕｒｉｎｇｉｎｆｏｒｍａｔｉｏｎｏｆｐｈａｓｏｒｍｅａｓｕｒｅｍｅｎｔｕｎｉｔ［Ｊ］．ＰｏｗｅｒＳｙｓｔｅｍＰｒｏｔｅｃｔｉｏｎａｎｄＣｏｎｔｒｏｌ，２０１５，４３（１１）：１－６．［９］周国亮，朱永利，王桂兰，等．实时大数据处理技术在状态监测领域中的应用［Ｊ］．电工技术学报，２０１４，２９（增刊１：４３２．４３７．ＺＨＯＵＧｕｏｌｉａｎｇ，ＺＨＵＹｏｎｇｌｉ，ＷＡＮＧＧｕｉｌａｎ，ｅｔａ１．—Ｒｅａｌｔｉｍｅｂｉｇｄａｔａｐｒｏｃｅｓｓｉｎｇｔｅｃｈｎｏｌｏｇｙａｐｐｌｉｃａｔｉｏｎｉｎｔｈｅｆｉｅｌｄｏｆｓｔａｔｅｍｏｎｉｔｏｒｉｎｇ［Ｊ］．ＴｒａｎｓａｃｔｉｏｎｓｏｆＣｈｉｎａＥｌｅｃｔｒｏｔｅｃｈｎｉｃａｌＳｏｃｉｅｔｙ，２０１４，２９（Ｓ１）：４３２－４３７．［１Ｏ］孙英娟．基于粗糙集的分类方法研究【Ｄ】．长春：吉林大学，２０１１．ＳＵＮＹｉｎｇｊｕａｎ．Ｒｅｓｅａｒｃｈｏｎｃｌａｓｓｉｆｉｃａｔｉｏｎｍｅｔｈｏｄｓｂａｓｅｄｏｎｒｏｕｇｈｓｅｔ［Ｄ］．Ｃｈａｎｇｃｈｕｎ：ＪｉｌｉｎＵｎｉｖｅｒｓｉｔｙ，２０１１．［１１］曲朝阳，陈帅，杨帆，等．基于云计算技术的电力大数据预处理属性约简方法【Ｊ】．电力系统自动化，２０１４，３８（８）：６７－７１．ＱＵＺｈａｏｙａｎｇ，ＣＨＥＮＳｈｕａｉ，ＹＡＮＧＦａｎ，ｅｔａ１．Ａｎａｔｔｒｉｂｕｔｅｒｅｄｕｃｉｎｇｍｅｔｈｏｄｆｏｒｅｌｅｃｔｒｉｃｐｏｗｅｒｂｉｇｄａｔａ齐俊，等一种基于Ｈａｄｏｏｐ的电力大数据属性实体识别算法一５７一ｐｒｏｃｅｓｓｉｎｇｂａｓｅｄｏｎｃｌｏｕｄｃｏｍｐｕｔｉｎｇｔｅｃｈｎｏｌｏｇｙ［Ｊ］．ＡｕｔｏｍａｔｉｏｎｏｆＥｌｅｃｔｒｉｃＰｏｗｅｒＳｙｓｔｅｍｓ，２０１４，３８（８）：６７．７１．［１２］李辉，胡姚刚，唐显虎，等．并网风电机组在线运行状态评估方法［Ｊ］．中国电机工程学报，２０１０，３０（３３）：１０３．１Ｏ９．ＬＩＨｕｉ，ＨＵＹａｏｇａｎｇ，ＴＡＮＧＸｉａｎｈｕ，ｅｔａ１．Ｍｅｔｈｏｄｆｏｒｏｎ－ｌｉｎｅｏｐｅｒａｔｉｎｇｃｏｎｄｉｔｉｏｎｓａｓｓｅｓｓｍｅｎｔｆｏｒａｄ－ｃｏｎｎｅｃｔｅｄｗｉｎｄｔｕｒｂｉｎｅｇｅｎｅｒａｔｏｒｓｙｓｔｅｍ［Ｊ］．ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＣＳＥＥ，２０１０，３０（３３）：１０３－１０９．［１３］李俊刚，张爱民，张杭，等．广域保护系统数据网络可靠性评估［Ｊ】．电工技术学报，２０１５，３０（１２）：３４４－３５０．ＬＩＪｕｎｇａｎｇ，ＺＨＡＮＧＡｉｍｉｎ，ＺＨＡＮＧＨａｎｇ，ｅｔａ１．Ｒｅｌｉａｂｉｌｉｔｙｅｖａｌｕａｔｉｏｎｏｆｔｈｅｗｉｄｅａｒｅａｐｒｏｔｅｃｔｓｙｓｔｅｍ［Ｊ］．ＴｒａｎｓａｃｔｉｏｎｓｏｆＣｈｉｎａＥｌｅｃｔｒｏｔｅｃｈｎｉｃａｌＳｏｃｉｅｔｙ，２０１４，—２０１５，３０（１２）：３４４３５０．［１４］刘巍，黄望，李鹏，等．面向智能配电网的大数据统一支撑平台体系与构架【Ｊ］＿电工技术学报，２０１４，２９（增刊—１、：４８６４９１．ＬＩＵＷｅｉ，ＨＵＡＮＧＺｈａｏ，ＬＩＰｅｎｇ，ｅｔａ１．Ｓｕｍｍａｒｙａｂｏｕｔｓｙｓｔｅｍａｎｄｆｒａｍｅｗｏｒｋｏｆｕｎｉｆｉｅｄｓｕｐｐｏｒｔｉｎｇｐｌａｔｆｏｒｍｏｆｂｉｇｄａｔａｆｏｒｓｍａｒｔｄｉｓｔｒｉｂｕｔｉｏｎｇｒｉｄ［Ｊ］．Ｔｒａｎｓａｃｔｉｏｎｓｏｆ—ＣｈｉｎａＥｌｅｃｔｒｏｔｅｃｈｎｉｃａｌＳｏｃｉｅｔｙ，２０１４，２９（Ｓ１）：４８６４９１．［１５］王茂海，赵玉江，齐霞，等．电网实际运行环境中相量测量装置性能在线评价方法【Ｊ］．电力系统保护与控制，２０１５，４３（６）：８６－９２．ＷＡＮＧＭａｏｈａｉ，ＺＨＡＯＹｕｊｉａｎｇ，ＱＩＸｉａ，ｅｔａ１．ＰｒｏｐｏｓａｌｏｆｉｎｄｅｘｆｏｒＰＭＵｆｉｅｌｄｐｅｒｆｏｒｍａｎｃｅｅｖａｌｕａｔｉｏｎｉｎａｃｔｕａｌｏｐｅｒａｔｉｎｇｅｎｖｉｒｏｎｍｅｎｔ［Ｊ］．ＰｏｗｅｒＳｙｓｔｅｍＰｒｏｔｅｃｔｉｏｎａｎｄ—Ｃｏｎｔｒｏｌ，２０１５，４３（６）：８６９２．［１６］金小明，吴鸿亮，周保荣，等．电网规划运行数据库与集成管理平台的设计与实现【Ｊ］．电力系统保护与控制，—２０１５，４３（１５）：１２６１３１．ＪＩＮＸｉａｏｍｉｎｇ，ＷＵＨｏｎｇｌｉａｎｇ，ＺＨＯＵＢａｏｒｏｎｇ，ｅｔａ１．Ｄｅｓｉｇｎａｎｄｉｍｐｌｅｍｅｎｔａｔｉｏｎｏｆｉｎｔｅｇｒａｔｅｄｄａｔａｂａｓｅｍａｎａｇｅｍｅｎｔｐｌａｔｆｏｒｍｆｏｒｐｏｗｅｒｇｒｉｄｐｌａｎｎｉｎｇａｎｄｏｐｅｒａｔｉｏｎ［Ｊ］．ＰｏｗｅｒＳｙｓｔｅｍＰｒｏｔｅｃｔｉｏｎａｎｄＣｏｎｔｒｏｌ，２０１５，—４３（１５、：１２６１３１．收稿日期：２０１５－１１－２５；修回日期：２０１６－０１－１９作者简介：齐俊（１９８９－），男，通信作者，硕士研究生，研究方向为智能电网信息工程；Ｅ－ｍａｉｌ：ｑ￣０４２７＠１６３．ｃｏｍ曲朝阳（１９６４一），男，博士，教授，主要研究方向为电力信息化、计算机网络技术；娄建楼（１９７２一），男，副教授，硕导，主要研究方向为云计算、物联网应用、大数据处理等。（编辑魏小丽）

您可能关注的文档

分享达人: 该用户很懒，什么也没介绍

联系作者