一种基于Spark和聚类分析的辨识电力系统不良数据新方法.pdf

下载文档

文档大小：544.79 KB
文档格式：pdf
约 7页
2021-06-13 发布
举报

已阅读完毕，您还可以下载文档进行保存

下载文档

文档单价：￥6.00 会员免费

开通会员可免费下载任意文档

会员免费下载以6.00元购买此文档

1、本文档共7页，内容下载后可编辑。
2、本文档内容版权归属内容提供方，所产生的收益全部归内容提供方所有。如果您对本文有版权争议，可选择认领。
3、本文档由用户上传，本站不保证质量和数量令人满意，可能有诸多瑕疵，付费之前，请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形，可联系本站下载客服投诉处理。

第４４卷第３期电力系统保护与控制！垒生旦！旦旦竺！！墨！！！堡！！竺坐！Ｄ０Ｉ：１０．７６６７／ＰＳＰＣ１５０５４８Ｖｌｏ１．４４ＮＯ．３Ｆｅｂ．１，２０１６一种基于Ｓｐａｒｋ和聚类分析的辨识电力系统不良数据新方法孟建良，刘德超（华北电力大学控制与计算机工程学院，河北保定０７１００３）摘要：随着电力系统智能化建设的不断深入和推进，电力系统数据呈现海量化、高维化的趋势。针对电力系统中的不良数据将导致电力系统状态估计结果的准确性降低，而传统聚类算法处理海量高维数据时单机计算资源不足，—近年来较流行的ＭａｐＲｅｄｕｃｅ框架不能有效处理频繁迭代计算等问题，提出一种基于Ｓｐａｒｋ的并行Ｋｍｅａｎｓ算法辨—识不良数据的新方法。以某一节点电力负荷数据为研究对象，运用基于Ｓｐａｒｋ的并行Ｋｍｅａｎｓ聚类算法提取出日负荷特征曲线，分别对输电网状态估计中的不良数据进行检测和辨识。选用ＥＵＮＩＴＥ提供的真实电力负荷数据进行实验，结果表明此方法能有效提高状态估计结果的准确性，与基于ＭａｐＲｅｄｕｃｅ框架的方法相比，具有更好的加速比、扩展性，能更好地处理电力系统的海量数据。关键词：Ｓｐａｒｋ；聚类；Ｋ．ｍｅａｎｓ；电力系统；不良数据；负荷曲线分类ＡｎｅｗｍｅｔｈｏｄｆｏｒｉｄｅｎｔｉｆｙｉｎｇｂａｄｄａｔａｏｆｐｏｗｅｒｓｙｓｔｅｍｂａｓｅｄｏｎＳｐａｒｋａｎｄｃｌｕｓｔｅｒｉｎｇａｎａｌｙｓｉｓＭＥＮＧＪｉａｎｌｉａｎｇ，ＬＩＵＤｅｃｈａｏ（ＳｃｈｏｏｌｏｆＣｏｎｔｒｏｌａｎｄＣｏｍｐｕｔｅｒＥｎｇｉｎｅｅｒｉｎｇ，ＮｏｒｔｈＣｈｉｎａＥｌｅｃｔｒｉｃＰｏｗｅｒＵｎｉｖｅｒｓｉｔｙ，Ｂａｏｄｉｎｇ０７１００３，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｗｉｔｈｔｈｅｄｅｖｅｌｏｐｍｅｎｔｏｆｉｎｔｅｌｌｉｇｅｎｔｐｏｗｅｒｓｙｓｔｅｍｃｏｎｓｔｒｕｃｔｉｏｎ，ｐｏｗｅｒｄａｔａｓｈｏｗｓａｍａｓｓｉｖｅａｎｄｍｕｌｔｉｄｉｍｅｎｓｉｏｎｓｔｒｅｎｄｓ．Ｔｈｅｂａｄｄａｔａｉｎｐｏｗｅｒｓｙｓｔｅｍｒｅｄｕｃｅｓｔｈｅａｃｃｕｒａｃｙｏｆｔｈｅｅｓｔｉｍａｔｉｏｎｒｅｓｕｌｔｓｉｎｔｈｅｓｔａｔｅｏｆｔｈｅｐｏｗｅｒｓｙｓｔｅｍ，ｃｏｍｐｕｔａｔｉｏｎａｌｒｅｓｏｕｒｃｅｓｏｆｔｈｅｔｒａｄｉｔｉｏｎａｌｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｓｄｅａｌｉｎｇｗｉｔｈｍａｓｓｉｖｅｈｉｇｈｄｉｍｅｎｓｉｏｎａｌｄａｔａｗｉｔｈｓｉｎｇｌｅｍａｃｈｉｎｅａｒｅｉｎｓｕｆｆｉｃｉｅｎｔ，ａｎｄｔｈｅＭａｐＲｅｄｕｃｅ，ｍｏｒｅｐｏｐｕｌａｒｉｎｒｅｃｅｎｔｙｅａｒｓ，ｃａｎｎｏｔｅｆｆｅｃｔｉｖｅｌｙｄｅａｌｗｉｔｈｆｒｅｑｕｅｎｔｉｔｅｒａｔｉｏｎｃａｌｃｕｌａｔｉｏｎｐｒｏｂｌｅｍ．Ａｃｃｏｒｄｉｎｇｔｏｔｈｅａｂｏｖｅ，ｔｈｉｓｐａｐｅｒｐｕｔｓｆｏｒｗａｒｄａｎｅｗｍｅｔｈｏｄｏｆｉｄｅｎｔｉｆｙｉｎｇｂａｄｄａｔａｗｉｔｈ——ｐａｒａｌｌｅｌＫｍｅａｎｓａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎＳｐａｒｋ．Ｔｏａｃｅｒｔａｉｎｎｏｄｅｌｏａｄｄａｔａａｓｔｈｅｍｓｅａｒｃｈｏｂｊｅｃｔ，ｔｈｅｐａｒａｌｌｅｌＫｍｅａｎｓｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎＳｐａｒｋｉｓｕｓｅｄｔｏｅｘｔｒａｃｔｄａｉｌｙｌｏａｄｃｈａｒａｃｔｅｒｉｓｔｉｃｃｕｒｖｅ，ｔｏｄｅｔｅｃｔａｎｄｉｄｅｎｔｉｆｙｂａｄｄａｔａｉｎｓｔａｔｅｅｓｔｉｍａｔｉｏｎｏｆｐｏｗｅｒｔｒａｎｓｍｉｓｓｉｏｎｎｅｔｗｏｒｋｒｅｓｐｅｃｔｉｖｅｌｙ．ＥｘｐｅｒｉｍｅｎｔｓａｒｅｃｏｎｄｕｃｔｅｄｗｉｔｈｔｈｅｄａｔａｏｆｔｈｅｒｅａｌｌｏａｄｐｒｏｖｉｄｅｄｂｙＥＵＮＩＴＥ，ｔｈｅｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｉｓｍｅｔｈｏｄｃａｎｅｆｆｅｃｔｉｖｅｌｙｉｍｐｒｏｖｅｔｈｅａｃｃｕｒａｃｙｏｆｓｔａｔｅｅｓｔｉｍａｔｉｏｎ，ａｎｄｃｏｍｐａ—ｒｅｄｗｉｔｈｔｈｅｍｅｔｈｏｄｂａｓｅｄｏｎｔｈｅＭａｐＲｅｄｕｃｅ，ｉｔｈａｓｂｅｔｔｅｒｓｐｅｅｄｕｐｒａｔｉｏ，ｓｃａｌａｂｉｌｉｔｙ，ａｎｄＣａｌｌｂｅｔｔｅｒｐｒｏｃｅｓｓｍａｓｓｉｖｅｄａｔａｉｎｐｏｗｅｒｓｙｓｔｅｍ．Ｋｅｙｗｏｒｄｓ：Ｓｐａｒｋ；ｃｌｕｓｔｅｒｉｎｇ；Ｋ－ｍｅａｎｓ；ｐｏｗｅｒｓｙｓｔｅｍ；ｂａｄｄａｔａ；ｌｏａｄｃｕｒｖｅｃｌａｓｓｉｆｉｃａｔｉｏｎ０引言随着智能电网的迅速发展，电力系统的数据呈指数级增长，其结构和运行模式也越来越复杂，因此对系统运行的可靠性、安全性和稳定性也就提出了更高的要求Ｌ１］。电力系统状态估计是电力系统信息管理系统中一个重要的组成部分【４Ｊ。由于客观原因，除了正常的数据噪声，各信息采集单元所获取的测量数据不可避免会有不良数据。不良数据的存在会在不同程度上使电力系统状态估计结果失真，从而不能准确得到系统真实的运行状态，可能会引发未知的安全后果。因此，对不良数据进行检测和处理就显得尤为重要曲Ｊ。传统不良数据检测方法取得了大量成果，但仍有不少问题未得到妥善解决。现今对电力数据进行分析和分类控制时，前期处理大多用的是神经网络法和聚类分析法等。文献［７］运用基于蚁群优化算法的负荷序列聚类分析，提高了对外部气象等因素的敏感性，对负荷曲线轮廓相似性具有更细致的聚类性能，但聚类时间较长；文献［８］将模糊聚类技术与．８６一电力系统保护与控制人工神经网络中的ＢＰ网络相结合，通过Ｃ均值模糊聚类方法实现不同用户日负荷曲线的分类；文献［９】提出－－，００基于传统Ｋ．ｍｅａｎｓ聚类算法并结合有效指数准则的不良数据检测和处理方法，但收敛速度慢且易陷入局部极小。为了提高处理海量数据的能力，文献［１０］在Ｈａｄｏｏｐ￣；平台下，建立并行局部加权线性回归模型，并采用最大熵建立坏数据分类模型。然而这些算法几乎都是通过大量的频繁迭代来实现，算法复杂度相当高。尽管传统串行算法可以对电力负荷数据进行聚类，但单机的计算资源依然无法满足算法在处理海量高维数据时大量的资源消耗；而基于ＭａｐＲｅｄｕｃｅ的算法能处理海量数据，却不能有效处理频繁迭代计算。随着电力系统智能化建设的不断深入，对不良数据的处理有了更高的要求，云计算的出现，为更准确地进行不良数据的检测与辨识提供了可能１－１２］。围绕上述问题，对输电网状态估计中的不良数据进行识别和纠正，以提高状态估计的准确性。以某个节点的历史负荷数据为研究对象，在云集群环境下，利用基于Ｓｐａｒｋ的并行Ｋ．ｍｅａｎｓ算法对该节点的负荷数据进行聚类，提取出日负荷特征曲线；通过与特征曲线对比，辨别和处理不良数据。通过在实验室搭建的Ｈａｄｏｏｐ和Ｓｐａｒｋ云集群，并采用真实电力负荷数据进行算例分析，验证基于Ｓｐａｒｋ平台的方法得到的状态估计结果准确性优于基于传统Ｋｍｅａｎｓ聚类的方法Ｊ，与传统Ｈａｄｏｏｐ平台相比，具有更好的加速比、扩展性，能更好地满足处理电力系统海量数据的需求。１基于Ｓｐａｒｋ改进的Ｋ．ｍｅａｎｓ并行算法１．１传统Ｋ．ｍｅａｎｓ算法传统Ｋ．ｍｅａｎｓ算法［１３－１４的基本思想：首先从ＪＶ个数据对象中随机初始化个聚类中心；对于剩下的其他对象，计算其与个聚类中心的距离，分别将其分配给与其距离最近的类簇；然后再计算每个类簇新的聚类中心，即该类簇中所有对象的均值；不断重复这一过程直到标准测度函数开始收敛为止。一般都采用簇内误差平方总和作为标准测度函数，其定义为．，＝—ｌｌ（１）ｉ＝１Ｉ其中：为簇的总数；，为簇的平均值。—１．２基于Ｓｐａｒｋ改进的Ｋｍｅａｎｓ并行算法１．２．１Ｓｐａｒｋ架构和弹性分布式数据集ＲＤＤＳｐａｒｋ由加州大学伯克利分校ＡＭＰＬａｂ开发，由于引进了弹性分布式数据集（ＲｅｓｉｌｉｅｎｔＤｉｓｔｒｉｂｕｔｅｄＤａｔａｓｅｔ，ＲＤＤ）［１５１的概念，Ｓｐａｒｋ可在集群计算中将数据集分布式缓存在各节点内存中，省去大量的磁盘ＩＯ操作，从而大大缩短访问延迟。作为Ｓｐａｒｋ架构的核心机制，ＲＤＤ是一种基于分布式内存的并行数据结构，它能将用户数据存储在内存，并控制分区划分以优化数据分布。数据存储在内存中，尤其对于需要多次迭代使用的数据，省去了多次载入到内存和存储到磁盘的过程，大大加快了处理速度。Ｓｐａｒｋ还支持ＲＤＤ的显式缓存（ｃａｃｈｅ）及持久化（ｐｅｒｓｉｓｔｅｎｃｅ）存储。Ｓｐａｒｋ运行架构如图１所示，Ｓｐａｒｋ应用在集群上以独立的执行器（ｅｘｅｃｕｔｏｒ）运行在不同节点，在主程序中以ＳｐａｒｋＣｏｎｔｅｘｔ对象来进行总体调度。ＳｐａｒｋＣｏｎｔｅｘｔ可以与三类集群资源管理器（Ｓｔａｎｄａｌｏｎｅ、Ｍｅｓｏｓ或者ＹＡＲＮ）￣ｆＭ连接，集群资源管理器的作用为在不同Ｓｐａｒｋ应用间分配资源。Ｓｐａｒｋ在执行程序时，需要将应用代码发送给工作节点（ｗｏｒｋｅｒｎｏｄｅ）的执行器去执行任务（ｔａｓｋ１，以尽可能实现数据的本地化计算。ＤｒｉｖｅｒＰｒｏｇｒａｍＳｐａｒｋＣｏｎｔｅｘｔ网网ＪＲＤＤＤＡＧＪＣｌｉｅｎｔＷｏｒｋＥｘｅｃｕｔ０ｒＩｃ￣ｏｈｏＩＤＡＧＳｃｈｅｄｕｌｅｒＴａｓｋＳｃｈｅｄｕｌｅ回囤Ｉ图１ｓｐａｒｋ运行架构Ｆｉｇ．１Ｓｐａｒｋｒｕｎｎｉｎｇａｒｃｈｉｔｅｃｔｕｒｅ—１．２．２改进Ｋｍｅａｎｓ算法思想—传统Ｋｍｅａｎｓ聚类算法属于聚类中一种基本的划分方法，具有简单、快速的优点。然而这种算法对初值的依赖性很强，初值选取的不同往往导致聚类结果相当不稳定。其次，当初始聚类中心选择不“当时，算法极易陷入局部极小点；并且容易受噪”声数据的影响。其复杂度由Ｏ（ｒＫＮ）表示，其中Ⅳ是期望的聚类簇的个数，是迭代次数，是数据对象的个数；则其并不能适合处理海量数据。因此考虑用最大最小距离法来优化初始聚类中心。Ⅳ当最大最小距离法处理的样本规模为，每次Ⅳ寻找新的聚类中心时，很明显要进行次距离计算。若共找到ｋ个聚类中心，则算法结束时共进行的计ⅣⅣ算次数为。最大最小距离法的计算量取决于的规模，直接将最大最小距离法作用于原始数据集的执行效率很低。考虑到数据集合本身的规律性以孟建良，等一一种基于Ｓｐａｒｋ和聚类分析的辨识电力系统不良数据新方法一８７一及算法的适用性，因此将其与抽样技术相结合。初值优化流程图如图２所示。ｌ原始数据集０…１第１次随机抽样ｌｌ第２次机抽样ｌＩ第３次随机抽样ｌｌ第做随机抽样ｌｆ得到扪样样本１ｉｆ得到扪样样本２ｆｆ得剑抽样样本３ｆ｛得到抽样样本Ｉ，ｆ最夫最ＪＪ、，离法艘最大最小跑．嚼法搜最大最小离法搜鼓人最小册搿法搜…索ｍ个例始聚类索个棚始聚类索出个初始聚类索出个初始聚类一Ｉ・心，Ｊ＿｝ＩＦ】表小ｒｌ】．，丌ｊＦ２农小ｒ，用Ｆ３表小中心，用表示第阶段初始聚类巾心集合：Ｉ…Ｇ＝（Ｆ１）Ｕ（Ｆ２）Ｕ（Ｆ３）ｕ（Ｆ，）ｌ・Ｇｆ一再次ｍ最火最，、距离法搜索出个最佳树始聚类中心，蔷阶段初始聚类中心图２初值优化流程图Ｆｉｇ．２Ｆｌｏｗｃｈａｒｔｏｆｉｎｉｔｉａｌｖａｌｕｅｏｐｔｉｍｉｚａｔｉｏｎ首先对原始数据集进行多次随机抽样，然后基于Ｓｐａｒｋ运用两阶段最大最小距离法以产生最佳初始聚类中心，最后再用基于Ｓｐａｒｋ的并行Ｋ．ｍｅａｎｓ算法进行聚类。因此，此算法的处理流程为：多次随机抽样、最大最小距离法搜索出最佳初始聚类中心、Ｋ．ｍｅａｎｓ迭代处理。该算法通过优化Ｋ．ｍｅａｎｓ算法中初始聚类中心，获得更准确的负荷特征曲线；利用Ｓｐａｒｋ并行计算框架实现并行化，克服无法处理海量电力数据的问题，最终实现精确高效的电力负荷曲线分类。１．２．３基于Ｓｐａｒｋ的改进Ｋ．ｍｅａｎｓ算法并行化实现—利用Ｓｐａｒｋ并行实现Ｋｍｅａｎｓ，总体上也是采“”“”用ｍａｐｒｅｄｕｃｅ的思想，即在每次迭代中，先“”用ｍａｐ计算所有样本和中心点距离并归类，再“”用ｒｅｄｕｃｅ分类求均值算得新的中心点。然而与Ｈａｄｏｏｐ的ＭａｐＲｅｄｕｃｅ［Ｊ最大的不同是，Ｓｐａｒｋ对所有中心点的所有次迭代运算都是在内存中对ＲＤＤ计算完成，中间不需要与磁盘交互，而Ｈａｄｏｏｐ的这个过程则要与磁盘有，ｚｆ迭代次数×分类数）次的—交互。基于Ｓｐａｒｋ的改进Ｋｍｅａｎｓ算法实现如图３所示。基于Ｓｐａｒｋ的Ｋ．ｍｅａｎｓ算法并行化实现分两部分。第一部分，首先读取ＨＤＦＳ的文件ｆ已经预处理过的文件）并创建新的ＲＤＤ，并在本地执行Ｃａｃｈｅ操作缓存ＲＤＤ数据。之后多次随机抽样产生个抽样样本，在Ｍａｐ过程利用最大最小距离法在本地产生若干初始聚类中心集合，然后在Ｒｅｄｕｃｅ过程将这些初始聚类中心集合汇总，再次调用最大最小距离法得到最佳初始聚类中心集合。第二部分，通过Ｍａｐ操作执行局部数据的聚类，Ｒｅｄｕｃｅ操作执行汇总局部数据的聚类，计算全局的聚簇。聚类算图３基于Ｓｐａｒｋ的改进Ｋ．ｍｅａｎｓ算法流程图Ｆｉｇ．３ＦｌｏｗｃｈａｒｔｏｆｉｍｐｒｏｖｅｄＫ－ｍｅａｎｓａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎＳｐａｒｋ法的并行化执行是由Ｓｐａｒｋ￣核调度完成，内核会根据工作节点数目，自动将数据集及执行任务分配到不同节点，继而多个计算节点会并行执行聚类计算。与Ｈａｄｏｏｐ￣比，新一代并行计算架构Ｓｐａｒｋ的最大优势是以ＲＤＤ内存计算为核心，即将迭代计算的数据块定义为ＲＤＤ，以分区ｆＰａｒｔｉｔｉｏｎｓ）的形式分布存储在不同节点的内存中，再由位于这些节点的Ｔａｓｋｓ针对本地内存Ｐａｒｔｉｔｉｏｎｓ重复完成迭代计算即可，中间完全无需和磁盘进行交互。—２基于并行Ｋｍｅａｎｓ聚类的负荷特征曲线提取以一个节点一天２４小时所测量的负荷数据为纵坐标，以该天各个测量时刻点为横坐标，得出该天的负荷曲线。不良负荷数据在这里特指某个或多个时刻点的负荷值偏离正常值过多。要辨别一条曲线上的某个数据是否为不良数据，需要一个正常数据作为参考，这个参考标准就是负荷特征曲线。相邻几天内的负荷曲线是类似的，下面就是根据曲线的相似性来检测和处理不良数据。为了方便论述，这里定义几个概念。定义１一天中连续ｍ个时间点上测量的负荷值连成的曲线称作负荷曲线，记为…ｘｉ２，，Ｘｉｍ），为第ｋ个测量时间点，ｘ为第ｋ个测量时间…点的负荷值，ｋ＝ｌ，２，，ｍ。则一条负荷曲线即为本文算法中的一个样本。负荷曲线的相似性是辨别和处理不良数据的关键。以直角坐标为参考，纵向相似性特指相邻几天一８８－电力系统保护与控制皇曲线的形状是类似的，这里以曲线问的距３基于负荷特征曲线的不良数据处理离来表征。尘硝’帕儿挂定义２负荷曲线和的距离…＝ｍａｘ｛Ｉ一ＸｊｋＩ｝，ｋ：ｌ，２，，ｍ即两条曲线的距离就是两条曲线上各个测量点上的负荷值差中的最大值。距离Ｄ，越小，则曲线和曲线的相似度就越高，反之则相似度越小。相似精度在一定范围内的曲线归为一个曲线类，也就相当于用本文算法聚类后的一个结果类；这里也把这个范围叫做相似精度。…定义３记曲线类Ｃ为，，），其中，…，Ｘｉｎ）。曲线类Ｃ的相似精度为Ｅ（Ｃ）＝ｍ—ａｘ，ｍ—ａｘ．一ｘｊｉ＝１２ｍｋ＝ｌ２ｎｆｊ，．．．一．…ＬｌｌＪｊ＝ｌ，３，ｔ，ｍ最后给出质心的概念，也即负荷特征曲线。定义４曲线类Ｃ的质心为…Ｃ＝Ｉ，，，ｌ一１＝二，１ｋｍ百定义５定义曲线和曲线类ｃ的距离为曲线到质心Ｃ的距离ｃ…ｍａ．…ｘ．ｉ一负荷特征曲线的提取本质上就是求取各个曲线类的质心。不良数据的产生是偶然的，在所有的数据中所占比例极小，因此它对质心的求取影响也是极小的。要辨别出不良数据首先得辨别出不良数据所在的负荷曲线。正常负荷曲线模式也即负荷特征曲线，要将不正常的负荷曲线提取出来，可以转化为求取到负荷特征曲线也即质心的距离大于某个阈值的负荷曲线。本质上来说，这就是数据挖掘中的聚类分析问题。聚类分析可以将负荷曲线集分成若干个曲线类。根据定义１，负荷曲线的横坐标由各个测量时间序列组成，…ｍＸｆ２，，Ｘｉｍ），每个时间点Ｘｉｋ就是～个属性。显然，这是一个ｍ维的样本。将所有这样的样本作为本文算法的输入，设定阂值相似精度。正常天气情况下，工作日，周末和节假日的用电负荷显然是不同的。对于配电网来说，即便是同样的日期，不同用户（如居民用电，企业用户和商业用电、的负荷曲线显然也是不同的，因此本文算法中的取值肯定是大于等于２的。因为数据来源和篇幅限制，本文只讨论输电网状态估计中的不良数据处理。假设某个曲线类Ｃ提取出来的负荷特征曲线为，待检测负荷曲线为＝…，Ｘｉｍ）。从模式识别的角度，辨别含有不良数据的负荷曲线就是计算待检测负荷曲线与负荷特征曲线的距离Ｄ加观察其是否在设定的Ｄ内。如果距离在Ｄ，内，则该待检测负荷曲线便属于正常负荷曲线模式。否则，该待测负荷曲线即为非正常负荷曲线。假设待检测负荷曲线中的负荷值与负荷特征曲线相应位置的负荷值的差值超过预定范围，则可确定该时间点即为不良数据的具体位置。设…ｍ，，Ｘｉｍ），为一天中的采样时刻点数。对于采样时间点ｋ，和对应的负荷值分别为腑和Ｘ施，则相对于负荷特征曲线的负荷变化率为（＝一×１００％。根据运行该算法时所设定的阈值计算出该曲线类Ｃ历史上该点的负荷变化率的范围，若（在这个范围内，则为该点为正常数据，反之为不良数据，并且ｋ点也是该不良数据的具体位置。判定某一个时刻点的数据为不良数据后，可以根据提取出来的特征曲线进行不良数据的修正。由于从曲线集中提取出来的特征曲线不止一条，在修正之前必须正确找到对应的特征曲线。每条特征曲线就是一个质心，每个质心对应一个曲线类，只要找到离待检测负荷曲线正常数据点距离最近的质心，该质心就是所对应的特征曲线。再以该特征曲线为基准进行修正，具体的修正公式为砌（ｆ）×１＋Ｉ／２（２…ｉ＝ｐ，ｐ＋ｌ，，式中：为待检测负荷曲线；为修复好的负荷曲线；为特征曲线；Ｐ到ｑ是上的不良数据。该方法主要是利用负荷曲线的横向相似性，将特征曲线对应位置的值平移嫁接到待检测曲线上。４实验与算例分析４．１实验环境实验平台配置为１０个服务器节点，每个节点均为双核、４ＧＢ内存的ＰＣ；其中一台作为ｍａｓｔｅｒ，其他９台作为ｓｌａｖｅｓ；每个节点操作系统均为ＬｉｎｕｘＵｂｕｎｔｕｌ２．０４ｄｅｓｋｔｏｐ；Ｈａｄｏｏｐ版本为２．２．０，Ｊａｖａ开发包为ＪＤＫ１．６版本，Ｈａｄｏｏｐ程序使用ｊａｖａ编写；Ｓｐａｒｋ版本为１．０．２，ｓｃａｌａ版本为２，９．３，Ｓｐａｒｋ程序由ｓｃａｌａ编写。孟建良，等一种基于Ｓｐａｒｋ和聚类分析的辨识电力系统不良数据新方法—————＝＿Ｉ：电力负荷数据采集白ＳＣＡＤＡ系统，由于客观原因，各信息采集单元所获取的测量数据不可避免会有不良数据，且具有偶然性、分布不确定性。验证该方法检测和辨识不良数据的实用性，算例分析数据集选用欧洲智能技术网络（ＥｕｒｏｐｅａｎＮｅｔｗｏｒｋｏｎＩｎｔｅｌｌｉｇｅｎｔＴｅｃｈｎｏｌｏｇｉｅｓ，ＥＵＮＩＴＥ）组织的中期电力负荷预测竞赛提供的某地区１９９７、１９９８年真实负荷数据＂１。以其中１９９７年１月至１２Ｎ每天２４点的实测负荷数据为研究对象，一共３６５天的负荷数据，其日负荷曲线如图４所示。２４６８１０１２１４１６１８２Ｏ２２２４时Ｎｔ图４日负荷曲线实验分别在Ｈａｄｏｏｐ￣ｌＪＳｐａｒｋ集群平台上进行测试，共进行了２类实验：（１）基于ｓｐａｒｋ平台的状态估计结果准确性测试；ｆ２）基于Ｈａｄｏｏｐ￣１］Ｓｐａｒｋ平台的并行ｋ．ｍｅａｎｓ算法加速比、扩展率测试。４．２算例分析４．２．１状态估计结果准确性本实验将基于Ｓｐａｒｋ的并行Ｋ．ｍｅａｎｓ算法与传统—Ｋｍｅａｎｓ算法【７Ｊ进行比较，测试本文算法的状态估计准确性及收敛速度。为了测试该方法能否对出现在同一日连续时段内的多个不良数据进行准确辨识，以上面数据集为研究对象，人为设置一些不良数据点。将３月１０日的第ｌ２、ｌ３、１４点原始数据６５２、６４３、６３８分别增加６０％的误差，变为１０４３．２、１０２８．８、１０２０．８，并对含有这三个不良数据的数据集分别用两种方法进行聚类，这样就得到两组特征曲线。则３月１０日对应的日负荷曲线与两组日负荷特征曲线分别如图５、图６所示。其中粗线表示２月１０日负荷曲线对应的特征曲线。第１２、１３、１４点数据在两种方法下的负荷变化率分别为：｛４０．４６％、３９．０９％、３９．４４％｝、｛４０．０１％、３８．６５％、３９．１８％｝，这几个变化率均不在正常范围内，则被认定为是不良数据。应用式（２）对这些不良时刻图５传统Ｋ．ｍｅａｎｓ算法下日负荷特征曲线Ｆｉｇ．５Ｄａｉｌｙｌｏａｄｃｈａｒａｃｔｅｒｉｓｔｉｃｃｕｒｖｅｗｉｔｈｔｈｅ—ｔｒａｄｉｔｉｏｎａｌＫｍｅａｎｓａｌｇｏｒｉｔｈｍ时刻ｆ图６基ＺＰＳｐａｒｋ￣并行Ｋ－ｍｅａｎｓ算法下日负荷特征曲线—Ｆｉｇ．６ＤａｉｌｙｌｏａｄｃｈａｒａｃｔｅｒｉｓｔｉｃｃｕｒｖｅｗｉｔｈｐａｒａｌｌｅｌＫｍｅａｎｓａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎＳｐａｒｋ数据进行修正，两种方法下修正后的数据与其实际值的误差百分比及两种方法的收敛速度见表１。—表１基：￣ＳｐａｒｋｆｌｔＪ并行Ｋ－ｍｅａｎｓ算法和传统Ｋｍｅａｎｓ算法两种情况下的误差百分比及收敛速度Ｔａｂｌｅ１Ｅｒｒｏｒｐｅｒｃｅｎｔａｇｅａｎｄｃｏｎｖｅｒｇｅｎｃｅｒａｔｅｏｆｔｗｏｍｅｔｈｏｄｓ测试两种方法的收敛速度，即各自完成聚类需要的迭代次数。由表分析可知，基于Ｓｐａｒｋ的并行—Ｋｍｅａｎｓ算法下修正后的数据和实际数据更接近，误差百分比更小，迭代次数更少，状态估计结果的准确性及收敛速度优于基于传统Ｋ．ｍｅａｎｓ聚类的方法。因此可知，本文方法为输电网状态估计提供了相对精度高的量测值，降低了不良数据的影响，加快了收敛速度，确保了电力系统安全运行的可靠性。４．２．２加速比、扩展性加速比是指通过并行计算使运行时问减少所瑚枷枷猢㈣蝴㈣枷瑚藕挺．９０．电力系统保护与控制获得的性能提升，它是衡量并行计算性能的一个重要指标，其计算公式为Ｓｄ＝ＴＪＴｄ，其中表示串行算法（即在单节点上）计算所消耗的时间，乃表示并行算法（即在相同节点上）计算所消耗的时间。加速比越大，表明并行计算消耗的相对时间越少，并行效率和性能提升越高。将ＥＵＮＩＴＥ提供的负荷数据样本人工扩充为原数据集的１０００倍、２０００倍、４０００倍不同大小的数据集，分别在单机环境、Ｈａｄｏｏｐ＃ｔｌＳｐａｒｋ￣：集群节点数为２、４、６、８、１０的平台上运行，从而完成加速比和扩展率的对比。由图７可知：随着云集群节点数增加和数据集增大，基于Ｈａｄｏ０ｐ和ｓｐａｒｋ平台的加速比越高，且基于Ｓｐａｒｋ平台的加速比要优于Ｈａｄｏｏｐ平台的。分析可知，当数据量足够大，单机无法处理的时候，集群并行化能有效地提高算法的计算速度。在实际应用中，尤其对于大数据集时，并行计算的效果越明显，即满足电力系统海量高维数据的负荷分类的性能需求。图７Ｈａｄｏｏｐ￣ｌｌＳｐａｒｋ平台下的加速比Ｆｉｇ．７ＳｐｅｅｄｕｐｏｎＨａｄｏｏｐａｎｄＳｐａｒｋｐｌａｔｆｏｒｍ扩展比表示并行算法执行过程中集群的利用率情况，其公式为＆／，其中＆表示算法的加速比，穰示计算节点数。若可扩展比越高，则平台和并行算法的扩展性越好。由图８可知，随着数据集增大，并行算法的扩展比曲线下降速率相对趋缓，且随着节点数增加整体趋于平稳。这说明在Ｓｐａｒｋ平台下，随着数据量图８Ｓｐａｒｋｔ￣境下的扩展比Ｆｉｇ．８ＳｃａｌｅｕｐｏｎＳｐａｒｋ的增大和节点数量的增多，其扩展比逐渐趋于稳定，所以基于Ｓｐａｒｋ的并行Ｋ－ｍｅａｎｓ算法有较好的可扩展性，能够应付电力数据规模的不断扩大，保证了程序的高可靠性。５结论本文提出了基于Ｓｐａｒｋ和聚类分析的辨识不良数据的新方法，将抽样技术和最大最小距离法引入到传统Ｋ．ｍｅａｎｓ算法中，克服了收敛速度慢且易陷入局部极小等问题；并结合Ｓｐａｒｋ并行计算模型，解决了海量高维数据的计算量问题。通过对电力负荷数据的算例分析和实验，表明该方法效果良好，提高了电力系统状态估计结果的准确性及收敛速度，且具有更好的加速比和扩展性，满足了电力系统处理海量高维数据的需求，在保证电力系统状态估计准确性方面具有十分重要的应用价值。参考文献［１］张东霞，苗新，刘丽平，等．智能电网大数据技术发展研究【Ｊ１．中国电机工程学报，２０１５，３５（１）：２－１２．ＺＨＡＮＧＤｏｎｇｘｉａ，ＭＩＡＯＸｉｎ，ＬＩＵＬｉｐｉｎｇ，ｅｔａ１．Ｒｅｓｅａｒｃｈｏｎｄｅｖｅｌｏｐｍｅｎｔｓｔｒａｔｅｇｙｆｏｒｓｍａｒｔｇｒｉｄｂｉｇｄａｔａ［Ｊ］．ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＣＳＥＥ，２０１５，３５（１）：２－１２．［２］王建华，张国钢，耿英三，等．智能电器最新技术研究及应用发展前景［Ｊ］．电工技术学报，２０１５，３０（９）：１－１１．ＷＡＮＧＪｉａｎｈｕａ，ＺＨＡＮＧＧｕｏｇａｎｇ，ＧＥＮＧＹｉｎｇｓａｎ，ｅｔａ１．Ｔｈｅｌａｔｅｓｔｔｅｃｈｎｏｌｏｇｙｒｅｓｅａｒｃｈａｎｄａｐｐｌｉｃａｔｉｏｎｐｒｏｓｐｅｃｔｓｏｆｔｈｅｉｎｔｅｌｌｉｇｅｎｔｅｌｅｃｔｒｉｃａｌａｐｐａｒａｔｕｓ［Ｊ］．ＴｒａｎｓａｃｔｉｏｎｓｏｆＣｈｉｎａＥｌｅｃｔｒｏｔｅｃｈｎｉｃａｌＳｏｃｉｅｔｙ，２０１５，３０（９）：１－１１．［３］高志远，姚建国，郭昆亚，等．智能电网对智慧城市的支撑作用研究［Ｊ］．电力系统保护与控制，２０１５，４３（１１）：—１４８１５３．ＧＡＯＺｈｉｙｕａｎ，ＹＡ０Ｊｉａｎｇｕｏ，ＧＵＯＫｕｎｙａ，ｅｔａ１．Ｓｔｕｄｙｏｎｔｈｅｓｕｐｐｏｒｔｉｎｇｒｏｌｅｏｆｓｍａｒｔｇｒｉｄｔｏｔｈｅｃｏｎｓｔｒｕｃｔｉｏｎｏｆｓｍａｒｔｃｉｔｙ［Ｊ］．ＰｏｗｅｒＳｙｓｔｅｍＰｒｏｔｅｃｔｉｏｎａｎｄＣｏｎｔｒｏｌ，２０１５，—４３（１１、：１４８１５３．［４］王韶，江卓翰．基于奇异值分解和等效电流量测变换的电力系统状态估计［Ｊ１．电力系统保护与控制，２０１２，—４０（１２）：１ｌ１１１５．ＷＡＮＧＳｈａｏ．ＪＩＡＮＧＺｈｕｏｈａｎ．Ｐｏｗｅｒｓｙｓｔｅｍｓｔａｔｅｅｓｔｉｍａｔｉｏｎｂａｓｅｄｏｎｓｉｎｇｕｌａｒｖａｌｕｅｄｅｃｏｍｐｏｓｉｔｉｏｎａｎｄｅｑｕｉｖａｌｅｎｔｃｕｒｒｅｎｔｍｅａｓｕｒｅｍｅｎｔｔｒａｎｓｆｏｒｍａｔｉｏｎ［Ｊ］．ＰｏｗｅｒＳｙｓｔｅｍＰｒｏｔｅｃｔｉｏｎａｎｄＣｏｎｔｒｏ１．２０ｌ２．４０（１２）：１１１－１１５．［５］朱倩雯，叶林，赵永宁，等．风电场输出功率异常数据识别与重构方法研究［Ｊ】．电力系统保护与控制，２０１５，４３（３）：３８－４５．ＺＨＵＱｉａｎｗｅｎ，ＹＥＬｉｎ，ＺＨＡＯＹｏｎｇｎｉｎｇ，ｅｔａ１．Ｍｅｔｈｏｄｓ孟建良，等一种基于Ｓｐａｒｋ和聚类分析的辨识电力系统不良数据新方法一９１．ｆｏｒｅｌｉｍｉｎａｔｉｏｎａｎｄｒｅｃｏｎｓｔｒｕｃｔｉｏｎｏｆａｂｎｏｒｍａｌｐｏｗｅｒｄａｔａｉｎｗｉｎｄｆａｒｍｓ［Ｊ］．ＰｏｗｅｒＳｙｓｔｅｍＰｒｏｔｅｃｔｉｏｎａｎｄ—Ｃｏｎｔｒｏｌ，２０１５，４３（３）：３８４５．［６］王兴志，严正，沈沉，等．基于在线核学习的电网不良数据检测与辨识方法［Ｊ］．电力系统保护与控制，２０１２，—４Ｏ（１）：５０５５．ＷＡＮＧＸｉｎｇｚｈｉ，ＹＡＮＺｈｅｎｇ，ＳＨＥＮＣｈｅｎ，ｅｔａ１．Ｐｏｗｅｒｇｒｉｄｂａｄｄａｔａｄｅｔｅｃｔｉｏｎａｎｄｉｄｅｎｔｉｆｉｃａｔｉｏｎｂａｓｅｄｏｎｏｎｌｉｎｅｋｅｒｎｅｌｌｅａｒｎｉｎｇｍｅｔｈｏｄ［Ｊ］．ＰｏｗｅｒＳｙｓｔｅｍＰｒｏｔｅｃｔｉｏｎａｎｄ—Ｃｏｎｔｒｏｌ，２０１２，４０（１）：５０５５．［７］孙雅明，王晨力，张智晟，等．基于蚁群优化算法的电力系统负荷序列的聚类分析『Ｊ１．中国电机工程学报，２００５．２５（１８１：４０－４５．ＳＵＮＹａｍｉｎｇ，ＷＡＮＧＣｈｅｎｌｉ，ＺＨＡＮＧＺｈｉｃｈｅｎｇ，ｅｔａ１．ＣｌｕｓｔｅｒｉｎｇａｎａｌｙｓｉｓｏｆｐｏｗｅｒｓｙｓｔｅｍｌｏａｄｓｅｒｉｅｓｂａｓｅｄｏｎＡＮＴｃｏｌｏｎｙｏｐｔｉｍｉｚａｔｉｏｎａｌｇｏｒｉｔｈｍ［Ｊ］．ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＣＳＥＥ，２００５，２５（１８）：４０－４５．［８］黎祚，周步祥，林楠，等．基于模糊聚类与改进ＢＰ算法的日负荷特性曲线分类与短期负荷预测【Ｊ】．电力系统保护与控制，２０１２，４０（３）：５６．６０．ＬＩＺｕｏ，ＺＨＯＵＢｕｘｉａｎｇ，ＬＩＮＮａｎ，ｅｔａ１．Ｃｌａｓｓｉｆｉｃａｔｉｏｎｏｆｄａｉｌｙｌｏａｄｃｈａｒａｃｔｅｒｉｓｔｉｃｓｃｕｒｖｅａｎｄｆｏｒｅｃａｓｔｉｎｇｏｆｓｈｏｒｔ－ｔｅｒｍｌｏａｄｂａｓｅｄｏｎｆｕｚｚｙｃｌｕｓｔｅｒｉｎｇａｎｄｉｍｐｒｏｖｅｄＢＰａｌｇｏｒｉｔｈｍ［Ｊ］．ＰｏｗｅｒＳｙｓｔｅｍＰｒｏｔｅｃｔｉｏｎａｎｄＣｏｎｔｒｏｌ，２０１２，４０（３）：５６－６０．［９］刘莉，王刚，翟登辉，等．ｋ－ｍｅａｎｓ聚类算法在负荷曲线分类中的应用【Ｊ］．电力系统保护与控制，２０１１，—３９（２３）：６５６８．—ＬＩＵＬｉ，ＷＡＮＧＧａｎｇ，ＺＨＡＩＤｅｎｇｈｕｉ，ｅｔａ１．ｋｍｅａｎｓｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｉｎｌｏａｄｃｕｒｖｅｃｌａｓｓｉｆｉｃａｔｉｏｎ［Ｊ］．ＰｏｗｅｒＳｙｓｔｅｍＰｒｏｔｅｃｔｉｏｎａｎｄＣｏｎｔｒｏｌ，２０１１，３９（２３）：６５．６８．［１０］张素香，赵丙镇，王风雨，等．海量数据下的电力负荷短期预测［Ｊ］．中围电机工程学报，２０１５，３５（１）：３７－４２．ＺＨＡＮＧＳｕｘｉａｎｇ，ＺＨＡＯＢｉｎｇｚｈｅｎ，ＷＡＮＧＦｅｎｇｙｕ，ｅｔａ１．Ｓｈｏｒｔ－ｔｅｒｍｐｏｗｅｒｌｏａｄｆｏｒｅｃａｓｔｉｎｇｂａｓｅｄｏｎｂｉｇｄａｔａ［Ｊ］．—ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＣＳＥＥ，２０１５，３５（１）：３７４２．［１１］张逸，林焱，吴丹岳，等．电能质量监测系统研究现状及发展趋势［Ｊ］．电力系统保护与控制，２０１５，４３（２）：１３８．１４７ＺＨＡＮＧＹｉ，ＬＩＮＹａｎ，ＷＵＤａｎｙｕｅ，ｅｔａ１．Ｃｕｒｒｅｎｔｓｔａｔｕｓａｎｄｄｅｖｅｌｏｐｍｅｎｔｔｒｅｎｄｏｆｐｏｗｅｒｑｕａｌｉｔｙｍｏｎｉｔｏｒｉｎｇｓｙｓｔｅｍ［Ｊ］．ＰｏｗｅｒＳｙｓｔｅｍＰｒｏｔｅｃｔｉｏｎａｎｄＣｏｎｔｒｏｌ，２０１５，—４３（２）：１３８１４７．［１２］宋亚奇，周国亮，朱永利，等．云平台下并行总体经验模态分解局部放电信号去噪方法【ＪＪ．电工技术学报，２０１５，３０（１８）：２１３－２２２．ＳＯＮＧＹａｑｉ，ＺＨＯＵＧｕｏｌｉａｎｇ，ＺＨＵＹｏｎｇｌｉ，ｅｔａ１．Ｒｅｓｅａｒｃｈｏｎｐａｒａｌｌｅｌｅｎｓｅｍｂｌｅｅｍｐｉｒｉｃａｌｍｏｄｅｄｅｃｏｍｐｏｓｉｔｉｏｎｄｅｎｏｉｓｉｎｇｍｅｔｈｏｄｆｏｒｐａｒｔｉａｌｄｉｓｃｈａｒｇｅｓｉｇｎａｌｓｂａｓｅｄｏｎｃｌｏｕｄｐｌａｔｆｏｒｍ［Ｊ］．ＴｒａｎｓａｃｔｉｏｎｓｏｆＣｈｉｎａＥｌｅｃｔｒｏｔｅｃｈｎｉｃａｌＳｏｃｉｅｔｙ，２０１５，３０（１８）：２１３－２２２．［１３］ＨＡＮＪｉａｗｅｉ，ＫＡＭＢＥＲＭ．Ｄａｔａｍｉｎｉｎｇ：ｃｏｎｃｅｐｔｓａｎｄｔｅｃｈｎｉｑｕｅｓ［Ｍ］．ＳａｎＦｒａｎｃｉｓｃｏ：ＭｏｒｇａｎＫａｕｆｍａｎｎＰｕｂｌｉｓｈｅｒｓ，２０００．［１４］王丽婕，冬雷，高爽．基于多位置ＮＷＰ与主成分分析的风电功率短期预测［Ｊ］．电工技术学报，２０１５，３０（５）：７９－８４．ＷＡＮＧＬｉｊｉｅ，ＤＯＮＧＬｅｉ，ＧＡＯＳｈｕａｎｇ．Ｗｉｎｄｐｏｗｅｒ—ｓｈｏｒｔｔｅｒｍｐｒｅｄｉｃｔｉｏｎｂａｓｅｄｏｎｐｒｉｎｃｉｐａｌｃｏｍｐｏｎｅｎｔａｎａｌｙｓｉｓｏｆｎｗｐｏｆｍｕｌｔｉｐｌｅｌｏｃａｔｉｏｎｓ［Ｊ］．Ｔｒａｎｓａｃｔｉｏｎｓｏｆ—ＣｈｉｎａＥｌｅｃｔｒｏｔｅｅｈｎｉｃａｌＳｏｃｉｅｔｙ，２０１５，３Ｏ（５）：７９８４．［１５］高彦杰．Ｓｐａｒｋ大数据处理技术、应用与性能优化【Ｍ】．北京：机械工业出版社，２０１４，［１６］李建江，崔健，王聃，等．ＭａｐＲｅｄｕｃｅ并行编程模型研究综述［Ｊ］．电子学报，２０１１，３９（１１）：２６３５．２６４２．ＬＩＪｉａｎｊｉａｎｇ，ＣＵＩＪｉａｎ，ＷＡＮＧＤａｎ，ｅｔａ１．ＳｕｍｍａｒｙｏｆＭａｐＲｅｄｕｃｅｐａｒａｌｌｅｌｐｒｏｇｒａｍｍｉｎｇｍｏｄｅｌ［Ｊ］．Ｊｏｕｒｎａｌｏｆ—Ｅｌｅｃｔｒｏｎｉｃｓ，２０１１，３９（１１）：２６３５２６４２．［１７］ＥＵＮＩＴＥ（ＥｕｒｏｐｅＮｅｔｗｏｒｋｏｎＩｎｔｅｌｌｉｇｅｎｔＴｅｃｈｎｏｌｏｇｉｅｓ—ｆｏｒＳｍａｒｔＡｄａｐｔｉｖｅＳｙｓｔｅｍｓ）．ＷｏｒｌｄｗｉｄｅｃｏｍｐｅｔｉｔｉｏｎｗｉｔｈｉｎｔｈｅＥＵＮＩＴＥｎｅｔｗｏｒｋ［ＥＢ／ＯＬ］．［２００１］．ｈｔｔｐ：／／ｎｅｕｒｏｎ．ｔｕｋｅ．ｓｋ／ｃｏｍｐｅｔｉｔｉｏｎ／．收稿日期：２０１５－０４－０５；修回日期：２０１５－０７－２９作者简介：孟建良（１９５６－），男，教授，硕士研究生导师，研究方向为电力信息化、人工智能及应用；刘德超（１９８８－），男，硕士研究生，研究方向为电力信—息化、云计算及数据挖掘。Ｅｍａｉｌ：５６８７０２１８２＠ｑｑ．ｃｏｍ（编辑姜新丽）

您可能关注的文档

庸梦人: 该用户很懒，什么也没介绍

联系作者