基于多步回溯Q（λ）的PSS最优控制方法的研究.pdf

下载文档

文档大小：548.35 KB
文档格式：pdf
约 7页
2021-06-20 发布
举报

已阅读完毕，您还可以下载文档进行保存

下载文档

文档单价：￥6.00 会员免费

开通会员可免费下载任意文档

会员免费下载以6.00元购买此文档

1、本文档共7页，内容下载后可编辑。
2、本文档内容版权归属内容提供方，所产生的收益全部归内容提供方所有。如果您对本文有版权争议，可选择认领。
3、本文档由用户上传，本站不保证质量和数量令人满意，可能有诸多瑕疵，付费之前，请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形，可联系本站下载客服投诉处理。

第３９卷第３期２０１１年２月１日电力系统保护与控制ＰｏｗｅｒＳｙｓｔｅｍＰｒｏｔｅｃｔｉｏｎａｎｄＣｏｎｔｒｏｌＶ＿０１．３９Ｎｏ．３Ｆｅｂ．１，２０１１基于多步回溯Ｑ（九）的ＰＳＳ最优控制方法的研究余涛，甄卫国（华南理工大学电力学院，广东广州５１０６４０）摘要：电力系统稳定器（ＰＳＳ）是用来产生能抑制低频电力系统振荡的励磁系统辅助控制信号，具备自学习和参数在线整定能力是未来智能电网ＰＳＳ控制器的一个发展趋势。提出一种基于多步回溯Ｑ（九）学习的新颖电力系统稳定器设计方法。利用多步回溯Ｑ（＂控制器代替整个传统ＰＳＳ作为励磁附加控制，并与传统ＰＳＳ和Ｑ学习控制器进行比较。仿真研究显示，引入基于多步回溯Ｑ（学习的ＰＳＳ控制后显著增强了整个系统的鲁棒性，有效提高了系统抑制低频电力系统振荡的能力，较好地解决了Ｏ学习控制器收敛速度慢的问题。关键词：电力系统稳定器（ＰＳＳ）；马尔可夫策略（ＭＤＰ）；强化学习；Ｑ学习；多步回溯Ｏ（）学习ＯｐｔｉｍａｌｃｏｎｔｒｏｌｍｅｔｈｏｄｏｆＰＳＳｂａｓｅｄｏｎｍｕｌｔｉ・ｓｔｅｐｂａｃｋｔｒａｃｋＱ（ｌｅａｒｎｉｎｇ—ＹＵＴａｏ，ＺＨＥＮＷｅｉｇｕｏ（ＣｏｌｌｅｇｅｏｆＥｌｅｃｔｒｉｃＰｏｗｅｒ，ＳｏｕｔｈＣｈｉｎａＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙ，Ｇｕａｎｇｚｈｏｕ５１０６４０，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｐｏｗｅｒｓｙｓｔｅｍｓｔａｂｉｌｉｚｅｒｓ（ＰＳＳ）ａｒｅｕｓｅｄｔｏｇｅｎｅｒａｔｅｓｕｐｐｌｅｍｅｎｔａｒｙｃｏｎｔｒｏｌｓｉｇｎａｌｓｆｏｒｔｈｅｅｘｃｉｔａｔｉｏｎｓｙｓｔｅｍｉｎｏｒｄｅｒｔｏｄａｍｐｔｈｅｌｏｗｆｒｅｑｕｅｎｃｙｐｏｗｅｒｓｙｓｔｅｍｏｓｃｉｌｌａｔｉｏｎｓ．Ｗｉｔｈｔｈｅｄｅｖｅｌｏｐｍｅｎｔｏｆｓｍａｒｔｇｒｉｄｓ，ｔｈｅｍｕｌｔｉｐｌｙＰＳＳｃｏｎｔｒｏｌｌｅｒｓｗｉｔｈｔｈｅａｂｉｌｉｔｉｅｓｏｆｓｅｌｆ－ｌｅａｒｎｉｎｇａｎｄｓｅｌｆ－ｔｕｎｉｎｇｂｅｃｏｍｅｔｈｅａｔｔｒａｃｔｉｖｅｔｒｅｎｄ．Ａｎｏｖｅｌｃｏｎｔｒｏｌｍｅｔｈｏｄｏｆｐｏｗｅｒｓｙｓｔｅｍｓｔａｂｉｌｉｚｅｒ（ＰＳＳ）ｂａｓｅｄ—ｏｎｍｕｌｔｉ－ｓｔｅｐｂａｃｋｔｒａｃｋＱ（）ｌｅａｒｎｉｎｇｉｓｐｒｏｐｏｓｅｄｉｎｔｈｉｓｐａｐｅｒ．ＴｈｅｍｕｌｔｉｓｔｅｐｂａｃｋｔｒａｃｋＱ（九）ｃｏｎｔｒｏｌｌｅｒｉｓｕｓｅｄｔｏｒｅｐｌａｃｅｔｈｅｃｏｎｖｅｎｔｉｏｎａｌＰＳＳｔｏｇｅｎｅｒａｔｅｓｕｐｐｌｅｍｅｎｔａｒｙｃｏｎｔｒｏｌｓｉｇｎａｌｓｆｏｒｔｈｅｅｘｃｉｔａｔｉｏｎｓｙｓｔｅｍ，ａｎｄｉｓｃｏｍｐａｒｅｄｗｉｔｈｔｈｅｃｏｎｖｅｎｔｉｏｎａｌＰＳＳａｎｄ—Ｑｌｅａｒｎｉｎｇｃｏｎｔｒｏｌｌｅｒ．ＲｅｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｅＱ（九）ｃｏｎｔｒｏｌｌｅｒｓｔｒｅｎｇｔｈｅｎｓｔｈｅｒｏｂｕｓｔｎｅｓｓｏｆｔｈｅｐｏｗｅｒｓｙｓｔｅｍａｎｄｅｎｈａｎｃｅｓｔｈｅａｂｉｌｉｔｙｏｆｄａｍｐｉｎｇｔｈｅｌｏｗｆｒｅｑｕｅｎｃｙｐｏｗｅｒｓｙｓｔｅｍｏｓｃｉｌｌａｔｉｏｎｓ．Ｂｅｓｉｄｅｓ，ｉｔｃａｎｓｏｌｖｅｔｈｅｐｒｏｂｌｅｍｏｆｔｈｅｓｌｏｗｃｏｎｖｅｒｇｅｎｃｅｒａｔｅｏｆＱ－ｌｅａｒｎｉｎｇｃｏｎｔｒｏｌｌｅｒ．ＴｈｉｓｗｏｒｋｉｓｓｕｐｐｏｒｔｅｄｂｙＮａｔｉｏｎａｌＮａｔｕｒａｌＳｃｉｅｎｃｅＦｏｕｎｄａｔｉｏｎｏｆＣｈｉｎａ（Ｎｏ．５０８０７０１６）ａｎｄＮａｔｕｒａｌＳｃｉｅｎｃｅＦｏｕｎｄ￣ｉｏｎｏｆＧｕａｎｇｄｏｎｇＰｒｏｖｉｎｃｅ（Ｎｏ．９１５１０６４１０１００００４９）．——Ｋｅｙｗｏｒｄｓ：ｐｏｗｅｒｓｙｓｔｅｍｓｔａｂｉｌｉｚｅｒ（ＰＳＳ）：Ｍａｒｋｏｖｄｅｃｉｓｉｏｎｐｒｏｃｅｓｓ（ＭＤＰ）；ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ；Ｑｌｅａｒｎｉｎｇ；ｍｕｌｔｉｓｔｅｐｂａｃｋｔｒａｃｋＱ（）ｌｅａｒｎｉｎｇ中图分类号：ＴＭ７１２文献标识码：Ａ———文章编号：１６７４３４１５（２０１１）０３００１８０６０引言强化学习Ｌ１Ｊ（ＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ，ＲＬ），又称再励学习、评价学习，既可看作是人工智能领域中一种重要的机器学习方法，也被认为是属于马尔可夫决策过程Ｊ（ＭａｒｋｏｖＤｅｃｉｓｉｏｎＰｒｏｃｅｓｓ，ＭＤＰ）和动态优化方法的一个独立分支。ＲＬ方法基本思想是一个学习系统与其环境的反复交互作用，仅从所在环境中自身经历产生反馈的信息来学会执行一个任务并不断地对系统性能进基金项目：国家自然科学基金项目（５０８Ｏ７０１６）；广东省自然科学基金项目（９１５１０６４１０１００００４９）；中央高校基本科研业务费专项资金资助行自我改进。ＲＬ具有强大的在线自学习能力，易于进行动态并行计算，且算法对研究对象的数学模型不敏感。电力系统是一个复杂的动态大系统，由于电力系统具有复杂的非线性和不确定性，传统方法是采用系统辨识或工程经验的途径，其应用效果往往受到实际环境的限制，而ＲＬ可以把控制系统的性能指标要求转化为一种评价指标，智能体（Ａｇｅｎｔ）通过奖励和惩罚进行学习。笔者在文献［３］中综合介绍了ＲＬ理论在电力系统中的应用研究现状，并探讨了该课题在电力系统运行控制中的巨大潜力。目前广泛使用的传统电力系统稳定器（ＣＰＳＳ）的设计是建立在频域的相位补偿理论【４】，作为一种余涛，等基于多步回溯Ｑ（）的ＰＳＳ最优控制方法的研究一１９－转速或功率的相位滞后补偿。ＣＰＳＳ的参数是基于线性模型的电力系统。为了使到ＣＰＳＳ在很宽的范围内能提供良好的阻尼作用，它的参数需要被微调来适应两种类型的振荡。因为电力系统是高度非线性系统，它的结构和参数都是随着时间的变化而变化的。基于线性化模型的电力系统的ＣＰＳＳ是不能保证它在实际运行环境中的控制性能。因此，研究适应电力系统复杂运行状态变化的自适应ＰＳＳ一直是此领域研究的重点。为了改善ＣＰＳＳ的性能，许多智能化优化技术已经提出，例如：智能优化方法【６｛Ｊ（如：模拟退火算法、遗传算法），模糊逻辑们、神经网络【ｌｌＪ和许多其他的非线性控制技术。智能优化算法是在离线的情况下通过优化一个特征值来优化ＣＰＳＳ的参数。因为这些方法是建立在线性模型上，而且它们的参数是不能在线改变的。因此，它们在实际运行中缺乏令人满意的性能。众所周知，基于规则的模糊逻辑控制是很难取得和调整它的参数的，特别是在线的情况下。Ｑ学习算法是无需环境模型的一种目前国际上最为广泛应用的ＲＬ算法，它可以被认为是异步动态规划的一种方法。它提供Ａｇｅｎｔ在马尔科夫环境中，利用经历的动作序列执行最优动作的一种学习能力。笔者在文献［１２１中详细分析了ＣＰＳＳ的局限性和现代控制算法的非在线性，并在文中提出了基于Ｏ学习算法的新型电力系统稳定器设计方法，提高了系统抑制低频振荡的能力。但基于单步Ｑ学习算法的ＰＳＳ需要较长的时间来搜索到最优动作。而本文引入具备多步回溯能力的Ｑ（学习，该在线回溯算法显式地利用资格迹对将来多步决策的在线强化信息进行高效地回溯操作，能够有效地解决上述问题，提高算法收敛速度。１多步回溯０（学习算法多步Ｑ（学习（Ｍｕｌｔｉ．ｓｔｅｐＱ（￣，）ｌｅａｍｉｎｇ）Ｌ１刮是基于离散马尔可夫决策过程的经典Ｏ学习【ｌＪ结合了ＴＤ（九）算法５Ｊ多步回报的思想。Ｑ（值函数的回溯更新规则利用资格迹来获取算法行为的频度和渐新度两种启发信息，从而考虑了未来控制决策的影响。资格迹Ｊ用于解决延时强化学习的时间信度分配问题，第ｋ步迭代时刻的矩阵形式即ｅｋ（ｓ，口），是对过去所访问状态与动作信息的一种临时记录。对任何状态一动作对而言，资格迹都将以时效性按指数衰减，一旦执行非贪婪探索动作时，迹则可以复位设置为零。资格迹更新公式定义为：）｛０其Ｉ＿】，）＿１（，ａｔ）＝ｎ１ａｘ一１（，口））‘＋其ｆ也（２）式中：是迹特征函数；０＜１，为折扣因子；为迹衰退系数。Ｑ（充分考虑了随机过程的时间回溯因素，一回报算法将值函数与资格迹相互融合，如图１，其“”后向估计将时间信度和值函数误差对所经历的“”状态流进行合理回溯分配，对于非马氏环境具有很好的适应性【】６Ｊ。现在“”图１ｏ（）方法后向估计回溯学习更新图Ｆｉｇ．１Ｑ（￣）ｂａｃｋｔｒａｃｋｌｅａｒｎｉｎｇｏｆｂａｃｋｗａｒｄｅｓｔｉｍａｔｉｏｎ来“”资格迹回报算法的后向估计机理提供了一个逼近最优值函数Ｑ的渐进机制，而这类对所有状态一动作对Ｑ值的高效持续更新是以提高算法复杂度和增加计算量为代价的。设代表Ｑ估计值的第ｋ次迭代值，Ｑ（九）学习迭代更新公式为：＝’Ｒ（ｓｋ，ｓｋ＋ｌａＤ＋ｙｍｓｘ’，（ｓｋ＋１，口）一（，）（３）ａ＋１（，ａ）＝（ｓ，ａ）＋Ｏｔ６ｋｅｋ（ｓ，ａ）（４）式中：０＜ａ＜ｌ，称为学习因子；Ｒ（，Ｓ，ａ）是第ｋ步迭代时刻环境由状态Ｓ经动作转移到１后的奖励函数值；，口）代表ｓ状态下执行动作ａ的Ｑ值函数，其实现方式均采用ｌｏｏｋｕｐ查表法。文中多步Ｑ（九）学习中动作选择策略则通常采用由概率矢量法派生的追踪算法或ｂｏｌｔｚｍａｎｎ分布法【Ｊ。２基于Ｑ（九）学习的ＰＳＳ最优控制原理２．１励磁附加控制结构一旦系统出现低频振荡，可通过减少线路输送容量，改用常规励磁调节器等来处理，但是这两者都不利于经济性和大扰动下的暂态稳定。而在励磁系统中引入附加控制信号解决了以上的问题。传统△ＰＳＳ以Ａｗ、Ｐｅ或两者的组合作为输入信号，通过放大环节、复位环节、相位补偿环节、限幅环节后作为励磁附加信号。传统ＰＳＳ各参数的整定是根据．２０．电力系统保护与控制经典控制理论在某一特定的振荡模式下得出，无法保证在各种扰动下都能较好地抑制低频振荡。如图２所示，本文基于多步Ｑ（九）学习算法，以Ｑ（控制器代替整个的传统ＰＳＳ，其输出作为励磁附加控制信号。在不同扰动下，Ｑ（九）控制器通过试错学习在系统不同状态下，搜索出最佳的附加控制信号，而不需类似传统ＰＳＳ那样设定各参数值。Ｑ）控制器具有更强的适应性。图２基于多步回溯Ｑ（柚学习的ＰＳＳ传递函数框图Ｆｉｇ．２ＳｔｒｕｃｔｕｒｅｏｆＰＳＳｔｒａｎｓｆｅｒｆｕｎｃｔｉｏｎｂａｓｅｄｏｎｍｕｌｔｉ・ｓｔｅｐＱ（）Ｏｌｅａｍｉｎｇ２．２多步回溯Ｑ（Ｍ学习的优化控制算法设计励磁系统的附加信号主要用来抑制低频振荡，为了防止它在某些特殊情况下，造成发电机电压过大的变化，需要限制该附加信号，使其对定子电压幅值的改变在某个限定范围内。本文取附加控制信号的范围为－０．１５－０．１５之间（归一化后的标么值），通过对该范围进行离散化，得出该优化控制算法的动作集为［－０．１５：０．０１：Ｏ．１５１，则动作集被量化为３１个动作。为了能反映系统受低频振荡的影响程度，本文选取Ａｗ作为状态值。对Ａｗ状态空间进行分区，∞仿真比较显示，将Ａｗ划分为（＋，０．００２），（０．００２，０．００１），【０．００１，０】，（０，一０．００２），（－０．００２，～０．００４），∞卜０．００４，一）较为合适，则一维输入空间被量化为６个不同状态。电力系统稳定器的目的就是抑制系统中有功功率、频率等量的振荡，使其保持正常值。通常，对于电力系统稳定器的控制目标可描述为使系统输出误差最小，误差为有功功率、转子角频率以及发电机端电压与它们各自正常值的相对误差绝对值之和。基于多步Ｑ（九）学习的控制系统通过试错与环境进行交互式学习，从长期的观点构造控制策略，以期从环境获得的长期积累奖励值最大，而将系统输出误差取负值作为多步ＱＯＱ学习的奖励值，则长期以来，系统输出误差越小，它的长期积累奖励值最大，这与电力系统稳定器的控制目标相符，因此，将系统输出误差取负值作为多步ＱＯ０学习的奖励函数很恰当合理。多步Ｑ（九）学习的奖励函数Ｒｅｗａｒｄ表示为：＝一△ｆ。（ＰＩＰｆ＋ＫＩ，ａｗｌ＋ＫｖＩＡｖ１）ｄ，（５）式中：尼为每次迭代步所得到的奖励值；ＡＰ为机械功率和电磁功率的差值；Ａｗ为发电机转速偏差；ＡＶ为发电机机端电压偏差；Ｋｐ、Ｋｗ、Ｋｖ为权值系数。多步回溯Ｑ（九）学习算法中的、分别为折扣因子、迹衰退系数和学习因子。ａ指明了要给改善的更新部分多少信任度，较大的ａ值会加快学习算法的收敛速度，而较小的值能保证控制器的搜索空间，从而提高学习收敛的稳定性。它们的取值影响着算法的收敛性。通过仿真比较，本文取值为０．９、２＝０．９、５＝０．５。在确定了控制动作集、状态集和奖励函数后，即可进行多步Ｑ（九）学习控制器在线自学习和动态优化，其步骤如下：对所有（，口），初始化各参数及当前状态Ｓ。，令ｋ＝Ｏ；Ｒｅｐｅａｔｆｏｒｅｖｅｒ１）由动作概率分布法选择并执行调度动作ａ；２）观察下一时刻的状态斛】，即ＣＰＳ１／ＣＰＳ２滚动指标；３）由式（５）得Ｎ－个奖励信号（；４）根据式（３）计算值函数误差；５）更新资格迹，令ｅ（ｓ，ａ）ｅ（ｓｋ，＋１；６）式（４）更新Ｑ值函数表格：７）Ｉｆａｋ＋１为贪婪动作Ｔｈｅｎｅ（ｓ，ａ）＋－－ｅ（，）Ｅｌｓｅｅ（ｓ，）０；８）１，返回步骤１）；Ｅｎｄ３仿真算例研究为评价多步回溯Ｑ（控制器的鲁棒性和收敛性，本文以典型的四机两区域互联系统电力系统稳定器控制模型作为研究对象（如图３所示），对基于多步回溯Ｑ（九）学习的控制器、基于Ｑ学习的控制器［他］、传统ＰＳＳ的性能进行仿真比较。这些比较是ＩＩＩ扰动１：置Ｉ）（ｌＰｓｓ控制器ｌ７ｌ相短路故障１＼、—。—６ＩＩｌＩＩＩ９一—ｒ＿１ＩＩｈ扰动２：改变：＠线路阻抗・－－－－－ｌ一２４－＋－ｏ：（兰）Ｇ｝一一一一一一一一一一一一一一－’一一一一一一一＿－一一一一一一．－．．＿＿一一一一一一一一一一．．一一．＿●图３Ｋｕｎｄｕｒ四机两区互联系统框图’—Ｆｉｇ．３Ｋｕｎｄｕｒｓｆｏｕｒ－ｍａｃｈｉｎｅｔｗｏａｒｅａｔｅｓｔｓｙｓｔｅｍ余涛，等基于多步回溯Ｑ（）的ＰＳＳ最优控制方法的研究－２１一在各种不同类型的操作条件和干扰下进行的。这些扰动是：在区域联络线路上发生三相短路，改变输电线路的阻抗。故障位置和类型如图３所示。图４给出了传统ＰＳＳ（ＣＰＳＳ）Ｌｌ，Ｊ的传递函数框图，该ＣＰＳＳ由低ｉ高通滤波器、放大环节、超前一滞后环节和限幅环节构成，ＣＰＳＳ中各参数设置值见表１。图４传统ＰＳＳ传递函数框图Ｆｉｇ．４ＴｒａｎｓｆｅｒｆｕｎｃｔｉｏｎｄｉａｇｒａｍｏｆｃｏｎｖｅｎｔｉｏｎａｌＰＳＳ表１传统ＰＳＳ参数值Ｔｌａｂ．１ＰａｒａｍｅｔｅｒｓｏｆｃｏｎｖｅｎｔｉｏｎａｌＰＳＳ‰１乃乃５５０ｅ．３ｓ２０ｅ３ｓ３Ｓ５４Ｓ３．１Ｑ）与Ｑ学习算法在两种扰动下的收敛性比较Ｑ（九）学习控制器与Ｑ学习控制器在最优策略学习的初始阶段动作的选取会有很强的随机性，这样会造成系统的不稳定，甚至使系统中各发电机的功角差超过１８０。而造成失步。因此，算法在投入实际运行之前要经历离线的预学习过程。经过仿真测试，设置式（５）中各权值系数后，表２给出了Ｑ（学习控制器和Ｑ学习控制器的平均收敛时间。图５和图６给出了Ｑ（九）学习控制器和Ｑ学习控制器的附加控制信号输出值在三相短路扰动下的预学习收敛典型曲线图。由表２、图５和图６可见，在两种扰动下，Ｑ（）控制器的收敛时间都优于Ｑ学习控制器。Ｑ（控制器在鲁棒性和收敛性上都优于Ｑ学习控制器。表２不同故障情况下算法收敛性比较Ｔａｂ．２ＣｏｎｖｅｒｇｅｎｃｅｔｉｍｅｏｆＱ（Ｌ）ｌｅａｎｉｎｇａｌｇｏｒｉｔｈｍｃｏｍｐａｒｅｄ—ｗｉｔｈＱｌｅａｒｎｉｎｇ图５Ｑ（九）学习控制器输出值Ｆｉｇ．５ＯｕｔｐｕｔｏｆＱ（九）ｌｅａｒｎｉｎｇｃｏｎｔｒｏｌｌｅｒ∥图６Ｑ学习控制器输出值—Ｆｉｇ．６ＯｕｔｐｕｔｏｆＱｌｅａｒｎｉｎｇｃｏｎｔｒｏｌｌｅｒ３．２权值系数、、的影响式（５）中奖励函数的选取引入了线性最优二次型调节器（ＬＱＲ）的思想，奖励函数为对象状态和控制输入的二次型函数。权值系数、、Ｋｖ的选值对收敛结果影响较大，表３给出了Ｑ（九）控制器学习过程中所选取的权值，并比较了各权值对收敛结果的影响。．表３权值系数、Ｋｗ、ＫｖＴａｂ．３ＶａｌｕｅｏｆＫｐ，ａｎｄＫｗ，ａｎｄＫｖ表３中Ｋｖ选取了不同的值，这表示了对电压偏差值进行了不同程度的考虑，值越大，表示越对电压偏差的关注程度越大，反之越小就是关注程度越小。图７和图８分别给出了在线路发生短路故障的情况下，不同的权值取值下Ｑ（学习控制器的控制效果曲线图。由图中可知，取不同的权值会影响Ｑ（九）学习控制器的控制效果。在预学习中，需对各权值进行优化，以得到最优的控制效果。比较图７和图８中各曲线，情况１所得到的控制效果优于另两种。本文选取情况１的权值系数所得的优化结一２２－电力系统保护与控制果与Ｑ学习控制器、传统ＰＳＳ进行比较。性能最优。ｓ图７发电机１与发电机４的功角差曲线Ｆｉｇ．７ＰｏｗｅｒａｎｇｌｅｄｉｆｆｅｒｅｎｃｅｏｆＧ１ｗｉｔｈＧ４ｔ／ｓ图８区域１到区域２的有功功率值Ｆｉｇ．８Ａｃｔｉｖｅｐｏｗｅｒｆｒｏｍａｒｅａ１ｔｏａｒｅａ２３．３区域联络线路上发生三相短路如图３所示，在区域联络线路中点处发生瞬时三相短路故障，短路持续时间为０．１Ｓ，０．１Ｓ后短路故障消失。以｝｝４发电机作为参考发电机，图９给出的是发电机１与发电机４的功角差曲线。分析图中曲线可知，三种控制器均能有效抑制系统的低频振荡，其中Ｑ（）学习控制器具有最优的控制性能，其振荡调节时间和超调量均优于Ｏ学习控制器和传统ＰＳＳ。媛嚣ｆ，ｓ图９发电机１与发电机４的功角差曲线Ｆｉｇ．９ＰｏｗｅｒａｎｇｌｅｄｉｆｆｅｒｅｎｃｅｏｆＧ１ｗｉｔｈＧ４图１０给出的是区域１向区域２传输的有功功率曲线。比较图中曲线可知，Ｑ（九）学习控制器控制下的区域交换有功功率值振荡幅度最小，传统ＰＳＳ与Ｑ学习控制器的性能相近，Ｑ（九）学习控制器的控制图１０区域１到区域２的有功功率值Ｆｉｇ．１０Ａｃｔｉｖｅｐｏｗｅｒｆｒｏｍａｒｅａ１ｔｏａｒｅａ２３．４改变线路阻抗值为了测试所提出的Ｑ（控制器对电网参数变化的鲁棒性，为本文通过在一回区域联络线路上设置断路器来模拟输电线阻抗的突变，如图３所示。通过断路器的开断，输电线路阻抗在开断前后相差２倍。令系统处于稳态后０Ｓ时阻抗变为初始值的２倍，１０Ｓ时阻抗恢复到初始值。图１１和图１２分别给出了功角差曲线和区域联络线路传输的有功功率曲线。由图１１可知，Ｑ学习控制器的控制效果要优于传统ＰＳＳ。而Ｑ学习控制器与Ｑ（九）控制器的控制效果相近。由图１２可知，Ｏ（控制器对于区域交换功率的抑制优于其他两个控制器。图１１发电机１与发电机４的功角差曲线Ｆｉｇ．１１ＰｏｗｅｒａｎｇｌｅｄｉｆｆｅｒｅｎｃｅｏｆＧ１ｗｉｔｈＧ４ｓ图１２区域１到区域２的有功功率值Ｆｉｇ．１２Ａｃｔｉｖｅｐｏｗｅｒｆｒｏｍａｒｅａ１ｔｏａｒｅａ２余涛，等基于多步回溯Ｑ（）的ＰＳＳ最优控制方法的研究－２３－综合以上仿真结果，三种控制器均能有效抑制系统的低频振荡，而Ｑ（学习控制器在各种故障下具有更好的鲁棒性。同时，该扰动也表明了在连续扰动中Ｑ（和Ｑ学习算法具有在线学习、更新动作策略的能力，而Ｑ（九）学习可以利用资格迹进行多步回溯，更好地利用经验，因此表现出更突出的抑制效果。４结语尽管传统ＰＳＳ在整定良好的情况下也具有优良的控制性能，但其最大的问题是缺乏在线自学习和白整定能力，在电网渐变的过程中，缺乏参数自整定的一类ＰＳＳ是无法满足未来智能电网的高度智能化和适应性要求。本文介绍了一种基于多步回溯Ｏ（学习属于一类半马氏决策过程的新型方法，据作者知识范围，多步回溯Ｑ（学习尚未在国内外电力控制领域有文献正式发表。通过对仿真结果进行分析，可以得出以下结论：（１）Ｑ（九）算法是一种模型无关的算法，它不像监督学习方法，它不依赖于某一种特定的模型进行学习，不像传统ＰＳＳ那样需要整定参数。仿真结果表明，Ｑ（算法在系统受扰动后减少振荡的超调量和调节时间，具有更优的抑制效果。（２）Ｑ（算法具有在线回溯算法显式地利用资格迹对将来多步决策的在线强化信息进行高效地回溯操作，仿真结果表明Ｑ（九）学习算法收敛速度要优于Ｑ学习算法。（３）Ｑ（九）算法具有在线学习、更新动作策略的能力，能适用连续扰动后环境的变化。通过预学习后，然后在线继续进行交互式学习，以此在线适应工况的变化。在后续的工作中，对于多机复杂系统，分布式强化学习的引入可有助于多机ＰＳＳ的优化，将各ＰＳＳ视为学习的学习单元，每个单元独立地执行部分或者全部的任务，达到整个系统意义上的学习目标。另外，可以结合其他离线优化方法，利用经验回放、输入空间量化等方法提高学习速度。参考文献［１］Ｓｕ￣ｏｎＲＳ，ＢａｒｔｏＡＧ．Ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ：ａｎｉｎｔｒｏｄｕｃｔｉｏｎ［Ｊ１．Ｃａｍｂｒｉｄｇｅ－－ＭＩＴＰｒｅｓｓ，１９９８．［２］ＭｉｎｅＨ，ＯｓａｋｉＳ．Ｍａｒｋｏｖｄｅｃｉｓｉｏｎｐｒｏｃｅｓｓｅｓ［Ｍ１．ＮｅｗＹｏｒｋ：Ｅｉｓｅｖｉｅｒ，１９７０．［３］余涛，周斌，甄卫国．强化学习理论在电力系统中的应用及展望［Ｊ】．电力系统保护与控制，２００９，３７（１４）：１２２．１２８．ＹＵＴａｏ，ＺＨＯＵＢｉｎ，ＺＨＥＮＷｅｉ－ｇｕｏ．Ａｐｐｌｉｃａｔｉｏｎａｎｄｄｅｖｅｌｏｐｍｅｎｔｏｆｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇｔｈｅｏｒｙｉｎｐｏｗｅｒｓｙｓｔｅｍｓ［Ｊ］．ＰｏｗｅｒＳｙｓｔｅｍＰｒｏｔｅｃｔｉｏｎａｎｄＣｏｎｔｒｏｌ，２００９，—３７（１４）：１２２１２８．［４］刘取．电力系统稳定性及发电机励磁控￥１Ｊ［Ｍ１．北京：中国电力出版社，２００７．［５］倪以信，陈寿孙，张宝霖．动态电力系统的理论和分析［Ｍ】．北京：清华大学出版社，２００８：２６４．２９１．［６］ＡｂｉｄｏＭＡ．Ｒｏｂｕｓｔｄｅｓｉｇｎｏｆｍｕｌｔｉ．ｍａｃｈｉｎｅｐｏｗｅｒｓｙｓｔｅｍｓｔａｂｉｌｉｚｅｒｓｕｓｉｎｇｓｉｍｕｌａｔｅｄａｎｎｅａｌｉｎｇ［Ｊ】．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｏｎＥｎｅｒｇｙＣｏｎｖｅｒｓｉｏｎ，２０００：２９７－３０４．［７］文劲字，王国兴，程时杰，等．用遗传算法设计模糊式电力系统稳定器［Ｊ】．电力系统自动化，１９９９，２３（４）：２２．２４．—ＷＥＮＪｉｎｙｕ，ＷＡＮＧＧｕｏ－ｘｉｎｇ，ＣＨＥＮＧＳｈｉ－ｊｉｅ，ｅｔａ１．Ａｄｅｓｉｇｎｏｆｆｕｚｚｙｐｏｗｅｒｓｙｓｔｅｍｓｔａｂｉｌｉｚｅｒｕｓｉｎｇｇｅｎｅｔｉｃａｌｇｏｒｉｔｈｍ［Ｊ】．ＡｕｔｏｍａｔｉｏｎｏｆＥｌｅｃｔｒｉｃＰｏｗｅｒＳｙｓｔｅｍｓ，—１９９９，２３（４）：２２２４．［８］刘杨名，严正，胥国毅．免疫遗传算法在多机电力系统ＰＳＳ系统优化中的运用［Ｊ］．电力系统保护与控制，２００７，３５（７）：１９－２３，４５．—ＬＩＵＹａｎｇｍｉｎｇ，ＹＡＮＺｈｅｎｇ，ＸＵＧｕｏｙｉ．Ｐａｒａｍｅｔｅｒｏｐｔｉｍｉｚａｔｉｏｎｏｆｐｏｗｅｒｓｙｓｔｅｍｓｔａｂｉｌｉｚｅｒｓｕｓｉｎｇｉｍｍｕｎｅ—ｇｅｎｅｔｉｃａｌｇｏｒｉｔｈｍｉｎｍｕｌｔｉｍａｃｈｉｎｅｓｙｓｔｅｍ［Ｊ］．ＰｏｗｅｒＳｙｓｔｅｍＰｒｏｔｅｃｔｉｏｎａｎｄＣｏｎｔｒｏｌ，２００７，３５（７）：１９－２３，４５．［９］赵书强，丁峰，侯子利，等．自寻优模糊电力系统稳定器的设计［Ｊ】．电工技术学报，２００４，１９（３）：９４－９８．ＺＨＡＯＳｈｕ－ｑｉａｎｇ，ＤＩＮＧＦｅｎｇ，ＨＯＵＺｉ－ｌｉ，ｅｔａ１．Ｄｅｓｉｇｎｏｆｓｅｌｆ－ｏｐｔｉｍｉｚｉｎｇｆｕｚｚｙｐｏｗｅｒｓｙｓｔｅｍｓｔａｂｉｌｉｚｅｒ［Ｊ］．ＴｒａｎｓａｃｔｉｏｎｓｏｆＣｈｉｎａＥｌｅｃｔｒｏｔｅｃｈｎｉｃａｌＳｏｃｉｅｔｙ，２００４，１９（３）：９４－９８．［１Ｏ］王明东，刘宪林，于继来．基于改进遗传算法的发电机调速器侧模糊ＰＳＳ优化设计［Ｊ］Ｊ．继电器，２００６，３４（１３）：２５－２８．——ＷＡＮＧＭｉｎｇｄｏｎｇ，ＬＩＵＸｉａｎｌｉｎ，ＹＵＪｉ－ｌａｉ．ＯｐｔｉｍｉｚａｔｉｏｎｄｅｓｉｇｎｏｆｆｕｚｚｙＰＳＳｆｏｒｇｏｖｅｒｎｏｒｏｆｇｅｎｅｒａｔｏｒｂａｓｅｄｏｎａｎｉｍｐｒｏｖｅｄＧＡ［Ｊ】．Ｒｅｌａｙ，２００６，３４（１３）：２５－２８．［１１］梁有伟，胡志坚，陈允平．基于神经网络逆系统的电力系统稳定器的研究［Ｊ】．电工技术学报，２００４，１９（５）：６１－６５．１４．ＬＩＡＮＧＹｏｕ－ｗｅｉ，ＨＵＺｈｉ－ｊｉａｎ，ＣＨＥＮＹｕｎ－ｐｉｎｇ．Ａｐｏｗｅｒｓｙｓｔｅｍｓｔａｂｉｌｉｚｅｒｂａｓｅｄｏｎｎｅｕｒａｌｎｅｔｗｏｒｋｉｎｖｅｒｓｅｓｙｓｔｅｍ［Ｊ】．ＴｒａｎｓａｔｉｏｎｓｏｆＣｈｉｎａＥｌｅｃｔｒｏｔｅｃｈｎｉｃａｌ—Ｓｏｃｉｅｔｙ，２００４，１９（５）：６１６５，１４．［１２］ＹＵＴａｏ，ＺＨＥＮＷｅｉ－ｇｕｏ．Ａｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇａｐｐｒｏａｃｈｔｏｐｏｗｅｒｓｙｓｔｅｍｓｔａｂｉｌｉｚｅｒ［Ｃ】．／／Ｐｏｗｅｒ＆’ＥｎｅｒｇｙＳｏｃｉｅｔｙＧｅｎｅｒａｌＭｅｅｔｉｎｇ，ＰＥＳ０９．ＩＥＥＥ．２００９：—１５．［１３］ＪｉｎｇＰｅｎｇ，ＷｉｌｌｉａｍｓＲＪ．Ｉｎｃｒｅｍｅｎｔａｌｍｕｌｔｉ－ｓｔｅｐＱ－ｌｅａｒｎｉｎｇ［Ｊ】．ＭａｃｈｉｎｅＬｅａｎｉｎｇ，１９９６，２２：２８３－２９０．（下转第２８页ｃｏｎｔｉｎｕｅｄｏｎｐａｇｅ２８）一２８一电力系统保护与控制障或出口处反方向故障时，该线路纵联零序方向保护不受零序互感的影响，能够正确动作；对于其相邻线路来说电气联系越紧密，零序方向元件误动的可能性越小；反之，误动可能性越大。因此，应综合考虑相邻互感线路纵联零序方向保护的配置们，增加必要的防范措施，确保电网稳定运行。参考文献［１］李一泉，焦邵麟，张弛，等．平行线路纵联零序方向保护安全性分析［Ｊ】．电力系统自动化，２００８，３２（６）：１０４一ｌ０７．—ＬＩＹｉ－ｑｕａｎ，ＪＩＡＯＳｈａｏｌｉｎ，ＺＨＡＮＧＣｈｉ，ｅｔａ１．Ｓａｆｅｔｙａｎａｌｙｓｉｓｏｎｐｉｌｏｔｚｅｒｏｓｅｑｕｅｎｃｅｄｉｒｅｃｔｉｏｎｒｅｌａｙａｐｐｌｉｅｄｉｎｐａｒａｌｌｅｌｌｉｎｅｓ［Ｊ］．ＡｕｔｏｍａｔｉｏｎｏｆＥｌｅｃｔｒｉｃＰｏｗｅｒ—Ｓｙｓｔｅｍｓ，２００８，３２（６）：１０４１０７．［２］郭润生，何彩红，郅建杰．相邻线路零序互感对线路零序纵联方向保护的影响『Ｊ］．继电器，２００４，３２（９）：７１．７３．——ＧＵＯＲｕｎｓｈｅｎｇ，ＨＥＣａｉｈｏｎｇ，ＺＨＩＪｉａｎ－ｊｉｅ．Ｉｎｆ—ｌｕｅｎｃｅｏｆｚｅｒｏｓｅｑｕｅｎｃｅｍｕｔｕａｌｉｎｄｕｃｔａｎｃｅｔｏｐｉｌｏｔｐｒｏｔｅｃｔｉｏｎｉｎｐａｒａｌｌｅｌｌｉｎｅｓ［Ｊ］．Ｒｅｌａｙ，２００４，３２（９）：—７１７３．［３］康小宁，梁振锋，索南加乐．相邻线路零序互感对Ⅲ平行双回线电流平衡保护的影响及改进措施．继—电器，２００５，３３（２０）：６９．—ＫＡＮＧＸｉａｏ－ｎｉｎｇ，ＬＩＡＮＧＺｈｅｎｆｅｎｇ，ＳＵＯＮＡＮＪｉａ・ｌｅ．Ｉｎｆｌｕｅｎｃｅｏｆｚｅｒｏ－ｓｅｑｕｅｎｃｅｍｕｔｕａｌｉｎｄｕｃｔａｎｃｅｔｏｔｒａｎｓｖｅｒｓｅｄｉｆｆｅｒｅｎｔｉａｌｃｕｒｒｅｎｔｐｒｏｔｅｃｔｉｏｎａｎｄａｐｐｒｏａｃｈｅｓｔｏｔｈｅｉｍｐｒｏｖｅｄｍｅａｓｕｒｅｓ［Ｊ］．Ｒｅｌａｙ，２００５，３３（２０）：６－９．［４］曾耿晖，黄明辉，刘之尧，等．同杆线路纵联零序保护误动分析及措施［Ｊ］．电力系统自动化，２００６，３０（２０）：１０３．１Ｏ７．ＺＥＮＧＧｅｎｇ－ｈｕｉ，ＨＵＡＮＧＭｉｎｇ・ｈｕｉ，ＬＩＵＺｈｉ・ｙａｏ，ｅｔａ１．Ａｎａｌｙｓｉｓａｎｄｃｏｕｎｔｅｒｍｅａｓｕｒｅｓｏｆｍｉｓｏｐｅｒａｔｉｏｎｏｆｚｅｒｏｓｅｑｕｅｎｃｅｐｉｌｏｔｐｒｏｔｅｃｔｉｏｎｏｎｃｉｒｃｕｉｔｌｉｎｅｓｏｆｓａｍｅｐｏｌｅ［Ｊ１．ＡｕｔｏｍａｔｉｏｎｏｆＥｌｅｃｔｒｉｃＰｏｗｅｒＳｙｓｔｅｍｓ，２００６，３０（２０）：１０３１０７．［５］胡宁，郑罡，胡志坚．基于积分方程的互感线路参数带电测量研究［Ｊ】．继电器，２００５，３３（１６）：２２－２５．ＨＵＮｉｎｇ，ＺＨＥＮＧＧａｎｇ，ＨＵＺｈｉ－ｊｉａｎ．Ｓｔｕｄｙｏｆｌｉｖｅ［６］［７］［８］［９］［１０］ｌｉｎｅｍｅａｓｕｒｅｍｅｎｔｏｆｐａｒａｍｅｔｅｒｓｏｆｔｒａｎｓｍｉｓｓｉｏｎｌｉｎｅｓｗｉｔｈｍｕｔｕａｌｉｎｄｕｃｔａｎｃｅｂａｓｅｄｏｎｉｎｔｅｇｒａｌｅｑｕａｔｉｏｎｓ［Ｊ］．Ｒｅｌａｙ，２００５，３３ｆｌ６）：２２．２５．李钢，冯辰虎，孙集伟，等．平行运行线路互感对纵联零序方向保护的影响【Ｊ］．华北电力技术，２００７，１２：１．４．ＬＩＧａｎｇ．ＦＥＮＧＣｈｅｎ．ｈｕ，ＳＵＮＪｉ．ｗｅｉ。ｅｔａ１．Ｅｆｆｅｃｔｓｏｆｍｕｔｕａｌｉｎｄｕｃｔａｎｃｅｏｆｐａｒａｌｌｅｌｔｒａｎｓｍｉｓｓｉｏｎｌｉｎｅｓｏｎ—ｌｏｎｇｉｔｕｄｉｎａｌｚｅｒｏｓｅｑｕｅｎｃｅｐｒｏｔｅｃｔｉｏｎ［Ｊ］．ＮｏｒｔｈＣｈｉｎａＥｌｅｃｔｒｉｃＰｏｗｅｒ，２００７，ｌ２：１．４．朱景富．零序互感对线路接地距离保护的影响分析ｌＪ】．电力系统保护与控制，２００９，３７（９）：ｌ１３．１１５．——ＺＨＵＪｉｎｇｆｕ．Ｚｅｒｏｓｅｑｕｅｎｃｅｍｕｔｕａｌｉｎｄｕｃｔａｎｃｅｏｎｔｈｅｇｒｏｕｎｄｄｉｓｔａｎｃｅｅｌｅｍｅｎｔｓｉｍｐａｃｔａｎａｌｙｓｉｓ［Ｊ］．ＰｏｗｅｒＳｙｓｔｅｍＰｒｏｔｅｃｔｉｏｎａｎｄＣｏｎｔｒｏ１．２００９．３７（９）：１１３．１１５．高中德，舒治淮，王德林．国家电网公司继电保护Ⅲ培训『教材．北京：中国电力出版社，２００９．樊占峰，叶东印，李瑞生，等．平行线弱电强磁模型下零序方向元件改进ｆＪ１．电力系统自动化，２００８，—３２（１７）：１００１０３．——ＦＡＮＺｈａｎｆｅｎｇ，ＹＥＤｏｎｇｙｉｎ，ＬＩＲｕｉ・ｓｈｅｎｇ，ｅｔａ１．Ｉｍｐｒｏｖｅｍｅｎｔｏｆｚｅｒｏ．ｓｅｑｕｅｎｃｅｄｉｒｅｃｔｉｏｎａｌｒｅｌａｙｆｏｒｔｈｅｐａｒａｌｌｅｌｌｉｎｅｗｉｔｈｍａｇｎｅｔｉｃａｌｌｙｓｔｒｏｎｇａｎｄｅｌｅｃｔｒｉｃａｌｌｙｗｅａｋｃｏｎｎｅｃｔｉｏｎ［Ｊ］．ＡｕｔｏｍａｔｉｏｎｏｆＥｌｅｃｔｒｉｃＰｏｗｅｒＳｙｓｔｅｍｓ，２００８，３２（１７）：ｌＯ０．１０３．丁晓兵，赵曼勇，徐振宇．接地故障零序方向元件拒动保护改进方案［Ｊ］．电力系统自动化，２００６，３０（９）：８８．９０．——ＤＩＮＧＸｉａｏｂｉｎｇ，ＺＨＡＯＭａｎｙｏｎｇ，ＸＵＺｈｅｎ－ｙｕ．—Ｉｍｐｒｏｖｅｍｅｎｔｏｎｚｅｒｏｓｅｑｕｅｎｃｅｃｕｒｒｅｎｔｐｒｏｔｅｃｔｉｏｎｗｈｅｎｄｉｒｅｃｔｉｏｎａｌｅｌｅｍｅｎｔｆａｉｌｓｔｏｏｐｅｒａｔｅｄｕｒｉｎｇｅａｒｔｈｆａｕｌｔｓ［Ｊ］．ＡｕｔｏｍａｔｉｏｎｏｆＥｌｅｃｔｒｉｃＰｏｗｅｒＳｙｓｔｅｍｓ，２００６，３０（９）：８８．９０．收稿日期：２０１０－０３－０１；—修回日期：２０１Ｏ－０５０６作者简介：吴麟琳（１９８２一），女，博士研究生，研究方向为电力系—统继电保护；Ｅｍａｉｌ：ａｉｌｅｅｎｗｕ５００＠１６３．ｃｏｒｎ黄少锋（１９５８－），男，教授，博士生导师，研究方向为电力系统继电保护。（上接第２３页ｃｏｎｔｉｎｕｅｄｆｒｏｍｐａｇｅ２３）—［１４］ＷａｔｋｉｎｓＪＣＨ，ＤａｙａｎＰｅｔｅｒ．ＱｌｅａｒｎｉｎｇｆＪ】．Ｍａｃｈｉｎｅ—Ｌｅａｎｉｎｇ，１９９２，８：２７９２９２．［１５］张汝波．强化学习理论及应用［Ｍ】程大学出版社，２００１：６９．１００．［１６］［１７］哈尔滨：哈尔滨工ＳｕｔｔｏｎＲＳ，ＢａｒｔｏＡＧ．Ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ：ａｎ—ｉｎｔｒｏｄｕｃｔｉｏｎ［Ｍ】．Ｃａｍｂｒｉｄｇｅ：ＭＩＴＰｒｅｓｓ，１９９８：８７１６０．ＫｕｎｄｕｒＰ．Ｐｏｗｅｒｓｙｓｔｅｍｓｔａｂｉｌｉｔｙａｎｄｃｏｎｔｒｏｌ［Ｍ］．ＭｅＧｒａｗ－Ｈｉｌｌ，１９９４．收稿日期：２０１０－０２－２５；—修回日期：２０１Ｏ－０６１０作者简介：余涛（１９７４－），男，副教授，博士，主要研究方向为复杂电力系统的非线性控制理论和仿真研究；Ｅ．ｍａｉｌ：ｔａｏｙｕｌ＠ｓｃｕｔ．ｅｄｕ．Ｃｒｌ甄卫国（１９８５－），男，硕士研究生，主要研究方向为电—力系统稳定运行与控制。Ｅｍａｉｌ：ｚｗｇｌｌ１６＠１２６．ｔｏｍ

您可能关注的文档

一夕落阳: 该用户很懒，什么也没介绍

联系作者