700字范文 > 用于燃烧控制的模型训练方法装置电子设备以及介质与流程

用于燃烧控制的模型训练方法装置电子设备以及介质与流程

时间：2018-07-20 16:05:42

本公开涉及一种用于燃烧控制的模型训练方法、装置、电子设备以及介质。

背景技术：

在火力发电领域，优化燃烧效率的改进都集中在硬件层面，包括合理的炉型以及燃烧器设计等，而通过控制层面对效率进行优化，如通过合理调整控制给煤量、风量等变量来进一步优化效率，也是一个有价值的研究方向。但是由于火电锅炉燃烧所涉及的状态维度和动作维度高达数百维，在控制层面进行优化也是行业的一个难点。这也导致了目前的锅炉动作控制主要依靠人工经验，由于操作人员水平不一，不同的人员操作对锅炉的效率有很大影响，导致这种方法很难大规模复制。

技术实现要素：

本公开的一个方面提供了一种用于燃烧控制的模型训练方法，包括获得历史数据中的多个时刻的燃烧状态参数和控制动作参数，将前一时段的燃烧状态参数输入策略网络，得到当前时刻的动作预测参数，将前一时段的燃烧状态参数和控制动作参数、当前时刻的燃烧状态参数和所述动作预测参数输入燃烧过程仿真预测网络，得到下一时刻的状态预测参数，以及基于所述状态预测参数和下一时刻实际的燃烧状态参数，训练所述策略网络。

可选地，所述将前一时段的所述燃烧状态参数输入策略网络，得到当前时刻的动作预测参数包括，将前一时段的所述燃烧状态参数输入策略网络中的循环神经网络，得到初步预测参数，以及在所述初步预测参数满足安全约束条件和逻辑约束条件的情况下，将所述初步预测参数作为动作预测参数输出。

可选地，所述方法还包括将前一时段的所述燃烧状态参数、控制动作参数输入燃烧过程仿真预测网络，得到当前时刻的状态预测参数，以及基于所述当前时刻的状态预测参数和当前时刻实际的燃烧状态参数，训练所述燃烧过程仿真预测网络。

可选地，所述基于所述状态预测参数和下一时刻实际的燃烧状态参数，训练所述策略网络包括基于所述状态预测参数确定燃烧效率预测值，基于下一时刻实际的燃烧状态参数确定燃烧效率实际值，基于所述燃烧效率预测值和所述燃烧效率实际值训练所述策略网络。

可选地，所述基于所述燃烧效率预测值和所述燃烧效率实际值训练所述策略网络包括，判断所述燃烧效率预测值和所述燃烧效率实际值的比值是否小于第一阈值，若所述燃烧效率预测值和所述燃烧效率实际值的比值小于第一阈值，则基于所述燃烧效率预测值和所述燃烧效率实际值调整所述策略网络的参数。

可选地，所述燃烧状态参数包括压力、温度、排出物的成分中的一种或多种。

可选地，所述控制动作参数包括送风机阀门的开度、引风机阀门的开度中的一种或多种。

可选地，所述获得历史数据中的多个时刻的燃烧状态参数和控制动作参数包括获得历史数据，所述历史数据包括多个时刻的燃烧状态参数和控制动作参数，以及从所述历史数据中确定燃烧效率大于第二阈值且氮氧化物排放量小于第三阈值的历史数据用于训练。

本公开的一个方面提供了一种用于燃烧控制的模型训练装置，包括获得模块、第一预测模块、第二预测模块以及训练模块。获得模块，用于获得历史数据中的多个时刻的燃烧状态参数和控制动作参数。第一预测模块，用于将前一时段的燃烧状态参数输入策略网络，得到当前时刻的动作预测参数。第二预测模块，用于将前一时段的燃烧状态参数和控制动作参数、当前时刻的燃烧状态参数和所述动作预测参数输入燃烧过程仿真预测网络，得到下一时刻的状态预测参数。训练模块，用于基于所述状态预测参数和下一时刻实际的燃烧状态参数，训练所述策略网络。

本公开的另一个方面提供了一种电子设备，包括处理器以及存储器，用于存储一个或多个计算机可读指令，其中，当所述一个或多个计算机可读指令被所述至少一个处理器执行时，使得所述处理器执行如上所述的方法。

本公开的另一个方面提供了一种计算机可读介质，其上存储有计算机可读指令，该指令被执行时使处理器执行如上所述的方法。

本公开的另一方面提供了一种计算机程序，所述计算机程序包括计算机可执行指令，所述指令在被执行时用于实现如上所述的方法。

本公开实施例提供的方法通过策略网络和仿真预测网络，可以基于真实的历史数据模仿学习锅炉控制方法，通过迭代训练，不断优化参数，持续改善控制效果。

附图说明

通过以下参照附图对本公开实施例的描述，本公开的上述以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了根据本公开实施例的用于燃烧控制的模型训练方法的示意图；

图2示意性示出了根据本公开实施例的用于燃烧控制的模型训练方法的流程图；

图3示意性示出了根据本公开实施例的将前一时段的所述燃烧状态参数输入策略网络，得到当前时刻的动作预测参数的流程图；

图4示意性示出了根据本公开实施例的基于所述状态预测参数和下一时刻实际的燃烧状态参数，训练所述策略网络的流程图；

图5示意性示出了根据本公开另一实施例的用于燃烧控制的模型训练方法的示意图；

图6示意性示出了根据本公开实施例的用于燃烧控制的模型训练装置的框图；以及

图7示意性示出了根据本公开实施例的适于实现用于燃烧控制的模型训练方法和装置的计算机系统的方框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“a、b和c等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有a、b和c中至少一个的系统”应包括但不限于单独具有a、单独具有b、单独具有c、具有a和b、具有a和c、具有b和c、和/或具有a、b、c的系统等)。在使用类似于“a、b或c等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有a、b或c中至少一个的系统”应包括但不限于单独具有a、单独具有b、单独具有c、具有a和b、具有a和c、具有b和c、和/或具有a、b、c的系统等)。本领域技术人员还应理解，实质上任意表示两个或更多可选项目的转折连词和/或短语，无论是在说明书、权利要求书还是附图中，都应被理解为给出了包括这些项目之一、这些项目任一方、或两个项目的可能性。例如，短语“a或b”应当被理解为包括“a”或“b”、或“a和b”的可能性。

在相关技术中，往往首先利用物理和化学模型来模拟整个锅炉的运行过程，然后根据模型的预测来对控制变量进行规划。但是由于锅炉的燃烧过程极其复杂，利用物理和化学模型的模拟会产生很大的误差，而这些误差也会极大影响控制过程，从而影响优化效果。

本公开的实施例提供了一种用于燃烧控制的模型训练方法，包括获得历史数据中的多个时刻的燃烧状态参数和控制动作参数，将前一时段的燃烧状态参数输入策略网络，得到当前时刻的动作预测参数，将前一时段的燃烧状态参数和控制动作参数、当前时刻的燃烧状态参数和所述动作预测参数输入燃烧过程仿真预测网络，得到下一时刻的状态预测参数，以及基于所述状态预测参数和下一时刻实际的燃烧状态参数，训练所述策略网络。

图1示意性示出了根据本公开实施例的用于燃烧控制的模型训练方法的示意图。

如图1所示，该训练方法应用的模型架构包括策略网络和燃烧过程仿真预测网络，将历史数据的状态参数和动作参数输入策略网络以生成下一个动作的预测，将历史数据的状态参数和动作参数以及预测的动作输入燃烧过程仿真预测网络，得到下一个状态参数的预测，根据下一状态参数的预测结果反馈训练策略网络。下面结合图2到图5所示意的实施例进行具体说明。

图2示意性示出了根据本公开实施例的用于燃烧控制的模型训练方法的流程图。

如图2所示，该方法包括操作s210～s240。

在操作s210，获得历史数据中的多个时刻的燃烧状态参数和控制动作参数。

根据本公开实施例，燃烧状态参数例如可以包括压力、温度、排出物的成分等，这些燃烧状态参数能够反映燃烧的情况，例如可以用于反映燃烧效率。控制动作参数例如可以包括送风机阀门的开度、引风机阀门的开度等，该些参数会影响燃烧状态。

根据本公开实施例，历史数据通常是离散的数据，如果历史数据中包含连续的数据，可以按照固定时间间隔将连续的数据分割为离散的数据。

根据本公开实施例，可以获得包括多个时刻的燃烧状态参数和控制动作参数的历史数据，以及从所述历史数据中确定燃烧效率大于第二阈值且氮氧化物排放量小于第三阈值的历史数据用于训练。本公开实施例选用燃烧效率和氮氧化物的排放作为燃烧效果的衡量依据，更高的燃烧效率和更低的氮氧化物排放是理想的效果。通过对数据进行筛选，可以获得更好的人类专家样本用于训练。

在操作s220，将前一时段的燃烧状态参数输入策略网络，得到当前时刻的动作预测参数。

根据本公开实施例，前一时段的数据包括在某一时刻之前的一个时刻或多个时刻。例如，对于预测t时刻的控制动作参数at，可以将t-2、t-1和t时刻的燃烧状态参数st-2、st-1和st都作为输入，以期待获得更加准确的预测效果。

根据本公开实施例，策略网络由循环神经网络构成，适用于时间序列的事件预测。

根据本公开实施例，可以在策略网络中加入安全约束条件和逻辑约束条件，以使得安全风险可控，并且保证最终的输出值在合理的范围内。

图3示意性示出了根据本公开实施例的将前一时段的所述燃烧状态参数输入策略网络，得到当前时刻的动作预测参数的流程图。

如图3所示，该方法包括操作s310～s320。

在操作s310，将前一时段的所述燃烧状态参数输入策略网络中的循环神经网络，得到初步预测参数。

在操作s320，在所述初步预测参数满足安全约束条件和逻辑约束条件的情况下，将所述初步预测参数作为动作预测参数输出。

本公开实施例采用真实的历史数据作为训练样本，由于完全模仿人类控制数据，模型的输出值与人类动作值极为相似，可以在很大程度上保证安全性。

返回参考图2。在操作s230，将前一时段的燃烧状态参数和控制动作参数、当前时刻的燃烧状态参数和所述动作预测参数输入燃烧过程仿真预测网络，得到下一时刻的状态预测参数。

根据本公开实施例，燃烧过程仿真预测网络具有与策略网络类似的结构，例如也可以基于循环神经网络构建，其输入值例如可以包括t-2、t-1和t时刻的燃烧状态参数st-2、st-1、st以及控制动作参数at-2、at-1、at，输出值为t+1时刻的状态预测参数st+1。该燃烧过程仿真预测网络可以使用历史数据事先单独进行训练，使得预测结果向实际发生的结果收敛。即，所述方法还包括将前一时段的所述燃烧状态参数、控制动作参数输入燃烧过程仿真预测网络，得到当前时刻的状态预测参数，以及基于所述当前时刻的状态预测参数和当前时刻实际的燃烧状态参数，训练所述燃烧过程仿真预测网络。

根据本公开实施例，将历史数据中实际的燃烧状态参数st-2、st-1、st、控制动作参数at-2、at-1、at以及策略网络预测的at+1输入该燃烧过程仿真预测网络，可以得到t+1时刻的状态预测参数st+1。

在操作s240，基于所述状态预测参数和下一时刻实际的燃烧状态参数，训练所述策略网络。

根据本公开实施例，可以将状态预测参数和下一时刻实际的燃烧状态参数做比较，例如采用二者的差值的平方作为误差，通过梯度下降法调整模型参数，使该误差达到最小化。

图4示意性示出了根据本公开实施例的基于所述状态预测参数和下一时刻实际的燃烧状态参数，训练所述策略网络的流程图。

如图4所示，该方法包括操作s410～s430。

在操作s410，基于所述状态预测参数确定燃烧效率预测值。

在操作s420，基于下一时刻实际的燃烧状态参数确定燃烧效率实际值。

在操作s430，基于所述燃烧效率预测值和所述燃烧效率实际值训练所述策略网络。

根据本公开实施例，状态预测参数和下一时刻实际的燃烧状态参数的差异可以用燃烧效率表示，燃烧效率可以作为评价模型效果的指标，多个状态参数例如压力、温度等可以用于计算燃烧效率。

根据本公开实施例，燃烧过程仿真预测网络的输出值可以用于评价策略网络的输出值，基于燃烧过程仿真预测网络输出的下一时刻的燃烧状态的状态预测参数，或者燃烧效率预测值，可以确定策略网络输出的动作预测参数是否有效，可以用于反馈训练策略网络。

在本公开实施例中，可以对燃烧过程仿真预测网络的输出值进行筛选，仅选择部分不佳的数据进行训练，如图5所示。

图5示意性示出了根据本公开另一实施例的用于燃烧控制的模型训练方法的示意图。

如图5所示，在燃烧过程仿真预测网络之后，还确定一个训练样本集，该训练样本集可以从全部数据中筛选部分数据确定，用于反馈训练策略网络。

根据本公开实施例，所述基于所述燃烧效率预测值和所述燃烧效率实际值训练所述策略网络包括，判断所述燃烧效率预测值和所述燃烧效率实际值的比值是否小于第一阈值，若所述燃烧效率预测值和所述燃烧效率实际值的比值小于第一阈值，则基于所述燃烧效率预测值和所述燃烧效率实际值调整所述策略网络的参数。

例如，比值的阈值可以设置为0.9，当燃烧效率预测值与燃烧效率实际值的比值小于0.9时，说明策略网络产生的策略不能达到历史数据中人工操作的效果，需要重新调节策略网络的参数，而对于策略网络产生的策略达到的效果与历史数据中人工操作达到的效果相当或者是更优时，则不必使用该数据训练策略网络。

根据本公开实施例，在使用历史数据训练完成后，可以将该策略网络上线运行，用于实际控制燃烧状况，由于增加了安全约束条件，使风险可控。在实际运行中，可以同样接入燃烧过程仿真预测网络，对燃烧过程仿真预测网络进行训练，提高该网络的预测效果。

本公开实施例的方法通过策略网络和仿真预测网络，可以基于真实的历史数据模仿学习锅炉控制方法，通过迭代训练，不断优化参数，持续改善控制效果。

基于同一发明构思，本公开还提供了一种用于燃烧控制的模型训练装置，下面参照图6对本公开实施例的用于燃烧控制的模型训练装置进行说明。

图6示意性示出了根据本公开实施例的用于燃烧控制的模型训练装置600的框图。

如图6所示，该装置600包括获得模块610、第一预测模块620、第二预测模块630以及训练模块640。

获得模块610，例如执行上文参考图2描述的操作s210，用于获得历史数据中的多个时刻的燃烧状态参数和控制动作参数。

第一预测模块620，例如执行上文参考图2描述的操作s220，用于将前一时段的燃烧状态参数输入策略网络，得到当前时刻的动作预测参数。

第二预测模块630，例如执行上文参考图2描述的操作s230，用于将前一时段的燃烧状态参数和控制动作参数、当前时刻的燃烧状态参数和所述动作预测参数输入燃烧过程仿真预测网络，得到下一时刻的状态预测参数。

训练模块640，例如执行上文参考图2描述的操作s240，用于基于所述状态预测参数和下一时刻实际的燃烧状态参数，训练所述策略网络。

根据本公开实施例，第一预测模块620可以用于将前一时段的所述燃烧状态参数输入策略网络中的循环神经网络，得到初步预测参数，以及在所述初步预测参数满足安全约束条件和逻辑约束条件的情况下，将所述初步预测参数作为动作预测参数输出。

根据本公开实施例，该装置600还可以包括仿真预测网络训练模块，用于将前一时段的所述燃烧状态参数、控制动作参数输入燃烧过程仿真预测网络，得到当前时刻的状态预测参数，以及基于所述当前时刻的状态预测参数和当前时刻实际的燃烧状态参数，训练所述燃烧过程仿真预测网络。

根据本公开实施例，训练模块640可以包括第一确定子模块、第二确定子模块以及训练子模块。第一确定子模块用于基于所述状态预测参数确定燃烧效率预测值。第二确定子模块用于基于下一时刻实际的燃烧状态参数确定燃烧效率实际值。训练子模块用于基于所述燃烧效率预测值和所述燃烧效率实际值训练所述策略网络。

根据本公开实施例，所述训练子模块用于判断所述燃烧效率预测值和所述燃烧效率实际值的比值是否小于第一阈值，若所述燃烧效率预测值和所述燃烧效率实际值的比值小于第一阈值，则基于所述燃烧效率预测值和所述燃烧效率实际值调整所述策略网络的参数。

根据本公开实施例，所述燃烧状态参数包括压力、温度、排出物的成分中的一种或多种。

根据本公开实施例，所述控制动作参数包括送风机阀门的开度、引风机阀门的开度中的一种或多种。

根据本公开实施例，所述获得模块610用于获得历史数据，所述历史数据包括多个时刻的燃烧状态参数和控制动作参数，以及从所述历史数据中确定燃烧效率大于第二阈值且氮氧化物排放量小于第三阈值的历史数据用于训练。

根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(fpga)、可编程逻辑阵列(pla)、片上系统、基板上的系统、封装上的系统、专用集成电路(asic)，或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

例如，获得模块610、第一预测模块620、第二预测模块630、训练模块640、仿真预测网络训练模块、第一确定子模块、第二确定子模块以及训练子模块中的任意多个可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本公开的实施例，获得模块610、第一预测模块620、第二预测模块630、训练模块640、仿真预测网络训练模块、第一确定子模块、第二确定子模块以及训练子模块中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(fpga)、可编程逻辑阵列(pla)、片上系统、基板上的系统、封装上的系统、专用集成电路(asic)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，获得模块610、第一预测模块620、第二预测模块630、训练模块640、仿真预测网络训练模块、第一确定子模块、第二确定子模块以及训练子模块中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

图7示意性示出了根据本公开实施例的适于实现用于燃烧控制的模型训练方法和装置的计算机系统的方框图。图7示出的计算机系统仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。图7示出的计算机系统可以实现为服务器集群，包括至少一个处理器(例如处理器701)以及至少一个存储器(例如存储部分708)。

如图7所示，根据本公开实施例的计算机系统700包括处理器701，其可以根据存储在只读存储器(rom)702中的程序或者从存储部分708加载到随机访问存储器(ram)703中的程序而执行各种适当的动作和处理。处理器701例如可以包括通用微处理器(例如cpu)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(asic))，等等。处理器701还可以包括用于缓存用途的板载存储器。处理器701可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在ram703中，存储有系统700操作所需的各种程序和数据。处理器701、rom702以及ram703通过总线704彼此相连。处理器701通过执行rom702和/或ram703中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，所述程序也可以存储在除rom702和ram703以外的一个或多个存储器中。处理器701也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。

根据本公开的实施例，系统700还可以包括输入/输出(i/o)接口705，输入/输出(i/o)接口705也连接至总线704。系统700还可以包括连接至i/o接口705的以下部件中的一项或多项：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至i/o接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

根据本公开的实施例，根据本公开实施例的方法流程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。在该计算机程序被处理器701执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

本公开还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

根据本公开的实施例，计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线、光缆、射频信号等等，或者上述的任意合适的组合。

例如，根据本公开的实施例，计算机可读介质可以包括上文描述的rom702和/或ram703和/或rom702和ram703以外的一个或多个存储器。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。

以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

技术特征：

1.一种用于燃烧控制的模型训练方法，包括：

获得历史数据中的多个时刻的燃烧状态参数和控制动作参数；

将前一时段的燃烧状态参数输入策略网络，得到当前时刻的动作预测参数；

将前一时段的燃烧状态参数和控制动作参数、当前时刻的燃烧状态参数和所述动作预测参数输入燃烧过程仿真预测网络，得到下一时刻的状态预测参数；以及

基于所述状态预测参数和下一时刻实际的燃烧状态参数，训练所述策略网络。

2.根据权利要求1所述的方法，其中，所述将前一时段的所述燃烧状态参数输入策略网络，得到当前时刻的动作预测参数包括：

将前一时段的所述燃烧状态参数输入策略网络中的循环神经网络，得到初步预测参数；以及

在所述初步预测参数满足安全约束条件和逻辑约束条件的情况下，将所述初步预测参数作为动作预测参数输出。

3.根据权利要求1所述的方法，还包括：

将前一时段的所述燃烧状态参数、控制动作参数输入燃烧过程仿真预测网络，得到当前时刻的状态预测参数；以及

基于所述当前时刻的状态预测参数和当前时刻实际的燃烧状态参数，训练所述燃烧过程仿真预测网络。

4.根据权利要求1所述的方法，其中，所述基于所述状态预测参数和下一时刻实际的燃烧状态参数，训练所述策略网络包括：

基于所述状态预测参数确定燃烧效率预测值；

基于下一时刻实际的燃烧状态参数确定燃烧效率实际值；

基于所述燃烧效率预测值和所述燃烧效率实际值训练所述策略网络。

5.根据权利要求1所述的方法，其中，所述基于所述燃烧效率预测值和所述燃烧效率实际值训练所述策略网络包括：

判断所述燃烧效率预测值和所述燃烧效率实际值的比值是否小于第一阈值；

若所述燃烧效率预测值和所述燃烧效率实际值的比值小于第一阈值，则基于所述燃烧效率预测值和所述燃烧效率实际值调整所述策略网络的参数。

6.根据权利要求1所述的方法，其中：

所述燃烧状态参数包括压力、温度、排出物的成分中的一种或多种；以及/或者

所述控制动作参数包括送风机阀门的开度、引风机阀门的开度中的一种或多种。

7.根据权利要求1所述的方法，其中，所述获得历史数据中的多个时刻的燃烧状态参数和控制动作参数包括：

获得历史数据，所述历史数据包括多个时刻的燃烧状态参数和控制动作参数；以及

从所述历史数据中确定燃烧效率大于第二阈值且氮氧化物排放量小于第三阈值的历史数据用于训练。

8.一种用于燃烧控制的模型训练装置，包括：

获得模块，用于获得历史数据中的多个时刻的燃烧状态参数和控制动作参数；

第一预测模块，用于将前一时段的燃烧状态参数输入策略网络，得到当前时刻的动作预测参数；

第二预测模块，用于将前一时段的燃烧状态参数和控制动作参数、当前时刻的燃烧状态参数和所述动作预测参数输入燃烧过程仿真预测网络，得到下一时刻的状态预测参数；以及

训练模块，用于基于所述状态预测参数和下一时刻实际的燃烧状态参数，训练所述策略网络。

9.一种电子设备，包括：

处理器；以及

存储器，其上存储有计算机可读指令，所述指令被处理器执行时使得处理器执行如权利要求1～7中任意一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机可读指令，所述指令被处理器执行时使得处理器执行如权利要求1～7中任意一项所述的方法。

技术总结

本公开提供了一种用于燃烧控制的模型训练方法，包括获得历史数据中的多个时刻的燃烧状态参数和控制动作参数，将前一时段的燃烧状态参数输入策略网络，得到当前时刻的动作预测参数，将前一时段的燃烧状态参数和控制动作参数、当前时刻的燃烧状态参数和所述动作预测参数输入燃烧过程仿真预测网络，得到下一时刻的状态预测参数，以及基于所述状态预测参数和下一时刻实际的燃烧状态参数，训练所述策略网络。本公开还提供了一种用于燃烧控制的模型训练装置、一种电子设备以及一种计算机可读存储介质。

技术研发人员：霍雨森;詹仙园;张玥;徐浩然;邓欣;郑宇

受保护的技术使用者：京东城市(南京)科技有限公司

技术研发日：.10.21

技术公布日：.01.10

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。