基于强化学习的化工过程控制解决方案

在化工过程的自动控制中,常用的控制方法包括PID控制、MPC、EDC和APC等,这些传统控制方式在应对过程动态性和时变性的适应性、非线性环境适应性等方面还存在诸多问题。相比之下,强化学习在化工过程自动控制的应用中具有天然优势。

化工行业是支撑现代社会基础的关键产业之一,其产品广泛应用于多个领域,在国民经济中扮演着重要角色。过程控制是化工制造重要的组成环节,它对生产效率提高、降本增效和确保产品质量的稳定性和一致性起着重要作用。然而,随着化工行业复杂度的提升,当前的化工过程控制仍面临着一系列挑战。

在化工过程的自动控制中,常用的控制方法包括PID控制、MPC、EDC和APC等,这些传统控制方式在应对过程动态性和时变性的适应性、非线性环境适应性等方面还存在诸多问题。相比之下,强化学习在化工过程自动控制的应用中具有天然优势。

南栖仙策基于多年强化学习工业控制决策技术研发和项目建设经验,提出化工过程控制解决方案,项目依托自主研发的核心技术,突破理论局限,打造基于数据驱动的虚拟环境强化学习工具,并实现了从数据驱动的仿真模型构建到高效决策寻优的全过程,从而为化工行业过程控制找到一条新的出路,本项目方案已经在包括丁烷精制塔控制、常压蒸馏控制等实际场景中投入应用并取得优异效果。

一、实施背景

化工行业在国民经济中占据着重要地位,是支撑现代社会基础的关键产业之一。作为生产化学品、能源、材料等基础产品的主要部门,化工行业直接关系到国家的工业基础和经济发展水平。其产品广泛应用于农业、建筑、医药、能源等多个领域,对于满足社会生活和工业需求起到至关重要的作用。同时,化工行业还为国家创造了大量就业机会,促进了科技创新和技术进步,为国家的独立经济体系和全球竞争力的提升做出了重要贡献。其在国民经济中的综合贡献,使其地位不可替代,成为推动国家工业化和现代化的支柱性产业之一。

化工过程控制在整个化工行业中扮演着不可或缺的重要角色。通过监测、调整和优化生产过程,它不仅提高了生产效率,降低了成本,还确保了产品质量的稳定性和一致性。这对于提高企业的竞争力、适应市场需求至关重要。此外,过程控制还在危险环境下发挥着关键作用,确保生产安全,并满足环保法规的要求。

然而,当前的化工过程控制仍面临着一系列挑战。首先,技术水平的不断提升要求更加智能、自适应的控制系统。其次,化工生产过程的复杂性和多变性使得过程建模和优化变得更为困难。此外,一些传统的过程控制系统可能存在老化和技术滞后的问题,需要进行更新和升级。而随着数字化转型的推进,数据安全和隐私问题也变得日益重要。

在化工过程的自动控制中,常用的控制方法比例-积分-微分(PID)控制、模型预测控制(MPC)、事件驱动控制(EDC)和先进过程控制(APC)等不同的控制方式,这些控制方法可以根据具体的化工过程需求和系统特性选择合适的组合或单一方法。这些传统控制方式虽然在多数场景下有效,但在工业过程复杂性和安全性要求日益提高的当下,其本身在应对过程动态性和时变性的适应性、非线性环境适应性等方面还存在诸多问题,因此近年来一些更先进的控制方法逐渐被引入和应用以克服传统方法的一些劣势。

相比传统的控制方法,强化学习(Reinforcement Learning,RL)在一些化工过程自动控制的应用中具有天然优势。具体而言可以表现在以下几个方面:

●适应性强:强化学习具有较强的适应性,可以在不完全了解系统动态的情况下进行学习和优化。这对于复杂的、非线性的系统具有优势。

●无需精确模型:传统的控制方法通常需要精确的系统模型,而强化学习可以在无需精确模型的情况下进行学习和控制,更适用于一些难以建模或模型不稳定的系统。

●处理非线性关系:强化学习能够有效地处理非线性和复杂的系统关系,而一些传统方法可能在这方面表现不佳。

●学习过程中的探索:强化学习通过学习过程中的探索来发现系统的潜在结构,从而能够更好地应对未知的、动态的系统。

●灵活性:强化学习方法非常灵活,能够适应不同的控制任务和环境,并在变化的工况下保持稳健性。

●多变量系统处理:强化学习框架能够有效地处理多变量系统,通过学习各个状态的潜在关联性,实现更复杂的控制。

●应对非确定性:强化学习能够更好地处理环境的非确定性,适用于一些化工过程中存在不确定性的场景。

二、实施目标

本方案的实施,主要是提出一种基于强化学习技术的化工行业过程控制解决方案,以南栖仙策攻克理论局限,自主研发的核心技术为基础研发的通用强化学习训练平台POLIXIR REVIVE为基础,解决传统化工行业过程中决策尝试成本高、机理环境模型仿真难、模型可解释性低、对复杂动态场景控制的适应性不高等问题,从而实现策略模型最优、重点监测变量安全可控、对比人工操作产品支抗和波动幅度降低等目标。

三、建设内容

南栖仙策根据多年环境仿真的应用经验以及工业领域控制的落地案例,开发化工行业智能决策平台,平台为模型层、仿真层和应用层三部分:

在仿真层,既可以基于公司多年仿真环境构建的经验,结合实际数据与工况,建立数理与机理融合的仿真环境,也可对接第三方基于业务机理仿真模型;

在模型层可结合仿真环境,定义控制目标,并构建策略模型,寻找既定目标下的最优策略。同时复现决策过程,使模型具备可解释性。

在应用层,仿真环境与策略模型结合,可低成本甚至零成本进行实际业务场景的预测与推演,从而提供最优决策辅助方案

基于南栖仙策多年工业领域落地实践,我们构建了化工过程智能决策控制平台来解决化工行业过程控制难题,具体平台架构如下图所示:

640 (1).png

包括化工过程智能决策控制平台、基础研发的通用强化学习训练平台POLIXIR REVIVE。通过决策控制平台与强化学习训练平台、基于机理的第三方虚拟工厂进行环境交互,训练出策略模型,并与实际控制进行策略交互,最终做到智能决策和智能推演

从解决方案流程上,主要包括:构建/对接虚拟仿真环境、配置控制参数与效益目标、策略优化与执行三个部分,具体的:

多途径构建虚拟仿真环境:根据实际业务,可适配对接第三方的机理仿真模型;可基于数据与机理的关系,构建数理与机理相结合的虚拟仿真环境,该方式下的模型可以全面而有深度地掌控真实环境特征,有效关注机理模型的认知盲点,更好地理解多节点复杂耦合关系。

针对工业领域可配置的控制参数,效益优化:根据实际业务场景需要,表格式操作,可快速配置控制参数与监控参数,零代码、可扩展的参数配置。以业务效益公式的形式定义效益目标且灵活配置权重,公式化设计效益目标

面向未来执行策略优化:提供最优控制指令和最优调度方案;回避测试性控制实验,提高系统安全性;智能辅助决策化繁为简,节省员工精力;最合理的资源调度,避免浪费,减少支出。

最后,我们也可以根据客户实际,以模型+平台的方式提供可定制化的业务场景适配服务,以化工行业常见的常压蒸馏和丁烷精制塔为例,我们采用定制化方式,针对性训练策略模型,制定符合业务需求的平台开发,同时也可以定制训练数理+机理的仿真环境,如果客户有自己的虚拟环境工厂,我们也可以对接。

640 (1).png

四、实施效果

本建设方案以常压蒸馏和丁烷精制塔具体两个实施案例展开,表述实施效果。

1、常压蒸馏

常压蒸馏是原油加工的第一道工序,炼油企业最重要的装置之一。根据原油中各个组分的沸点不同,用多点位协同加热工序,从原油中分离出各种石油馏分(汽油,煤油,柴油等)。炼化企业的产能就是指常减压蒸馏装置的常压塔的年处理能力。

640 (1).png

(1)控制目标:

●处理提量:根据外部单位时间的原油输入流量,采用人工智能手段提供控制策略,能够比人工调节更快的方式调节操作参数,使得系统在新的输入流量下稳定运行。

●RFCC混炼任务:原油成分发生变化提供一个策略,采用人工智能手段提供控制策略,能够以比人工调节更快的方式调节操作参数,使得系统在相同流量,不同成分下稳定运行。

(2)效果:

对训练的策略进行独立测试。测试总计进行33轮次,每次时长对应虚拟工厂中6小时。在33×6小时的测试中策略做到了100%达标且重点监测变量在安全可控范围内.

640 (1).png

2、丁烷精制塔控制

以丁烷精制塔控制为主要项目范围,针对其中的塔釜蒸汽再沸器和热水再沸器的切换和原料变化带来的控制变化为主要研究场景,通过人工智能的方式在安全生产的前提下,实现更加快速、精准、高效的控制。

640 (1).png

(1)控制变量

●塔釜蒸汽再沸器和热水再沸器的切换

●混合丁烷原料组成变化

(2)控制目标:

●人工智能控制过程中,塔系工况处于合理的操作范围内

●正丁烷质量符合要求

●人工智能控制下的收益/成本可优化

(3)控制效果:

●操作时间:切换过程节约67%左右,稳定过程节约38%左右

●产品质量:对比人工操作,切换过程不超限

●波动幅度:对比人工操作,幅度最低减少5%

640 (1).png

THEEND