700字范文,内容丰富有趣,生活中的好帮手!
700字范文 > AI Earth 深度学习模型替换数值天气预报模型中的参数化方案-大气辐射传输方案

AI Earth 深度学习模型替换数值天气预报模型中的参数化方案-大气辐射传输方案

时间:2023-03-26 03:04:51

相关推荐

AI Earth 深度学习模型替换数值天气预报模型中的参数化方案-大气辐射传输方案

1.背景

太阳辐射和热辐射是大气和海洋运动的最根本的驱动力。大气辐射传输过程实际上已经可以通过一种叫做LBLRTM的辐射模型精确计算,但是LBLRTM模型同时也最为耗时。因此,有各种各样的辐射传输参数化方案用来近似计算辐射传输过程,并应用在数值天气预报中。参数化方案的概念源于数值天气预报模式。大气中一些至关重要的物理过程的规模都要小于当前数值预报模式的网格分辨率,比如小尺度流体运动(小涡,旋涡,涡旋),下图展示了次网格尺度下的水汽凝结最终生成云的过程。一些物理过程非常复杂包括湍流过程、散射等。网格尺度的运动和次网格尺度的运动必然存在一定程度的相互作用,可以通过引入一些参数,来近似建立网格尺度的物理量与次网格尺度的物理量之间的关系,而确定这些参数的方案,被称为参数化方案。

次网格中云的生成(gif动图)

此外辐射参数化方案尽管经过了简化,但是仍然是数值预报模式中最为耗时的,因此辐射传输参数化方案通常在比模式网格分辨率更低的网格中采用更低的频次调用。例如,在欧洲中尺度天气预报ECMWF的确定性预报中,辐射传输方案的调用空间分辨率比原网格粗糙10.24倍,时间调用频次为其他参数化方案和动力框架的1/8。

已经有许多科研工作者尝试一些方案用于替换原辐射参数化方案,包括采用神经网络的方式。早在1998年,欧洲中尺度数值预报中心的Chevallier等人利用单隐藏层的浅层神经网络去计算从一个有31层垂直层的数值模式中大气层顶到地面的长波辐射,也被称为NeuroFlux。NeuroFlux的精度达到了和原ECMWF中辐射传输方案相近的精度,并且要快22倍。但是当模式的垂直分层达到了60层及以上的时候,NeuroFlux就难以同时保持精度和加速的效果。,韩国研究人员Roh,Soonyoung和Song,HwanJin通过实验证明:基于神经网络的辐射方案运算速度更快,高频次的调用基于神经网络的辐射方案与低频次调用原先基于物理的辐射方案,在耗时接近的情况下,获得的预报精度更高。

此外,基于深度学习模型的参数化方案除了追求精度以外,也应该通过将物理定律融入到模型中以获得更让人信服的结果。在大气辐射传输问题中,辐射通量和辐射加热率之间存在中一定的关系,如下面公式所表达的。早期的一些研究训练出来的模型直接输出辐射加热率廓线以及地面和大气层顶的辐射通量,没有考虑到能量守恒问题。近来,有部分研究人员通过让模型只预测出辐射通量,然后根据下面公式计算辐射加热率,保证物理上的一致性。但是,Ukkonen等人发现辐射加热率对于辐射通量的误差,特别是相邻垂直层的辐射通量差值非常敏感,很小的辐射通量误差即会造成辐射加热率的相对较大的误差。因此,有必要同时对辐射通量和辐射加热率同时监督,并满足物理规律。

公式中,HRl​为辐射加热率(单位为K/day),g为重力常数,cp为定压热容量,Flup​、Fldown​和pllev​分别为模式第l个level上的向上辐射通量、向下辐射通量,和气压。

我们在训练深度学习模型模拟辐射传输计算之前,通过跨尺度大气预报模式MPAS-A模型以及使用非常普遍的RRTMG辐射传输方案生成大量的训练和验证数据集。同时,我们提出了一种包含前面提到的物理约束的训练框架。基于该框架,我们采用和对比了不同类型的深度学习模型网络结构,并分析了每种网络结构在辐射传输问题上的优缺点。

2.数据

2.1.数据生成

数据集生成采用跨尺度大气预报模式MPAS-A模型(7.1版本),美国国家环境预报中心(NCEP)的全球预报系统(GFS)数据作为初始场。本次MPAS-A模型的设置采用了约60公里的准均匀网格,总共包含了163842个网格点。垂直分层方面采用混合的地形跟随坐标系,共57个垂直层(level),大气层顶在30公里高空。并且,垂直分层的间隔从近地面到大气层顶显著增加。

物理参数化方案上采用了称为"mesoscalereference"的套装。MPAS-A模型运行12次,每次为在的1个月份随机选择一天运行连续3天,3天中的前两天数据作为训练数据,后一天作为测试数据。模型每隔1小时(模拟时间,并非真实时间)输出1次。随机选择的初始时间如下:0108,0213,2002,,2028,,,,2027,,2024,2004。

2.2.模型的输入和输出

下面表格列举了所有的输入和输出变量,包含29个输入变量,6个输出变量。输入变量中,11个变量为地面变量,其他的为3维变量(模式layer或level)。因此,有必要对不同类型的变量进行预处理,通过将地面变量重复拷贝以及将模式layer的变量的地面layer变量拷贝一份的方式,将所有变量的维度都统一成与模式level层变量相同。基于训练数据集,采用z-score的归一化方式,并且对于任一一种原三维变量,均采用该变量的所有模式layer或level的数值计算平均值和标准差。

3.方案介绍

3.1.包含物理约束的框架

通过背景介绍中提到的辐射通量和辐射加热率的关系,我们了解到辐射通量和加热率不是相互独立,而是满足一定物理规律的。此外,大气层中某一变量的改变是会对整个大气层的辐射通量垂直廓线产生影响。例如,在某一层中若出现云,穿透过该云层的短波辐射通量便会减少,该云层下方的所有大气层的短波辐射通量会受到影响。如果该云层下方再出现一个云层,第二个云层可以吸收的短波辐射通量会更少,也会产生相对较少的短波辐射加热率。因此,为了能够帮助模型获取这种非局部的效应的特征,有必要对相关变量进行预处理。下图展示了包含物理约束的AI辐射模型框架图,包含了三层分别是:差分/积分层,辐射传输层,和物理约束层。

包含物理约束的AI辐射传输模型框架图

差分/积分层是预处理模块,不包含任何可训练的参数。如上面提到的,为了能够更好的学习到非局部效应,积分层将相关变量(云量cldfrac和云水qc)沿着垂直方向分别从大气层顶或地面向下或向上积分到每个level获得新的变量。同时,正如上面第一个公式所示,相邻层之间的气压差对于辐射通量转换为辐射加热率非常重要,所以差分层用于计算出相邻层之间的气压差。最终输入到AI模型的既包含了上面输入和输出变量表格中所有的输入变量,也包含了差分/积分层输出的预处理后的变量。

辐射传输层即是包含了用于模拟辐射传输计算的深度学习模型。所有需要学习的参数均在该层中。尽管深度学习模型仅输出辐射通量,但是定制化的loss函数同时考虑辐射通量和辐射加热率,正如下面公式所示,loss函数L

为Lflux​和Lflux​的加权平均。其中,λ为范围在0到1的可调节的权重。考虑到辐射通量和辐射加热率的单位不同,Lflux​和和Lflux​均为通过均方误差除以方差的方式获得无量纲的loss函数。该层中所采用的的各种深度学习模型的网络结构将在下面详细介绍。

物理约束层的作用是通过辐射通量和辐射加热率之间的公式,依据辐射传输层的输出的辐射通量计算辐射加热率,从而保证物理上的一致性和能量守恒。此外,辐射加热率的梯度通过辐射通量获得。

3.2.辐射传输层中的深度学习模型

该部分详细介绍采用的不同深度学习模型的网络结构,包含了FC、CNN、RNN、transformer,和neuraloperator。对于所有的模型结构,总的模型参数量均控制在1百万个左右,从而排除模型参数量对模型表现的影响。

●FCNNs:FC模型为在用AI模型替换辐射传输方案的研究中最早使用的模型。在FC模型中,所有输入必须转换为一维后输入模型,因此有关于大气层中变量的垂直分布等重要信息便丧失掉了。

●CNNs:CNN模型最初是为图像处理而设计的,进来也在大气科学研究中应用的越来越多。CNN模型采用卷积核每次处理输入数据中的一小部分,所以非常擅长提取局部特征。其他模型包括FC、RNN、transformer、NeuralOperators中,理论上每个单元都会受到全部输入的影响,但是CNN模型中的单元只依赖于部分的输入。我们采用了ResNet和U-Net模型。

●RNNs:RNN模型普遍应用于处理序列数据,包括自然语言处理任务和时间序列等。这里的辐射传输过程可以看出是辐射以光速穿透各个一层层大气,因此也可以看成是时间序列问题。因此,这里的序列数据为模式输出的各个层上的影响辐射的变量(即为上面的表格中的输入变量)。另一方面,考虑到辐射是同时向下和向上传播的,我们这里采用双向RNN模型,包括Bi-LSTM和Bi-GRU模型。

●Transformer:Transformer模型最初应用于自然语言处理任务,并逐渐在机器学习的各个领域取得了成功。不同于CNN类的模型从提取局部特征开始,然后逐步扩大感受野,transformer模型在每一层都能够提取全局的特征。如3.1部分提到的,辐射问题是一个全局问题,云的出现会影响所有大气层的辐射通量因此,transformer模型比较适合于辐射传输计算,因为能从整个大气层提取特征。

●NeuralOperator:传统的辐射参数化方案计算前需要会在垂直方向上对大气层进行离散化,划分垂直层。然而,垂直层的划分需要权衡速度和精度。通常来说,垂直层划分的的越多,精度越高,但是相应的速度越慢;垂直层划分的越少,精度越低,速度越快。不同于传统的需要划分网格的方法,fourierneuraloperator(FNO)模型可以在函数空间去进行辐射传输的计算而非离散空间。并且,FNO模型的输出是波场,类似于辐射的波状。

下面表格总结了使用的所有深度学习模型在辐射传输问题上的优缺点。

3.3.评估方法

我们所使用的的评估总体精度的指标主要是较为常用的RMSE和MBE。并且,我们通过下面公式计算了每层大气层上的MAE和MBE。

公式中,Y(i,l)和YDL​(i,l)分别为原RRTMG辐射传输方案和基于深度学习模型的辐射传输方案的输出。i为水平空间中的某个点,l为某一模式level或layer的index。

4.结果

4.1.统计结果

下面表格总结了12天的测试集数据上的不同的深度学习模型对于辐射通量(Flux)和辐射加热率(HeatingRate)的统计结果。从表格中可以看出,FC、ResNet和U-Net模型的预测精度较低,短波和长波辐射通量的RMSE分别高于10.9和2.4W⋅m−2,短波和长波辐射加热率的RMSE分别高于0.09和0.21K⋅d−1。同时,可以看出同一种模型预报的长波辐射通量的RMSE总是小于短波辐射通量,原因是短波辐射通量的数值上大于长波辐射通量,更难预报准确。然而,同一种模型预报的长波辐射加热率的RMSE总是高于短波辐射加热率,原因是长波辐射加热率对于云更加敏感,因此更难预报准确。总体而言,FC和CNN类的模型在辐射传输问题上的表现要差于RNN、transformer和FNO模型,而这可以从之前提到的不同模型特点的差异可以推断出来。

Bi-GRU、Bi-LSTM、transformer和FNO模型显著提高了预报精度,短波和长波辐射通量的RMSE分别小于3.8和1.3W⋅m−2,短波和长波辐射加热率的RMSE分别小鱼0.042和0.15K⋅d−1。因为辐射通量的计算是一个全局问题,即大气层中任一一层的大气状态变化都会影响到整个大气柱的辐射通量廓线,所以能够提取全局特征对于用深度学习模型辐射传输方案非常关键,而Bi-GRU、Bi-LSTM、transformer和FNO模型都具备了这一能力。FNO模型表现不如Bi-GRU、Bi-LSTM和transformer模型,因为FNO模型假设输入是均匀的,但是这里所采用的用于生成数据的MPAS模型的垂直层分布并不是均匀的,并且通常上数值预报模式的垂直分层都不是均匀的。Bi-LSTM和Bi-GRU模型精度最高,高于transformer模型。辐射加热率的计算实际上是局部问题,即每一层的辐射加热率只取决于相邻层的辐射通量,但是transformer模型每次都需要计算所有垂直层的注意力分布。相比而言,Bi-LSTM和Bi-GRU模型直接用上一个垂直层的输出作为下个垂直层的输入。尽管transformer模型可以学习到把更多的注意力给到相关的模式垂直层,但是却比Bi-LSTM和Bi-GRU模型更加抵消。因此,transformer模型需要更多的参数量去实现和Bi-LSTM和Bi-GRU模型相近的精度。本次实验中所采用的各个模型参数量均控制在接近的水平。此外,Bi-LSTM和Bi-GRU模型的双向特点可以更好的模拟辐射在大气层中的双向传输过程。

考虑到大气层顶的净辐射误差直接影响到全球大气的能量收支,表格中也展示大气层顶的净辐射通量的MBE。当大气层顶的净辐射通量MBE越接近0表示与原基于物理的辐射传输方案的能量收支越一致。表格中显示Bi-LSTM模型在大气层顶的净辐射通量的误差也是最小的,并且比其他模型的误差数量级更小。

下图展示了具有代表性的四个模型包括FC、U-Net、Bi-LSTM和transformer的误差在各个垂直层上的分布。图中实线和虚线代表的分别是辐射通量(上面两行)或辐射加热率(下面两行)的MAE和MBE,阴影部分代表的是深度学习模型预报的辐射通量(或加热率)与RRTMG预报的作为真值的辐射通量(或加热率)的差值的5%和95%分位数、可以通过阴影面积的大小看出,FC和U-Net模型的方差很大,并且所有垂直层上的MAE也比Bi-LSTM和transformer模型大很多。Bi-LSTM和transformer模型的误差分布接近,但是仍可以肉眼看出Bi-LSTM的误差和方差更小。Bi-LSTM和transformer模型的辐射通量误差的垂直分布相对均匀,长波辐射加热率方面,两个模型均在800-1000hPa(百帕)和200-400hPa的气压层范围内有相对更大的方差。这两个气压层刚好也是云最经常出现的垂直区域,因此预报难度更高。

4.2.加入物理约束层的优势讨论

我们3.1部分的包含物理约束的框架中介绍了如何引入物理约束,并同时对辐射通量和辐射加热率进行监督学习。为了对比是否加入物理约束的差别,我们设计了三组实验:只监督辐射通量(λ=0),只监督辐射加热率(λ=1),加入物理约束同时监督辐射加热率和辐射通量(λ=0.091)。三组实验均采用Bi-LSTM模型,并且除了λ取值上的不同,其他方面均相同。

下面表格对比了三组实验的辐射通量和辐射加热率的RMSE。当只监督辐射通量时,辐射加热率可根据上面提到的公式计算出来,同时辐射通量的廓线相对平滑,所以模型较容易拟合辐射通量。只监督辐射通量时的辐射通量的RMSE略微高于加入物理约束时的结果。但是,只监督辐射通量时短波和长波辐射加热率的RMSE却分别是加入物理约束时的6倍和1.5倍。另一方面,只监督辐射加热率时,我们无法只根据辐射加热率计算辐射通量。并且,只监督辐射加热率时的RMSE仍然要高于加入物理约束时的结果。因此,加入物理约束同时监督辐射加热率和辐射通量有助于同时提高辐射通量和辐射加热率的精度。

4.3.在不同云状况时的模型表现讨论

云在天气和气候的预报中至关重要,所以我们进一步分析深度学习辐射传输方案在三种典型的云状况时的表现,三种云状况分别定义为:无液态水云、单层液态水云、多层液态水云。液态水云对辐射有着很强的吸收和散射作用,并且会对辐射通量和辐射加热率的廓线产生影响,所以有云情况下辐射方案的预报难度要高于无云情况。这里的单层液态水云定义为连续的垂直层云液态水含量大于0。如下面表格所示,在整个测试集中三种云状况的比例分别为61.3%、29.6%和9.1%。表格中不同模型的RMSE对比可以看出,Bi-LSTM和Bi-GRU模型在三种云状况下的表现都是最好的。与之前预期相符,所有模型在多层云下的RMSE都是普遍高于单层云时的RMSE。

为了更好的展示为什么不同云状况下的模型表现会不同,下面随机挑选了三种云的垂直廓线作为示例(下图第一行)。下面的图对比了原RRTMG辐射方案、FC、U-Net、Bi-LSTM和transformer模型在三种云状况下的辐射通量和加热率廓线。无云状况下的辐射通量和辐射加热率的垂直廓线更加平滑(注意下面各图中不同云状况下的x坐标值的数值范围是不同的)。单层云或多层云时,辐射通量和辐射加热率的垂直廓线都会在有云的地方出现很大的波动。图中显示辐射加热率的预报结果相对准确,短波辐射通量的预报结果比长波辐射通量的结果更差。Bi-LSTM和transformer模型在捕捉由液态云水引起的不连续上表现更好,这也与之前的统计表格结果一致。

5.结论

本文介绍了我们如何用包含物理约束的框架训练和测试不同类型的深度学习模型替换传统辐射传输参数化方案。经过测试对比发现,由于辐射是全局问题,具备全局感知能力的模型要优于FC和CNN类模型。其中,Bi-LSTM和Bi-GRU这两个RNN类的模型精度最高,优于transformer和FNO模型。同时,我们也证实了采用包含物理约束的框架有助于提高模型的预报精度。此外,在不同云状况下的模型评估表明,Bi-LSTM模型在各个垂直层上表现都是最好的,在有云的垂直层的方差和误差会稍微大一点。

未来该工作的方向是将该离线模型放入到例如MPAS或WRF这样的数值天气预报模式中进行在线测试。并且尝试将下图所示的除了辐射传输方案以外其他参数化方案逐步采用AI模型替换。采用AI模型替换参数化方案的一个好处就是,考虑到包括辐射方案在内的很多参数化方案具有很强的非线性,所以很难获得其对应的切线性和伴随模式。切线性和伴随模式对于四维变分资料同化非常重要,而辐射参数化方案由于其高度非线性,采用传统方法无法获得其对应的伴随模式。我们有可能通过辐射传输方案的AI模型去获得对应的伴随模式。ECMWF的Hatfield等人已经在他们的工作中证实了这一点,他们利用AI模型较容易得获得了重力波阻的伴随模式,并成功应用在了四维变分同化中。类似得,我们也可以通过获得AI辐射参数化方案的伴随模式来进一步提高四维变分同化系统的精度。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。