【模型评估】内涝模拟模型准确性评价方

原文信息

题目：All models are wrong, but are they useful? Assessing reliability across multiple sites to build trust in urban drainage modelling

作者：Pedersen, Brink-Kjær & Mikkelsen

作者单位：VCS Denmark, Vandværksvej, Odense C, Denmark

期刊：Hydrology and Earth System Science

时间：2022

导读

丹麦公用事业公司每年投资8亿欧元用于升级和修复城市排水系统，4亿欧元用于运营现有系统，相当于人均每年150欧元和75欧元。排水系统的更新建设通常依赖于基于物理的确定性模型的模拟。随着对模型的期望越来越高，人们关注的问题是“这些模型有多大用处”？本文利用两个案例区域中的23个测量站点长达11年的液位数据，通过几种方法评估内涝模拟模型的性能。

文章简介

本文针对以下三个目标分析了内涝模拟模型的可靠性：水位超高（水位上升超过与地下室洪水相关的规定临界水位）、溢流（水位上升超过溢流堰顶水位）和日常降雨事件（水位保持在前向管道顶部以下）。根据监测站点水位高低，判断观测和模拟结果是否高于或低于给定阈值——目标是否溢出水位，从而得到是否内涝。如果模拟和观测到的水位均高于阈值，则该事件被归类为真阳性（TP）。如果TP的数量，相对于误报（FP——模拟到但未观测到超过阈值）和假阴性（FNs——没有模拟到但观察到超过阈值）太低，那么事件的模型模拟不正确，模型的可信度较低。

作者构造了评价时间序列事件特定特征的指标，包括峰值水平、持续时间和曲线下面积（AUC）。统计分析可以对归类为TP的事件进行统计评估，文中采用了线性回归、使用绝对标度定义的指示函数和归一化均方根误差（RMSE）方法。统计分析结果通过红绿灯形式进行分类评估（绿色表现良好，橙色表现尚可，紫色表现不佳）。作者构建了一个半分布式“城市排水一体化模型”，包括一个降雨-径流模块和一个分布式的、基于物理的管道流模块，在MIKE URBAN软件中进行模型计算。

展开全文

图1两个站点模拟和观测结果的时间序列图

针对不同目标，图1给出了两个站点的观测和模拟结果。可以看出，在图1(a)中，模型严重高估了峰值水平，但事件的其余部分显示出更好的性能。在点位F71F10F_LevelInlet中，模型的整体模拟效果较差。为了说明分类和统计分析的过程，图2显示了内涝的三个站点的多事件指标比较图。线性回归的斜率在图2i中发生较大偏移，因为一些极端观测值使斜率梯度降低。对于图2e和f，斜率非常接近一条线，表明与模型的拟合接近完美。对于指标函数，紫色区域表示满足验收标准的区域。如图2c所示，F64F46Y站点的许多事件都在验收标准内。

图2不同站点（行）和指标（列）的多事件特征比较图

本文每种分类和统计方法都依赖于不同的指标。基于三种统计方法的内涝模拟结果以阴影线和颜色编码的评分显示（如图3）。不同方法的评价结果差异显著，其中归一化RMSE方法得到的评价分数普遍较低。对于F70F10R和F71F10F_LevelInlet两个站点，根据分类分析方法的评价结果，模型模拟效果较好。G80F66Y_Level1站点的结果表明，线性回归方法反映出模型模拟的持续时间较准确。在评估中考虑数据方差后线性回归方法可能会得到进一步改进。每种方法各有优劣，基于特定的统计指标的方法适用于评估模拟观测到的特定特征，因此需要对模型性能和错误检测方法作更多研究，使模拟结果贴近实际观测数据。

编者点评

这项研究介绍了一种评估城市排水模型准确性的方法，使用多事件水文特征来比较模型结果和观测数据，并研究如何减少不确定因素的影响。根据案例研究，该方法可以从多个视角评估模型的可靠性，并提出了改进模型的方法。

原文地址：

城市水系统领域