湖南水文大数据综合库及大数据平台建设

信息化观察网
北京艾力泰尔信息技术股份有限公司
基于融合的水文数据资源,搭建水文大数据平台,实现水文数据从源库(原业务库)到综合库(新建设的水文大数据综合库)处理过程的实时监控,水文大数据平台运行情况监控,水文综合库的数据资源可视化展示,数据分析产品的自由配置。

摘要:针对目前水文数据库独立建设,分散存储,形成数据孤岛的现状,将分散于各水文业务系统的数据资源根据水文业务需求,按照同类型整合,不同类型融合的原则,进行统一清洗、整理和汇总,最终形成全局一致、协调统一的数据资源池。由于水文数据更新频率高,存储序列长,分析形式多样,传统数据库难以兼顾大规模存储和快速检索分析的需要。本次采用大数据存储引擎,兼顾随机读写,批量分析的应用需求。基于融合的水文数据资源,搭建水文大数据平台,实现水文数据从源库(原业务库)到综合库(新建设的水文大数据综合库)处理过程的实时监控,水文大数据平台运行情况监控,水文综合库的数据资源可视化展示,数据分析产品的自由配置。

1.png

1项目背景

1.1水文数据特点

水文数据是指水文的实测资料,即通过水文测验所收集的各种水文要素的原始记录,广义的水文数据还应包括水文年鉴、水文统计值、水文图集及水文调查资料等。仅水利行业与水文数据相关的数据库就包括了实时雨水情数据库、基础水文数据库和水质数据库,几乎覆盖了水文部门的主要业务数据。水文数据因其特性具有总量大、种类多、增速快和价值高的特点:

(1)数据总量大:水文数据为一系列的时间序列数据,且覆盖全国各大流域及行政区划的大、中、小河流流经的区域,以测站为单位进行数据采集,具有海量数据的特性。

(2)数据种类多:目前有实时雨水情数据库、基础水文数据库和水质数据库三类数据库覆盖了水文部门的主要业务数据。其中实时雨水情数据包含存储降水、蒸发、河道、水库、闸坝、泵站、潮汐、沙情、冰情、地下水、墒情、特殊水情、水文预报等13大类数据;基础水文数据包括降水、蒸发及蒸发辅助项目、水位、流量(水量)、泥沙、水温、冰凌、潮汐、测站属性以及其他等十类数据;水质数据库包括了大气降水、地表水以及地下水等各类水体中的水质监测信息。除此之外水文大数据还应包含地理信息数据、遥感数据和社会经济指标等多源异构数据,具有数据种类多的特性。

(3)数据增速快:全国分布在7大流域、31个省和125个水情分中心的基本测站已达到数万,实时水文信息,非汛期每天至少更新1次,汛期每天更新4~8次,部分站点甚至每半小时更新一次,数据更新频率高,仅每天更新的水情数据可达到数十万条。

(4)数据价值高:水文数据作为水文行业资源性产品,其价值是隐藏而非显性的,随着水文数据规模的扩增,通过数据挖掘和知识发现,其潜在价值将会越来越大;水文学科是地学的一个重要分支,水文数据是研究区域或全球水循环过程的重要基础,因此其数据的完整性和代表性在水文科学研究中具有重要意义。

1.2主要问题

水文数据具有海量大数据特征,与之相对的是数据现状的复杂性,主要体现在以下几点:

(1)数据定义缺失,数据项缺失;数据属性不完整;

(2)数据在多个系统中重复采集,重复存储;

(3)数据无法关联、共享,数据整合困难;系统林立,数据来源于多个部门;

(4)数据时效性差,使用者无法及时获取所需信息;

(5)数据使用不方便,方法繁琐,手工报表多;

(6)数据质量差,数据不完整,数据不一致。

数据存储形式上,目前水文数据主要是以表格的形式存储于诸如Oracle、SQL Server等关系型数据库中。水文测站的更新频率非常高,几乎每小时都有实时数据更新,产生数据表过大,检索速度慢,甚至超过数据库容量上限等问题。常用的解决手段有两种:一是将历史数据单独存储备份,但产生检索困难的问题;二是将中间数据舍弃,仅保留测站日数据,但又有历史水文信息缺失的问题。这样一来对水文数据后续的分析和应用产生了重大影响。

随着水利信息化建设的逐步深化,各项业务应用的逐步开展,数据资源融合不足的矛盾表现得也越来越突出。一方面是防汛抗旱、水资源管理、农村水利、水利工程建设管理等多个业务信息系统的建设,急需水利基础数据、空间数据、遥感数据等共享数据资源的支持;另一方面,水利普查成果数据的应用不甚理想,没有围绕数据中心、业务系统的需要和特点充分利用。

当前水文业务数据使用过程中,存在多部门建设的业务系统数据库之间缺乏有机的关联,不同业务数据的数据质量不一致等问题,不利于水文数据核心价值的进一步挖掘。为了解决上述数据问题,根据湖南水文现代化规划,十四五期间全面构建新型智慧水文信息服务平台。主要建设内容包括水文业务数据中心平台,应用支撑平台、水文业务服务平台、水文事务服务平台、安全管理平台五个平台。为了顺利启动十四五中水文现代化建设工作,湖南省计划先行完成水文业务数据中心平台核心功能的建设。

2解决方案

构建水文水资源综合库;整合现有数据资源,实现数据的整合和融合。同时引入大数据存储引擎,应对水文数据更新频率高,存储序列长的存储、分析需要。整合实时雨水情数据库、洪水预报成果库、水质评价数据库、国控水资源数据库等多个业务数据库,形成湖南省水文水资源综合数据库。

综合库数据模型设计,主要采用有国家、行业标准的沿用最新标准进行设计,没有行业标准的业务数据库,在充分参考现有数据库结构的基础上,参考实时雨水情国家标准库设计理念开展设计。

开展数据的收集与处理;开展数据的收集与处理,对数据进行抽取、清洗,保证数据顺利整合到综合库里,并实现一数一源。

水文大数据平台核心系统建设;建设自动同步子系统、分布式存储系统、大数据平台管理系统、大数据运行监控系统、数据加工与处理系统、数据资源服务管理系统、数据集市典型分析服务功能。实现数据抽取、数据清洗、数据整合、数据存储、数据加工、数据分析全过程的可视化监视。

数据集市典型产品;建设基于综合库的应用成果可视化配置平台,基于融合的数据,根据业务需求配置前台产品展示,实现多样化的产品分析。

3应用效果

建设成果主要包括:水文大数据综合库,水文大数据监控大屏,数据资源目录展示平台,水文大数据平台,可视化展示平台几部分。

3.1湖南水文大数据综合库

根据水文数据存储及分析需求,既要面对随机读写,又要进行批量分析,采用kudu大数据存储引擎。将分散于各水文业务系统的数据资源根据水文业务需求,按照同类型整合,不同类型融合的原则,进行统一清洗、整理和汇总,最终形成全局一致、协调统一的数据资源池。根据水文行业规则,将数据资源划分为基础、业务、监测、多媒体、空间信息和元数据等6大信息分类,分别对应综合库中的基础库、业务库、监测库、多媒体库、空间库和元数据库,共整合数据表1883张。

3.2湖南水文综合数据库监视大屏

实时监控源数据库(同步的源头数据)、综合数据库(将要同步到大数据环境中的综合库)、产品数据库(基于综合数据库加工成的产品成果数据)的运行状态及数据处理情况,实时记录同步过程中产生的异常,进行大数据平台用户的日常访问量统计更新。做到大数据平台运行情况“一屏总览”。

3.3水文大数据云平台

3.3.1大数据平台管理系统

本系统是一个拥有系统集群自动化安装、中心化管理、系统集群监控、报警功能于一体的平台管理系统。系统集群管理涵盖了水文业务数据中心所涉及到的分布式文件存储组件、数据流处理组件等十几类功能组件。

3.3.2数据自动同步系统

针对业务表的增量数据,在数据自动同步系统中开展自动抽取任务创建工作,能够实时监控各业务系统每张表的数据变化情况,自动触发增量数据的抽取同步任务。

3.3.3分布式存储系统

构建起10余类业务数据的分布式非结构化型存储系统。可对大规模数据集提供可靠的存储功能,并对应用程序提供高带宽的输入输出数据流。多台服务器均可直接参与到数据存储和应用程序任务执行。通过多服务器,分布式的存储和计算,计算资源的规模能够按照需要增长,保障水文业务数据中心持续稳定发展。

3.3.4数据加工与处理系统

针对现有业务数据库通过同类型整合、不同类型融合的加工与处理方式构建起10余类水文业务数据产品服务,形成数据集市。支持数据的流式处理、批处理等处理形式。

3.4数据资源服务管理系统

本系统可以提供数据库连接的管理、元数据管理、数据资源目录管理、数据资源共享管理等功能。

数据库连接的管理:可以实现对Oracle、Mysql、Sql server登录的连接管理、便于整个水文业务数据中心各子系统便捷使用。

元数据管理:可以查阅水文业务数据中心元数据信息,并提供对表信息、字段信息、字段枚举值配置功能、针对每一张均可预览库表数据。

数据资源目录管理:可以查阅水文业务数据中心数据资源目录信息,并提供数据资源目录的增加、修改、删除功能。

数据资源共享管理:通过可视化的人工配置方式可以灵活的提供单张表、联合表的数据共享接口创建与授权。

3.5数据集市典型产品

通过动态可视化配置的方式获取数据配置产品;可配置出表格、图表等各种展示形式;提供过滤、分组汇总、新增列、字段设置、排序、左右合并、上下合并、行列转化、自循环列、数据类型转化等数据分析方法。

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论