免费注册

数据治理包括哪几个方面

作者: 低代码架构师Kaiwen
阅读数:2570
更新时间:2024-02-23 20:34:50
数据治理包括哪几个方面
p class="p1">数据治理核心工作包括4个方面,分别是:元数据管理平台、数据血缘、数据质量、和数据ROI。接下来我们将逐步讲解。

 

什么是数据治理

 

根据AZure的定义,数据治理是流程、策略、角色、指标和标准的集合,可确保有效和高效地使用信息。这还有助于建立数据管理过程,在整个数据生命周期内保持数据安全、私密、准确且可用。

对于使用数据推动业务增长、改进决策并确保在竞争激烈的市场中获得成功的任何组织而言,可靠的数据治理策略至关重要。在收集大量内部和外部数据时,需要制定一种策略来有效管理风险、降低成本和执行业务目标。

根据GoogleCloud的定义,数据治理是指为确保数据安全、私有、准确、可用和易用所执行的所有操作。它包括人们必须采取的行动、必须遵循的流程以及在整个数据生命周期中为其提供支持的技术。数据治理意味着设置适用于收集、存储、处理和处置数据的内部标准,即数据策略。它规定了谁可以访问哪些数据以及哪些数据应受治理。数据治理还涉及遵循行业协会、政府机构和其他利益相关者设定的外部标准。 

 

收据治理的五个方面之一:元数据管理平台

 

元数据,又称为MetaData,是很多数据平台、软件系统的核心。如果你熟悉Mysql,那么Mysql中的库、表、字段等信息,都可以认为是元数据。在大数据领域,元数据往往代表各个平台中类似Mysql中库、表、字段的信息,往往是通过SQL、Thrift、ProtoBuffer等格式进行定义,并通过相应的平台进行管理,这个平台就是元数据管理平台,有的公司会给这个平台起一个名字,叫数据工厂。许多数据库、数据平台中都有相应的元数据管理模块,比如Hive、Es、Doris等等。

在小米大数据团队分享的资料中(原文在https://blog.csdn.net/rlnlo2pnefx9c/article/details/121528248),我们可以看到元数据的另一种分类:从抽象来看,包括分为实体、实体的属性以及实体与实体之间的关系三个方面来进行分类。实体主要指表元数据和作业元数据,来自于工程师在ETL的实际工作中所涉及到的系统。如:Hive、Doras、Kudu、MQ、ES、Iceberg,即传统的数仓及上下游。

比如:实体包含了技术元数据和生产元数据。其中技术元数据用于支撑数据资产管理的资产地图;生产元数据,主要是作业的一些调度信息和运行信息,用于支撑数据资产管理的数据质量和成本治理的服务。

实体的属性,包含业务元数据和衍生元数据。

业务元数据包括数仓分层、数据分类、指标关联、应用信息、隐私分级等内容。内容来源于建模规范、业务、指标系统、BI看板、数据报表,以及来自于业务的隐私分级定义等。业务元数据用于支撑资产管理的资产价值、安全治理以及规范治理。

衍生元数据包含元数据的存储计量和访问计量。存储计量是服务于存储层面的成本治理;访问计量用于描述数据的使用情况,从技术角度去衡量资产的价值。衍生元数据来源于ETL工作中涉及的HDFS-Image、Doris、Kudu、MQ、ES以及HDFS-Log、SQL-Log。

描述实体的关系,包括血缘元数据,用于描述元数据之间的关联关系,用于支撑数据资产管理中的影响分析和资产地图服务。

关于元数据平台和相应技术架构,我们后续再单独讲解

 

 

收据治理的五个方面之二:数据血缘

数据血缘,有时候又叫数据全景,解决的是数据之间依赖关系的收集、存储和查询、分析的问题。说一个常见的场景,某业务发现自己的表里有个字段要下线,但是不知道有哪些业务、哪些下游数据依赖这个字段,那么通过数据血缘一般就能回答这个问题。

依托数据血缘模块,往往还可以发现数据元数据的搜索、上下游依赖关系的确认以及数据变更的全链路追踪等功能。

 

收据治理的五个方面之三:数据质量

 

数据质量,在大数据领域是一个大问题。典型的场景例如,命名数据生产的POI在北京,但是实际存储后发现数据的POI点到了成都,这对数据后期的使用,尤其是一些基于LBS的广告业务来说是完全无法忍受的。

数据质量治理就是要解决这个问题。往往通过几个方面进行:

组建专业的数据质量保障团队

提出、发布数据规范,通过基础SDK、数据流平台准入等多种基础架构平台的管理和技术手段确保规范的落地

基于数据血缘等既有元数据平台,打造数据质量自动回归测试平台

 

收据治理的五个方面之四:数据ROI

最后一部分是数据ROI。众所周知,大数据海量数据的采集存储分析计算等工作,需要大量的人力算力。举个小例子,有些日志平台,每天产生几百上千T日志数据,供业务方检索分析,往往需要耗费上百台服务器来搭建ES集群才能支撑,加上数据平台多副本存储等技术需求,一个需求,就要花费每个月上百万的服务器成本。但是这些日志如果只拿来分析技术故障、定位技术问题,显然ROI就有点低了。

中大型企业中往往有大量的这类场景。这个时候,结合元数据,准确评估每份数据的需求、生产采集存储计算成本、产生的价值,甚至是在不同的数据项目之间,合并同类项,就显得非常必要。数据ROI解决的就是这类问题。

 

总结

最后,数据治理往往不是一帆风顺的,往往要触动很多技术部门和业务部门的既有利益和做法,需要有很强的资源协调能力,且无法一蹴而就。低代码平台打破了传统的软件开发模式,一切开发从元数据建模开始,具有原生数据治理、原生数据血缘等诸多优势,如有需要基于低代码平台开展数字化业务,欢迎联系我们

 

 

 

 

发表评论

评论列表

暂时没有评论,有什么想聊的?

低代码数据平台BI大屏定制

低代码数据平台BI大屏定制

释放数据潜能,智慧展现新高度。定制低代码数据平台,打造个性化BI大屏,助您实现数据驱动决策。



热推产品-全域低代码平台

会Excel就能开发软件

全域低代码平台,可视化拖拉拽/导入Excel,就可以开发小程序、管理系统、物联网、ERP、CRM等应用

数据治理包括哪几个方面最新资讯

分享关于大数据最新动态,数据分析模板分享,如何使用低代码构建大数据管理平台和低代码平台开发软件

上市公司如何高效应用大语言模型创新业务模式?

上市公司如何高效应用大语言模型创新业务模式? 一、大语言模型概述与上市公司现状分析 1.1 大语言模型技术基础与发展趋势 大语言模型,作为人工智能领域的璀璨明珠,依托

...
2024-08-19 10:57:34
大模型Agent能做什么?解锁未来智能应用的无限可能!

一、概述:大模型Agent的潜力与影响 1.1 大模型Agent的定义与核心技术 1.1.1 深度学习与大模型概述 深度学习作为人工智能领域的一项关键技术,通过模拟人脑神经网络的运作

...
2024-08-19 10:57:34
如何优化Single Agent框架以提升智能体性能与效率?

一、引言:Single Agent框架概述与优化重要性 1.1 Single Agent框架基础介绍 1.1.1 Single Agent的定义与工作原理 Single Agent,即单智能体,是人工智能领域中的一个基本

...
2024-08-19 10:57:34

速优云

让监测“简单一点”

×

☺️ 微信聊 -->

销售沟通:17190186096(微信同号)

售前电话:15050465281

微信聊 -->

速优物联PerfCloud官方微信