根据AZure的定义,数据治理是流程、策略、角色、指标和标准的集合,可确保有效和高效地使用信息。这还有助于建立数据管理过程,在整个数据生命周期内保持数据安全、私密、准确且可用。
对于使用数据推动业务增长、改进决策并确保在竞争激烈的市场中获得成功的任何组织而言,可靠的数据治理策略至关重要。在收集大量内部和外部数据时,需要制定一种策略来有效管理风险、降低成本和执行业务目标。
根据GoogleCloud的定义,数据治理是指为确保数据安全、私有、准确、可用和易用所执行的所有操作。它包括人们必须采取的行动、必须遵循的流程以及在整个数据生命周期中为其提供支持的技术。数据治理意味着设置适用于收集、存储、处理和处置数据的内部标准,即数据策略。它规定了谁可以访问哪些数据以及哪些数据应受治理。数据治理还涉及遵循行业协会、政府机构和其他利益相关者设定的外部标准。
元数据,又称为MetaData,是很多数据平台、软件系统的核心。如果你熟悉Mysql,那么Mysql中的库、表、字段等信息,都可以认为是元数据。在大数据领域,元数据往往代表各个平台中类似Mysql中库、表、字段的信息,往往是通过SQL、Thrift、ProtoBuffer等格式进行定义,并通过相应的平台进行管理,这个平台就是元数据管理平台,有的公司会给这个平台起一个名字,叫数据工厂。许多数据库、数据平台中都有相应的元数据管理模块,比如Hive、Es、Doris等等。
在小米大数据团队分享的资料中(原文在https://blog.csdn.net/rlnlo2pnefx9c/article/details/121528248),我们可以看到元数据的另一种分类:从抽象来看,包括分为实体、实体的属性以及实体与实体之间的关系三个方面来进行分类。实体主要指表元数据和作业元数据,来自于工程师在ETL的实际工作中所涉及到的系统。如:Hive、Doras、Kudu、MQ、ES、Iceberg,即传统的数仓及上下游。
比如:实体包含了技术元数据和生产元数据。其中技术元数据用于支撑数据资产管理的资产地图;生产元数据,主要是作业的一些调度信息和运行信息,用于支撑数据资产管理的数据质量和成本治理的服务。
实体的属性,包含业务元数据和衍生元数据。
业务元数据包括数仓分层、数据分类、指标关联、应用信息、隐私分级等内容。内容来源于建模规范、业务、指标系统、BI看板、数据报表,以及来自于业务的隐私分级定义等。业务元数据用于支撑资产管理的资产价值、安全治理以及规范治理。
衍生元数据包含元数据的存储计量和访问计量。存储计量是服务于存储层面的成本治理;访问计量用于描述数据的使用情况,从技术角度去衡量资产的价值。衍生元数据来源于ETL工作中涉及的HDFS-Image、Doris、Kudu、MQ、ES以及HDFS-Log、SQL-Log。
描述实体的关系,包括血缘元数据,用于描述元数据之间的关联关系,用于支撑数据资产管理中的影响分析和资产地图服务。
关于元数据平台和相应技术架构,我们后续再单独讲解
数据血缘,有时候又叫数据全景,解决的是数据之间依赖关系的收集、存储和查询、分析的问题。说一个常见的场景,某业务发现自己的表里有个字段要下线,但是不知道有哪些业务、哪些下游数据依赖这个字段,那么通过数据血缘一般就能回答这个问题。
依托数据血缘模块,往往还可以发现数据元数据的搜索、上下游依赖关系的确认以及数据变更的全链路追踪等功能。
数据质量,在大数据领域是一个大问题。典型的场景例如,命名数据生产的POI在北京,但是实际存储后发现数据的POI点到了成都,这对数据后期的使用,尤其是一些基于LBS的广告业务来说是完全无法忍受的。
数据质量治理就是要解决这个问题。往往通过几个方面进行:
组建专业的数据质量保障团队
提出、发布数据规范,通过基础SDK、数据流平台准入等多种基础架构平台的管理和技术手段确保规范的落地
基于数据血缘等既有元数据平台,打造数据质量自动回归测试平台
最后一部分是数据ROI。众所周知,大数据海量数据的采集存储分析计算等工作,需要大量的人力算力。举个小例子,有些日志平台,每天产生几百上千T日志数据,供业务方检索分析,往往需要耗费上百台服务器来搭建ES集群才能支撑,加上数据平台多副本存储等技术需求,一个需求,就要花费每个月上百万的服务器成本。但是这些日志如果只拿来分析技术故障、定位技术问题,显然ROI就有点低了。
中大型企业中往往有大量的这类场景。这个时候,结合元数据,准确评估每份数据的需求、生产采集存储计算成本、产生的价值,甚至是在不同的数据项目之间,合并同类项,就显得非常必要。数据ROI解决的就是这类问题。
总结
最后,数据治理往往不是一帆风顺的,往往要触动很多技术部门和业务部门的既有利益和做法,需要有很强的资源协调能力,且无法一蹴而就。低代码平台打破了传统的软件开发模式,一切开发从元数据建模开始,具有原生数据治理、原生数据血缘等诸多优势,如有需要基于低代码平台开展数字化业务,欢迎联系我们
一、MD转生炎兽克制策略概览 1.1 理解MD转生炎兽的核心机制 1.1.1 能力特性分析 MD转生炎兽以其独特的火焰操控能力和重生机制闻名于战斗舞台。其核心在于能够不断累积并释
...一、高效管理长文档与复杂结构的策略 1. 利用Markdown语法基础 1.1 标题与段落 Markdown以其简洁明了的语法深受广大写作者喜爱,其中最基础的就是标题与段落的设定。通过井
...一、引言:掌握Markdown到PDF的高效转换技巧 1.1 Markdown与PDF简介 1.1.1 Markdown文件基础知识 Markdown是一种轻量级的标记语言,由约翰·格鲁伯(John Gruber)在2004年
...
发表评论
评论列表
暂时没有评论,有什么想聊的?