数据治理的 “独孤九剑”-程序员宅基地

技术标签: 人工智能  大数据  

数据治理即对数据资产管理行使权力、控制和共享决策(规划、监测和执行)的系列活动。

这个概念挺抽象,它既不是你每天干的数据采集、处理、建模、运维等生产工作,也不是数据质量管理、元数据管理,主数据管理等保障型工作,事实上,数据从业者95%的工作都跟数据治理本身没关系,但每时每刻都会受到数据治理活动的影响。

刚接触数据治理的时候,我对要干什么也挺茫然的,经过2年的实践,我终于知道DAMA的数据治理到底在讲点啥了,这里就把自己的经历提炼成九个方面的内容,姑且就叫作“独孤九剑”吧。

「总决式」- 研判形势,决定数据治理时机

「破剑式」- 保驾护航,建立运营组织框架

「破刀式」- 建章立制,确保达成企业共识

「破枪式」- 对齐业务,解决核心业务问题

「破鞭式」- 推动项目,确保数据变革成功

「破索式」- 制定标准,规范数据管理行为

「破掌式」- 问题管理,推进跨域问题解决

「破箭式」- 监督控制,保证持续执行到位

「破气式」- 评估合规,确保法规合理执行

1、研判形势,决定数据治理时机

要不要做数据治理,大多取决于公司管理层,特别是一把手的形势判断,包括数据要素的价值、国家的政策、行业的要求、上级单位的精神、公司的业务战略、当前业务上的痛点及业界的最佳实践。

但要把这个事情启动起来,一般还是要让公司的数据部门来进行专门研究,评估到底能不能做,以下是我当初接到任务的情形:

“2021年公司数字化转型的步伐加快,这天部门BOSS找到我,希望研究下华为的数据治理之道,然后跟大老板汇报下我们的思路,当时我就在想,也许公司认为做企业数据治理的时机到了,毕竟数据是数字化转型的基础。然后我们闭门了一个月,出了一份研究报告,老板听了汇报后,觉得还是靠谱的,因此决定启动这个事情。”

我们的报告对公司数据管理现状、成熟度、与业界的差距及大致的改进方向做了一个初步研究,然后提交给总经理务虚会讨论,以下是差距分析的示例:

“数据是数字化的基础,随着公司数字化转型的加快,对于数据要素高效融通配置,释放数据生产资料更大价值提出了更高要求,虽然公司已经完成了企业级大数据平台的建设,初步实现了三域数据的汇通,但当前企业级的数据治理体系还未建立,在公司数字化运营中逐步暴露出了数据盘点不足(比如O域流程管理数据还缺乏体系化盘点)、数据质量不高(比如资管中农村的宽带资源点位置信息失真,抽样准确度XX%)、数据汇通不畅(比如流程攻坚中政企投诉处理工单数据的采集耗时2个月)、数据开放不够(比如详单,位置等涉敏数据由于安全管控要求还无法向一线开放)等问题,迫切需要完善公司的企业级数据治理体系,从而为公司的数字化转型保驾护航”

这是数据治理必经的阶段,老板提出设想,数据团队论证,否则企业数据治理无法真正开始。

2、保驾护航,建立运营组织框架

职能型组织的弊端就是业务条线分割导致的全局利益受损,而数据能打穿业务的壁垒,但大多企业的数据团队比较弱势,需要数据治理组织的保障,否则很难拉通数据。

企业数据治理组织一般包括立法职能(定义策略、标准和企业架构)、司法职能(问题管理和升级)和执行职能(保护和服务、管理责任)。

下面是我们组织的示例,采用的是联邦式的数据治理组织形式,通过总经理办公会决策通过后下发执行:

“数据治理委员会负责公司数据治理体系的顶层设计,下设数据治理办公室,定期召开跨部门联席会议,统筹推进数据治理各项工作;同时建立数据责任人制度,明确公司数据责任人和领域数据责任人的职责,企业数据责任人与各领域数据责任人协同,以维护一致的定义和标准”

d63a53de3217d28b699c0f1cff51edf8.png

3、建章立制,确保达成企业共识

理论上数据治理要明确愿景、目标、原则及制度,但实际上在数据治理起步的时候,往往只能明确一些原则,能建立的制度也非常有限,这是一个螺旋上升的过程。

下面是华为公司的数据治理的愿景和目标:

“愿景:实现业务感知、互联、智能和ROADS体验,支撑华为数字化转型“

“目标:清洁、透明、智慧数据,使能卓越运营和有效增长”

我们没有明确提出过愿景和目标,但我觉得老大说得这些话可以作为目标:

“目标:实现数据从产生、处理到消费端到端全流程高质量运转,有效提升客户体验和企业运营效率,持续推动业务创新”

数据治理原则有助于企业凝聚共识,从而减轻潜在的阻力,下面示例了我们的部分原则:

“原则1:数据是公司的战略资产,不是部门私有资产”

“原则2:建立企业级信息架构,统一数据语言”

“原则3:依据集团公司“三同步”原则,统一确定数据管控要求,公司所有项目均须遵从,对于不遵从管控要求的项目,拥有一票否决权”

“原则4:各领域数据责任人承担信息架构、数据汇通和数据质量的三大责任”

“原则6:数据应在满足必要的信息安全的前提下充分共享并明确服务承诺,数据产生部门不得拒绝或延缓跨领域的的数据汇通需求”

本来我以为原则是很虚的东西,后来发现不是这样,自己就曾经受到过业务部门的“暴击”:

“有次公司业务部门A要做个可视化应用,本来是安排我们的数据团队做,后来发现做得一般,就要求把数据开放给B部门的团队做,然后我们的数据团队就不乐意了,说凭什么把我们加工的数据开放给B部门,后来业务部门A直接把原则6的内容发给我,......我们没有不遵守的理由。”

关于制度,我觉得没有冲突的制度没必要写,写了没法保障执行的制度也没必要发。迄今为止,我们在数据管理制度方面只制定过一部《数据对内开放管理办法》,跟公司各个部门拉扯了大半年,最近才算基本定稿。

这个办法还附带了流程和操作细则,可以直接落地,我给大家看一下这个办法的框架和示例,它是公司各部门智慧的结晶,也是妥协的产物。

“围绕“131”数据开放框架制定对内数据开放管理办法,确定了数据开放各部门职责分工,规范了数据目录管理、订阅管理、平台管理三大管理活动,明确了数据开放服务承诺与监督保障要求,为公司内部数据高效融合融通奠定了坚实的基础”

8f95212df40b24d9e0b8904c5365b430.png

897dd0c34224d2da097d68d32e033657.png

4、对齐业务,解决核心业务问题

数据治理需要提出具体的业务目标,要能解决具体的业务问题,这个痛点不应该是IT部门的,也不是某个业务部门的,而应是全公司的,即带有跨领域跨部门的特点,只有管理层感到痛的业务问题才值得去做。

比如华为公司为了解决财务风险问题启动了数据治理项目,决定了这个数据治理项目能带来明确的财务收益。

我们的数据治理目标大多来自于公司管理层的要求,初期设置的业务目标大概有10多项,以下是举例:

推动A数据在网络和市场的定义一致性,使得前端市场的需求能够有效传递到后端网络,提升投资规划决策的科学性;

推动B领域数据采集的统一归口管理,提升B领域数据采集的时效性,助力B领域各类业务数据的高效分析;

打破C领域数据对各部门开放的壁垒,降低汇聚周期,进一步提升各部门跨域融合数据的分析能力;

汇聚D业务涉及的核心线下商业数据,助力D业务的精确营销;

构建完整的企业数据字典,嵌入到生产流程,助力自助生态能力的提升;

数据治理很容易做成“打造一个所谓的数据治理体系框架,建立了一堆组织,下发了一堆的规范标准.......”   以下这些都不是数据治理的目标:

成立企业数据治理委员会,下设数据治理办公室,明确各部门数据责任人.....;

发布元数据管理办法、数据质量管理办法,数据共享管理办法......;

打造企业数据目录,构建数据开发平台......;

重构数据开放流程,优化数据汇聚流程......;

如果公司提不出明确的业务目标,热衷于去建立一个数据治理体系框架,就有点舍本逐末,所以产生这种问题,一般有三个原因:

(1)公司对数据要素的高效配置能力理解不够深

(2)公司对数据驱动业务的现状和问题理解不够透

(3)狭隘的部门视角或者站位太低

数据治理是一把手工程,对老板是一种挑战,《华为数据之道》现在很多老板在看,这是有必要的。

5、推动项目,确保数据变革成功

数据团队每年会有不少数据项目,比如元数据、数据平台、数据采集、数据开放、主数据等等,其中一些跨领域的特性很突出,只有依托企业数据治理组织的统筹推进才能解决协同的问题,包括管理层的汇报、利益方的支持、项目的培训及常态化的沟通。

我这里给出两个跨领域项目的对比,高下立见:

“我们8年前建设大数据平台,项目做这做着就变成了纯粹的换计算和存储引擎,至于如何更好的归集各部门的数据无人关注,因为协调不动其他部门的更多配合,项目建设后数据资产没有得到明显增加,业务的获得感很弱,大数据是大忽悠不是空穴来风”

“今年我们启动了地址主数据项目的建设,需要对市场、政企、网络、规划和工程等五个部门的13个业务流程进行调整,涉及CRM、资管、精销平台、大数据平台等10个系统的改造,横款了BOM三域,难度远超8年前的大数据平台,但依托于企业数据治理组织的统筹推进,大家还是愿意配合去完成大量改造,这在2年前是不可想象的,当然其中的争论很多,讨论不下百次,但目标始终不变“

cfe095cd42473a3c432eb22199da9daa.png

6、制定标准,规范数据管理行为

在跨部门项目的推进过程中,在上下游流程和系统的对接中,必然会涉及到语义和数据一致性的问题,如果统一了标准,不仅可以简化流程,还可以降低协作的沟通成本。数据治理组织需要代表公司牵头立法,包括组织标准编写、评审及提交数据治理委员会批准。

数据标准渗透在每一类数据管理活动中,无论是数据架构,数据建模、数据存储和操作、数据安全、主数据和参考数据、元数据、数据质量等等,但我们没必要为每一类活动都去制定标准,这个取决于业务需要和管理成本的大小,因为制定和执行标准是有代价的。

比如领域一定要建立数据字典标准吗?不一定,领域内部能沟通清楚的就没必要建,但如果要面向企业打造一本数据字典,那么标准就有必要建立,否则其他领域看不懂。现在数据标准工作得到越来越多的重视,那是因为数字化时代数据要素共享和开放成为了趋势,数据仓库那个时代,少有人提标准这个事情。

我们在建设地址主数据项目中,定义了地址数据的“13+N”的标准,如下所示,这是跨领域协同必需的:

““13”指的是从省、市到户号共13个层级;“N”指的是地址类型、标志物别名、经纬度、兴趣点名称、兴趣点行业类型、描述信息6个附加信息。”

2f3f905b378d0195a5b673e702857c41.png

7、问题管理,推进跨域问题解决

数据治理组织既然可以建立标准,即拥有数据领域的立法权利,相应的也需要有司法的权利,即进行问题管理,问题管理包括且不限于授权、合规性、标准冲突、一致性、数据安全、数据质量等等。

虽然大多问题在数据管理团队内部就能解决,但公司有10-20%的跨领域数据问题是无法自行解决的,但又是极其重要的,这些无法解决的问题容易被隐瞒,被忽视,深埋于地下,比如供应链的物资编码问题、统计报表的口径问题、严重的数据质量问题、数据快捷开放问题等等。

数据治理需要建立问题升级机制和流程,能将问题升级到更高的管理机构,比如数据治理委员会,数据治理团队通过问题识别和记录、组织讨论、确认方案及向上升级,促进问题闭环的形成。

我们通过建立跨部门联席会议和常态化沟通协作两大机制来推进问题解决,数据问题能被放到一张圆桌上进行讨论,这其实就是巨大的成功:

“一是依托数据治理办公室,建立了定期的跨部门联席会议制度来识别和收集问题:一种是管理层提出问题,要求我们协同各部门数据责任人推进解决,这种问题往往是需要跨部门联动的,比如企业级数据目录的构建、主数据的建设、数据开放管理办法的制定、平台工具的集约化建设等等。另一种是业务部门的数据责任人提出的需要数据治理办公室协调解决的问题,比如宽带长流程问题的解决,外部业务数据的归口采集,全流程效能分分析支持等等。”

“二是建立常态化沟通协作机制,高质量落实联席会议工作要求,包括培训辅导、沟通协调、跟踪通报等手段来推进问题闭环管理。”

8、监督控制,保证持续执行到位

数据管理的制度、规范和标准是纸面上的,往往是篇章式、片段的、模糊的,必需将其嵌入到数据管理相关生产流程中才能有效发挥作用。

当然数据治理不要去额外新增管理流程,而是要把要求叠加在原有业务流程之上,这会对业务带来影响,业务部门只有接受数据治理的监管才能确保执行到位。

比如地址主数据有“13+N”的数据录入标准,前端人员需要按照结构化的要求去录入数据,这改变了前端业务人员的操作习惯。

数据治理在带来全局收益的时候,可能会让局部业务领域付出代价,因此,数据治理组织在制定规范标准的时候,一方面要协同相关业务部门充分权衡利弊,另一方面,也需要善于利用技术手段去破解规范性和灵活性的结构性矛盾。

比如地址主数据有13+N”的录入标准碰到了业务方的强烈反对,因为影响业务受理效率,我们后来采取了分角色的管理策略,针对后端业务流程的录入,严格按照规范标准录入,对于前端业务流程的录入,仍然沿用旧的方式,但会给出一个AI的算法做初步的格式化,再结合人工纠正的方式来解决。

相对于以前数据团队做数据治理只是局限在数据仓库领域,并且采取事后监督的方式去做管控,现在我们的数据治理终于能直接介入业务系统,从源端解决问题,同时采取事前事中的方式进行实时控制,并且能基于业务流程数据进行分析评估,这是跨越式的进步。

9、评估合规,确保法规合理执行

数据治理要求以业务为导向,这个业务不能简单的理解成创造收入的业务,降低成本的业务,还应包括合规性的业务、满意度的业务等等,比如一旦不合规,短期就可能给公司带来收入影响。

数据治理组织一方面要去深刻的理解各类数据法规,配合公司法律、安全部门对涉及数据监管要求或审计承诺的作出响应,比如证明数据质量合格,另一方面,也要去破除那种阻碍业务正常开展的、过时的、不合理的、但又既成事实的规定。

公司涉及数据的业务流程还存在着大量的冗余的,不合理的环节和规则,但大家已经习以为常,数据治理组织需要去分析流程的堵点和卡点,推进流程的优化,从这个角度看,数据治理干的已经是数字化转型的工作了。

比如我们在分析数据汇聚流程中发现,A部门基于条线需要设置了一些规定,导致审批环节超过11个,但这种部门流程已经不适合企业级数据的汇聚要求,因此将其精简到了4个。

又比如在数据对内开放流程中,以前各类数据的审批都遵循同样的流程,导致数据开放时间很长,后来通过对数据进行敏感分级并制定不同的开放策略,实现了90%以上的数据在一小时就可以开放,如下图所示:

bacff31dd2984b9b41232247d96850a4.png

近几年国家一方面下发了“三法一条例”来规范数据的使用,另一方面也在推动数据要素流动数据基础制度的建立,公司数据治理组织也要与时俱进。

独孤九剑,基本上涵盖了DAMA数据治理活动的大部,其实数据治理重在“治理”两字,要求跳出“数据”找出路,自己以前搞错了重点,陷在“数据”里不可自拔。

f56a4c1f682bdc2c35b256710c6082fb.png

a9a1dd18a35c826165231e7fb4f21242.png

5746f9653dcd76b6a215c51934adc89b.png

e03e324899568bd74ae2c34b85c7c33a.png

加快构建中国特色数据基础制度体系 促进全体人民共享数字经济发展红利

怎样画一张人见人爱的数据治理框架图?by 傅一平

傅一平:一文讲透DAMA数据治理基本概念(上)

数据治理领域最容易混淆的16组术语概念辨析

为什么《DAMA数据管理知识体系》这么晦涩难懂?by 傅一平

银行数字化转型中的数据治理

数据分类分级的概念、方法、标准及行业实践

查看全部文章

点击左下角“阅读原文”查看更多精彩文章,公众号推送规则变了,如果您想及时收到推送,麻烦右下角点个在看或者把本号置顶

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/fuyipingwml1976124/article/details/129679706

智能推荐

攻防世界_难度8_happy_puzzle_攻防世界困难模式攻略图文-程序员宅基地

文章浏览阅读645次。这个肯定是末尾的IDAT了,因为IDAT必须要满了才会开始一下个IDAT,这个明显就是末尾的IDAT了。,对应下面的create_head()代码。,对应下面的create_tail()代码。不要考虑爆破,我已经试了一下,太多情况了。题目来源:UNCTF。_攻防世界困难模式攻略图文

达梦数据库的导出(备份)、导入_达梦数据库导入导出-程序员宅基地

文章浏览阅读2.9k次,点赞3次,收藏10次。偶尔会用到,记录、分享。1. 数据库导出1.1 切换到dmdba用户su - dmdba1.2 进入达梦数据库安装路径的bin目录,执行导库操作  导出语句:./dexp cwy_init/[email protected]:5236 file=cwy_init.dmp log=cwy_init_exp.log 注释:   cwy_init/init_123..._达梦数据库导入导出

js引入kindeditor富文本编辑器的使用_kindeditor.js-程序员宅基地

文章浏览阅读1.9k次。1. 在官网上下载KindEditor文件,可以删掉不需要要到的jsp,asp,asp.net和php文件夹。接着把文件夹放到项目文件目录下。2. 修改html文件,在页面引入js文件:<script type="text/javascript" src="./kindeditor/kindeditor-all.js"></script><script type="text/javascript" src="./kindeditor/lang/zh-CN.js"_kindeditor.js

STM32学习过程记录11——基于STM32G431CBU6硬件SPI+DMA的高效WS2812B控制方法-程序员宅基地

文章浏览阅读2.3k次,点赞6次,收藏14次。SPI的详情简介不必赘述。假设我们通过SPI发送0xAA,我们的数据线就会变为10101010,通过修改不同的内容,即可修改SPI中0和1的持续时间。比如0xF0即为前半周期为高电平,后半周期为低电平的状态。在SPI的通信模式中,CPHA配置会影响该实验,下图展示了不同采样位置的SPI时序图[1]。CPOL = 0,CPHA = 1:CLK空闲状态 = 低电平,数据在下降沿采样,并在上升沿移出CPOL = 0,CPHA = 0:CLK空闲状态 = 低电平,数据在上升沿采样,并在下降沿移出。_stm32g431cbu6

计算机网络-数据链路层_接收方收到链路层数据后,使用crc检验后,余数为0,说明链路层的传输时可靠传输-程序员宅基地

文章浏览阅读1.2k次,点赞2次,收藏8次。数据链路层习题自测问题1.数据链路(即逻辑链路)与链路(即物理链路)有何区别?“电路接通了”与”数据链路接通了”的区别何在?2.数据链路层中的链路控制包括哪些功能?试讨论数据链路层做成可靠的链路层有哪些优点和缺点。3.网络适配器的作用是什么?网络适配器工作在哪一层?4.数据链路层的三个基本问题(帧定界、透明传输和差错检测)为什么都必须加以解决?5.如果在数据链路层不进行帧定界,会发生什么问题?6.PPP协议的主要特点是什么?为什么PPP不使用帧的编号?PPP适用于什么情况?为什么PPP协议不_接收方收到链路层数据后,使用crc检验后,余数为0,说明链路层的传输时可靠传输

软件测试工程师移民加拿大_无证移民,未受过软件工程师的教育(第1部分)-程序员宅基地

文章浏览阅读587次。软件测试工程师移民加拿大 无证移民,未受过软件工程师的教育(第1部分) (Undocumented Immigrant With No Education to Software Engineer(Part 1))Before I start, I want you to please bear with me on the way I write, I have very little gen...

随便推点

Thinkpad X250 secure boot failed 启动失败问题解决_安装完系统提示secureboot failure-程序员宅基地

文章浏览阅读304次。Thinkpad X250笔记本电脑,装的是FreeBSD,进入BIOS修改虚拟化配置(其后可能是误设置了安全开机),保存退出后系统无法启动,显示:secure boot failed ,把自己惊出一身冷汗,因为这台笔记本刚好还没开始做备份.....根据错误提示,到bios里面去找相关配置,在Security里面找到了Secure Boot选项,发现果然被设置为Enabled,将其修改为Disabled ,再开机,终于正常启动了。_安装完系统提示secureboot failure

C++如何做字符串分割(5种方法)_c++ 字符串分割-程序员宅基地

文章浏览阅读10w+次,点赞93次,收藏352次。1、用strtok函数进行字符串分割原型: char *strtok(char *str, const char *delim);功能:分解字符串为一组字符串。参数说明:str为要分解的字符串,delim为分隔符字符串。返回值:从str开头开始的一个个被分割的串。当没有被分割的串时则返回NULL。其它:strtok函数线程不安全,可以使用strtok_r替代。示例://借助strtok实现split#include <string.h>#include <stdio.h&_c++ 字符串分割

2013第四届蓝桥杯 C/C++本科A组 真题答案解析_2013年第四届c a组蓝桥杯省赛真题解答-程序员宅基地

文章浏览阅读2.3k次。1 .高斯日记 大数学家高斯有个好习惯:无论如何都要记日记。他的日记有个与众不同的地方,他从不注明年月日,而是用一个整数代替,比如:4210后来人们知道,那个整数就是日期,它表示那一天是高斯出生后的第几天。这或许也是个好习惯,它时时刻刻提醒着主人:日子又过去一天,还有多少时光可以用于浪费呢?高斯出生于:1777年4月30日。在高斯发现的一个重要定理的日记_2013年第四届c a组蓝桥杯省赛真题解答

基于供需算法优化的核极限学习机(KELM)分类算法-程序员宅基地

文章浏览阅读851次,点赞17次,收藏22次。摘要:本文利用供需算法对核极限学习机(KELM)进行优化,并用于分类。

metasploitable2渗透测试_metasploitable2怎么进入-程序员宅基地

文章浏览阅读1.1k次。一、系统弱密码登录1、在kali上执行命令行telnet 192.168.26.1292、Login和password都输入msfadmin3、登录成功,进入系统4、测试如下:二、MySQL弱密码登录:1、在kali上执行mysql –h 192.168.26.129 –u root2、登录成功,进入MySQL系统3、测试效果:三、PostgreSQL弱密码登录1、在Kali上执行psql -h 192.168.26.129 –U post..._metasploitable2怎么进入

Python学习之路:从入门到精通的指南_python人工智能开发从入门到精通pdf-程序员宅基地

文章浏览阅读257次。本文将为初学者提供Python学习的详细指南,从Python的历史、基础语法和数据类型到面向对象编程、模块和库的使用。通过本文,您将能够掌握Python编程的核心概念,为今后的编程学习和实践打下坚实基础。_python人工智能开发从入门到精通pdf

推荐文章

热门文章

相关标签