协会聚焦 | 为什么需要数据目录?构建数据资产目录的重要意义

数据治理发展已有很长一段时期,从元数据管理到数据质量管理,企业都在建设数据治理的项目。但是,如果细究则不难发现,很多企业数据治理项目做得怎么样?发挥了怎样的业务价值和效益?答案也许未必尽如人意,为什么会造成这样的情况呢?下面协会君为你分析总结。

数据治理项目只是面对 IT 人员的,并不是面对业务人员的。如果一个项目不是面对业务人员的,就难以发挥业务价值,业务人员无法使用,往往是不可能获得成功的。因此,近年来,建设数据目录的热潮兴起,数据目录就是为了帮助业务人员以及数据科学家数据资产目录示例,解决寻找数据、了解数据、优化数据以及使用数据的难题。

什么是数据目录

数据目录是以表格、文件、报告等形式存在于公司各种源系统中的所有数据资产的系统列表。打个比方,我们用书来比喻数据。大家都知道图书馆的图书目录,我们过去进到图书馆借书,首先就要去查找图书目录。如果一个图书馆那么乱的话,相信就连图书管理员也无法找到想要的书吧?如果一个企业的数据库管理很乱,那么就连数据库管理员可能也无法找到数据了。如果一个图书馆已经分门别类摆放整齐了,就像一个企业的数据,结构化的和非结构化的,都分别在数据库里或大数据平台上,放得整整齐齐了。

这时候在配上一张一张的书卡,书卡上写了一些什么呢?往往有书的名字、书的简介、书的作者、书的出版年份,还有书的类别,比如是物理类的还是化学类的;书的属性,比如是工具书类的还是文艺书类的;最重要的是书的具体位置,它是在图书馆的哪一排的哪一层的哪一格里。有了这张书卡,我们就可以轻松地找到这本书并借到这本书了。

数据目录可以解决哪些问题

与过去相比,想从如今前所未有的数据海洋中找到正确的数据更加困难。同时,关于数据的监管条例和法规(例如 GDPR)也比过去更多、更严格。在这一背景下,除了数据访问之外,数据治理也成为了一个严峻的挑战。您不仅要了解当前您所拥有数据的类型、哪些人在移动数据、数据的用途以及如何保护数据,还必须避免过多的数据层和封装,避免数据因太难使用而毫无用处。遗憾的是,很多企业和用户在查找和访问数据上面临着很多问题,包括:

需耗费大量时间和精力查找和访问数据

数据湖变成了数据沼泽

无通用业务词汇

难以理解“黑暗数据”的结构和类别

难以评估数据来源、质量和可靠性

无无法捕获部落知识或丢失的知识

难以重用知识和数据资产

需手动和临时进行数据准备

哪些用户应使用数据目录

数据工程师、数据科学家、数据管理员和首席数据官等用户无不受到以上数据管理问题的困扰,无不希望能够轻松访问可靠的数据。他们面临的一些常见的挑战包括:数据工程师想知道任意更改将对整个系统产生哪些影响,他们可能会问:

· 我们 CRM 应用中的模式变更将产生哪些影响?

· Peoplesoft 和 HCM 数据结构有何不同?

数据科学家希望能够轻松访问数据并进一步了解数据质量,他们想了解以下信息:

· 从何处可以找到和查看一些地理位置数据?

· 如何轻松访问数据湖中的数据?

数据管理员负责管理数据流程,关注概念、利益相关者间协议以及数据生命周期管理。他们希望了解:

· 我们是否真的在改善运营数据质量?

· 我们是否为重要的关键数据元素定义了标准?

首席数据官关心哪些人在组织中做了哪些事,一般不使用数据目录。但是,他们仍然希望了解:

· 哪些人可以访问客户的个人信息?

· 我们是否为所有数据定义了保留策略?

数据目录应当具备哪些功能

一个优秀的数据目录应当具备以下功能:

01

数据搜索和发现

数据目录应当具备灵活的搜索和过滤选项,从而赋能用户快速找到相关数据集数据资产目录示例,以实施数据科学、分析或数据工程;按照数据资产的技术层级来浏览元数据。此外,如支持用户输入技术信息、自定义标签或业务术语,数据目录可以进一步改善搜索功能。

02

从各种数据源收集元数据

请确保您的数据目录可以从各种互联数据资产中收集技术元数据,包括对象存储、自治驾驶数据库、本地部署系统等等。

03

元数据管理

数据目录应支持主题专家通过企业业务术语表、标签、关联、用户自定义注释、分类、评级等形式来贡献业务知识。

04

自动化和数据智能

对于大规模数据,人工智能和机器学习通常必不可少。因此,数据目录应利用 AI 和机器学习技术来处理所收集的元数据,让所有可以自动化的手动任务都实现自动化。此外,人工智能和机器学习还可以切实增强数据功能,例如为数据目录用户以及现代化数据平台上其他服务的用户提供数据建议。

05

企业级功能

您需要利用强大的企业级功能来正确使用您至关重要的数据资产,例如身份与访问管理功能以及基于 REST API 的重要功能。同时,这还意味着客户和合作伙伴可以贡献元数据(例如自定义收集器),通过 REST 公开其应用中的数据目录功能。

协会总结

有了数据目录,这些问题就能迎刃而解。未来,数据目录已不再仅仅是锦上添花,而是成为了一项必不可少的工具。

当前,数据成为各国发展数字经济的重要抓手。在数字社会,数据成为了国家基础性战略资源,数字经济正在成为创新经济增长方式的强大动能,而要释放数据价值,良好的数据资产管理是前提和基础。

对企业来说,数据资产管理也同样重要。企业竞争的本质是在不确定市场环境下资源配置效率的竞争,数字化转型通过优化企业资源获取和资源配置,提高企业竞争优势,而数据资产管理可以提高业务数据化效率,推动数据业务化,加速企业数字化转型。

数据实现资产化主要分三步来进行,第一,对自身资产进行一个盘点与洞察;第二,在摸清了自身的资产家底后,对它进行一个系统的整合与规划;第三,在盘点后形成的数据资产目录的指导下,去激活实现数据资产的价值。今天小亿就来为大家介绍下由亿信华辰自主研发的EsDataAssets数据资产管理平台,希望能帮助企业实现数据资产的保值与增值。

一、数据资产管理的定义和重要性

1.数据资产管理的定义

根据中国信通院定义,数据资产管理是指对数据资产进行规划、控制和提供的一组活动职能,包括开发、执行和监督有关数据的计划、政策、方案、项目、流程、方法和程序,从而控制、保护、交付和提高数据资产的价值。

2.数据资产管理的重要性

(1)企业共通的数据语言: 数据作为各部门运行的衍生产物,分散在企业的各个角落。数据分析者往往需要花费大量的时间和精力收集各类数据,寻找数据共通的连接方式,才能将其归类分析应用。数据资产化则意味着在公司内部可形成共同的“数据语言”,由此,企业的管理层可以更高效地对数据进行讨论和沟通。

(2)企业的战略资产:数据资产化之后,数据资产会渐渐成为企业的战略资产,企业将强化数据资源的存量、价值,以及对其分析、挖掘的能力,进而极大地提升企业核心竞争力。

(3)加速数据资产交易进程:目前在缺乏交易规则和定价标准的情况下,数据交易双方承担了较高的交易成本, 制约了数据资产的流动,但随着数据资产管理的完善,必然能加速数据资产交易的进程。

3.数据资产管理面临的问题

(1)缺乏统一的数据视图

数据资源存在在企业的多个业务系统中,分布在线上和线下,甚至分布在企业的外部,无法对数据进行统一管理。

(2)数据基础薄弱

大部分企业没有数据治理经验,基础薄弱,存在数据标准混乱,数据质量参差不齐,数据孤岛化等问题,阻碍了数据有效利用,使得数据无法变成数据资产。

(3)数据应用不足

很多组织因为数据基础薄弱和应用能力不足数据资产目录示例,导致数据应用刚刚起步,主要在精准营销、舆情感知和风险控制等有限场景中进行了一些探索,数据应用的深度不够,应用空间应该扩大,比如辅助公司管理等。

(4)数据价值难估

企业难以评估数据对业务的贡献,从而难以像运营有形资产一样运营数据。产生这个问题的原因有两个:一是没有建立起合理的数据价值评估模型;二是数据价值与企业的商业模式密不可分,在不同应用场景下,同一项数据资产的价值可能截然不同。

(5)缺乏安全的数据环境

数据的价值越来越得到全社会广泛认可,但随之而来是针对数据犯罪活动日渐猖獗、数据泄露、个人隐私受到侵害等现象层出不穷。很多数据犯罪是由安全管理制度不完善、缺乏相应的数据安全管控措施导致的。

(6)数据管理浮于表面

没有建立一套数据驱动的组织管理制度和流程,没有建设先进的数据管理平台工具,导致数据管理工作很难落地。

二、EsDataAssets数据资产管理平台价值与优势

EsDataAssets数据资产管理平台是由亿信华辰自主研发的,基于睿治2.3.1构建的数据资产管理平台,能够完善企业的数据资产管理体系,拥有数据汇集、数据存储计算、数据治理、数据服务和数据运营能力,通过上述能力实现智能数据资产盘点、完善数据治理流程、全局统一的数据服务门户,驱动业务发展和改进,实现数据资产价值最大化。其价值如下:

(1)掌握数据现状:全面盘点多源异构数据,基于企业业务条线,并参考行业规范,分类规划数据资产,避免数据孤岛。

(2)统一数据标准:在数据资产盘点流程中统一数据标准,有效避免数据混乱冲突、一数多源、多样多类等问题。

(3)提升数据质量:数据冗余、数据缺值、数据冲突等数据质量问题能及时发现和有效解决。

(4)提高处理效率:数据采集、预处理等工作的周期减少,方法便捷,提高处理效率,快速挖掘整理出完善优质的数据属性供分析应用,提升开发及治理效率

(5)丰富数据服务:面对多样的数据消费者,提供丰富的数据应用和消费工具,提升数据资产的应用价值。

(6)保障数据安全:有效的数据安全管理机制,对敏感信息、隐私信息、保密信息的访问建立有效控制使其脱敏脱密合规,甚至对企业形成潜在的声誉和法律风险等。建立一个可靠的“数据加密保险箱”。

除此以外,数据资产管理平台能够实现数据的全生命周期管理,帮助各角色用户快速识别各业务系统的数据,并进行统一管理,最后将标准的、高质量、高准确性的数据提供给业务人员和前台业务系统,它具备以下优势:

①全域数据资产采集、清洗和整合;

②实现数据从创建到消亡全生命周期的可视化管理;

③完善的数据资产审核流程,全面保障纳入平台中数据资产的准确性、权威性;

④数据资产管理流程可自定义,满足各类审批场景;

⑤丰富的智能元素和功能,大大缩短数据管理周期、减少成本浪费;

⑥产品功能模块自由组合,融合度高,延展性强。

二、EsDataAssets数据资产管理平台基础功能展示

1.全域数据整合

(1)数据采集能力

平台提供了丰富的数据库类型接入,包括主流的关系型数据库、国产数据库以及MPP分布式数据库,能将业务系统数据对接到平台中,提供后续数据资源采集、盘点、治理和开放,数据库类型包括:Oracel、Mysql、Sql Server、DB2、Sybase、达梦DM、PetaBase、Impala、GreenPlum、Hive、Spark SQL、postgresql、Gauss DB200、Vertica、星环 Transwarp、Informix、易鲸捷 EsgynDB等,同时也支持通过接入其他数据库驱动的方式自定义数据库。

关系型数据库

平台具有多种半结构化和非结构化数据采集能力,内置文件数据源和多种采集组件,包括:文件输入组件、Excel输入组件、HDFS文件输入、FTP下载组件、接口输入和解析组件,能够将非结构化和半结构化的数据采集入库,并依据规则做解析。

文件数据源

(2)数据处理能力

数据整合提供了基于时间戳、MD5、触发器、全表比较等多种方式的变化数据捕获机制,对用户透明,只需要简单设置即可完成增量数据获取,提供了数据覆盖、数据追加、数据更新和更新插入等多种数据的落地装载策略,全面覆盖数据落地场景。

增量数据捕获

除此以外,数据整合提供了丰富的数据处理组件,并将组件进行合理的分类管理,如:常用组件、输入输出、转换组件、数仓组件、脚本组件等,用于快速完成数据的传输、清晰转换、装载落地等处理过程。同时,平台提供详细的在线帮助手册和案例库,让用户很轻易就能上手使用。

数据处理设计界面

最后,数据整合封装了近30种清洗规则,用于完成数据的字段级和记录级清洗转换,省去了复杂的表达式定义,同时清洗组件支持边配置边预览清洗前的数据变化,支持多条规则的自动全关执行,节省性能开销。

添加清洗规则

(3)调度监控

调度设置主要用于配置作业的计划执行时间。调度设置支持cron表达式,调度设置能指定到月份、日期、小时、分钟的粒度,也支持按照星期的方式来进行计划任务的执行。同时能设置调度的时间窗口,重调时间间隔。作业只有在配置的调度时间达到后才会出发执行的执行,在规定开始时间没能启动作业执行时,会根据配置的重调时间间隔和重调次数来进行作业的重新启动,在操作时间窗口和重调次数时,会进行后续的作业运行和处理。并且调度可设置邮件发送执行情况,当ETL流执行出错时,相关人员可收到通知和相关信息,并根据信息判断做出处理。

调度配置

调度支持图形监控和列变监控,图形监控提供ETL运行的总览图,能直接的展现各ETL的执行状态和执行时长信息,列变监控提供明细的运行监控,粒度细化到ETL作业内部的组件单元。

2.元数据驱动

(1)规范化的元模型管理

睿治元数据以Meta Object Facility(MOF)规范为基础,支持XML格式的元模型导入和导出,同时内置大量技术元数据、业务元数据的元模型,用户可直接使用。元模型管理对元模型的基本信息、属性、父子关系、依赖关系、组合关系的增删改查操作,内置元模型的内置信息不允许修改或者删除,但可进行新增操作。具体功能界面如下:

元模型查看界面

元模型支持发布功能,只有发布后的元模型才可被元数据使用,同时支持查看所有发布版本。通过发布过程,将元模型的设计和运用隔离开,元模型只有在发布之后才会生效,使用户在设计完成发布之前,不会影响到元数据的使用。

(2)自动化采集同步

对元数据信息的维护除界面手动操作方式外,元数据管理平台利用内置采集适配器,让用户通过配置数据源参数及定时采集任务,进行自动化采集,实现直连数据源的端到端元数据采集,同时可对不需要采集的元数据进行过滤设置。元数据管理系统提供了丰富的内置适配器,来保证自动化采集的同时,还支持对适配器进行扩展。

采集任务配置界面

(3)丰富的元数据应用

元数据管理平台提供了丰富的分析应用,包括:血缘分析、影响分析、全链分析、关联度分析、属性差异分析、元数据对比分析、重复元数据分析、元数据对比分析、重复元数据分析、同时支持将分析结果进行导出和收藏保存。

全链分析

(4)出色的元数据检核能力

由于元数据是很多数据管理活动的基本,所以所有类型的数据中,元数据的质量是最为重要的。元数据管理平台提供元数据质量检核功能,包括一致性检核、属性填充率检核和组合关系检核,是保障元数据质量的重要手段之一。

一致性检核

3.优化资产质量

(1)数据标准

定义不同的数据标准可能存在需要录入不同的属性,为了满足不同项目对数据标准的设计,睿治数据治理平台提供了数据标准集管理,内置了业务属性、技术属性、管理属性、质量属性、主数据属性、生命周期属性等供用户选择使用,并支持自定义属性。

新建标准集

(2)数据质量

睿治平台提供数据质量规则的定义和管理,数据质量规定定义数据质量审核的业务逻辑,是数据质量审核和监控管理的基础。

除此以外,睿治平台内置16种规则模板,用户只需通过简单界面化的方式新建规则。平台支持单条和批量建规则,可以根据已经存在的模板新建规则,可以根据标准来新建规则,满足不同场景创建规则的需求。

新建规则

四、EsDataAssets数据资产管理平台释放资产价值

数据资产是指由企业拥有或者控制的,能够为企业带来未来经济利益的,以物理或电子的方式记录的数据资源,如文件资料、电子数据、通过数据资源重新组织形成的新的信息,数据资产是能够为企业产生价值的数据资源。

企业通过数据资产管理,开发、执行和监督有关数据的计划、政策、方案、项目、流程、方法和程序,从而控制、保护、交付和提高数据资产的价值。数据资产管理需要充分融合业务、技术和管理,以确保数据资产保值增值。

1.数据资产定义

平台提供灵活且扩展性强的数据类型划分和描述信息输入方式,能够让企业对自身沉淀的数据资产进行详细的定义。同时支持对数据资源进行整合,生产出新的数据知识,形成数据产品,提供给用户使用。

资产属性管理

2.数据资产盘点

平台提供多种数据资产盘点方式,能够将散落在企业各个业务系统的数据按照不同的分类角度归集起来,支持人工盘点,完善资产业务信息、管理信息、分类信息等各类信息,同时将对应的具体数据挂接到目录上。同时平台还提供通过元数据加快盘点流程。

数据资产登记管理

3.数据资产标签

数据资产的价值发挥在于用户可以通过资产中的数据挖掘出数据的应用,平台支持通过资产标签对不同的资产按照应用方式、安全等级等维度进行打标,让用户可以快速通过标签搜索出某些维度的数据资产。

编辑数据资产标签

4.多样数据产品开发

平台支持对数据资源进行整合,将分散的信息统一起来,生产出新的数据知识,形成数据产品。支持将开发好的数据主题进行融合形成新的主题提供给用户做分析,支持将通过数据主题开发好的分析表提供给用户查看。

编辑数据产品

五、EsDataAssets数据资产管理平台共享服务开放

数据资产只有形成数据服务才能被业务所使用,面对业务多样的制定化数据需求,对盘点的数据资源,平台提供快捷方式配置开发查询、下载、共享交换和敏捷分析服务,并保证消费数据符合数据权限管理要求。

资源服务开发

API服务是对数据进行计算逻辑的封装,包括:数据过滤、多维汇总和关联查询等,平台提供可视化配置的方式,实现零编码的API服务开发并自动生成规范化的接口调用说明。上层应用可以对接API服务,让数据快速应用到业务场景中。

API服务开发

将已有的知识数据对外开放,是数据资产复用,避免数据孤岛的重要手段,平台能够将在用的高价值数据应用开发成数据产品,包括:分析报表、分析报告、主题文件集合和分析模型,为前台业务用户提供准确的数据知识。

数据产品开发

六、EsDataAssets数据资产管理平台价值运营

1.资产目录门户

数据资源和数据产品都依托资产目录运营,标准的目录运营流程包括:预编目、正式编目、目录变更、目录下架和服务申请,管理员可以在上述流程中选择内置或者自定义工作流。

除此以外,平台盘点的数据资源和数据产品,能够以数据商品的形式在资源门户和产品门户中对业务用户开放,数据资产管理员可以在多个门户中开放不同的数据资产,服务不同的数据消费群体。

门户管理

数据消费者在门户中可以通过资产分类导航、资产标签、评价等级和关键字检索的方式查找需要的数据资产,浏览数据资产详情并发起数据服务的使用申请。门户支持配置为登录验证或免费登录的模式。

2.资产价值评估

数据资产的价值评估因素是多方面的,可以从管理成本和数据应用价值两方面开展,管理成本包括采集、存储和计算成本,数据应用价值主要从使用频次、使用对象、使用效果和用户评价方面计量。平台对每个数据资产在管理和应用过程中记录了详细的日志,并为消费者提供了主观评价的入口,为价值评估提供了完整的基础元素信息。

资产评价

3.资产生命周期管理

平台提供对数据资产进行归档设置功能,可根据数据的产生时间、数据量设置对应的归档策略进行数据近线或离线归档,同时支持批量归档,从而保证业务系统数据的简洁。同时数据资产目录示例,近线区和离线区支持用户自定义。

数据归档

平台提供数据销毁操作,用户可根据数据的使用情况进行永久销毁或临时销毁,销毁操作提供审批操作,只有通过审批的数据才能被销毁,临时销毁的数据存放在回收站内,可一键还原。

数据销毁审批

七、多种数据安全为数据资产管理保驾护航

1.多类型的安全规范管理

在数据安全的管理过程中往往会形成一些规范性的文档,睿治平台一共对这些文档进行集中的管理、存储和查阅。支持多种文档格式,包括:文本、word、PPT、Excel等多种文档的上传。

2.多级别的敏感数据配置

睿治平台支持对敏感数据设置敏感标签、敏感级别,并能够对敏感数据进行人工标识和基于敏感标签的智能识别,全方位落实敏感数据的 分级分类工作。

敏感数据设置

3.全方位的数据资产加密

睿治支持对平台自身数据资产进行加密,目前提供:AES-128、AES-192、AES-256、DES、3DES、RC4、RC5等多种加密方法,同时支持对密钥进行管理,保证了加密的多样性和完整性。

数据加密

4.多场景的数据资产脱敏

支持灵活的对平台数据设置脱敏,除此以外还可以设置脱敏条件,以及脱敏对象,从而实现权限控制,保证脱敏效果能满足多种场景需求。

数据脱敏

5.严密的权限管理

除此之外,睿治提供系统用户权限审计功能和数据库权限管理功能:比如,用户权限审核把关平台用户的权限,新加用户及权限必须通过审计后方可生效;另外,数据库权限管理可以统一管理数据库权限,数据库用户新建、数据库权限分配,统一在平台上操作。为防止用户私下在数据库中新增改用户和权限,睿治提供数据库权限校核功能,检查平台上数据库用户和权限与实际数据库用户和权限不一致的情况。

数据库用户权限管理

八、小结

良好的数据资产管理是释放数据要素价值的基础。数据资产管理包含数据资源化、数据资产化两个过程,通过数据资源化构建全面有效的、切合实际的数据资产管理体系,提升数据质量,保障数据安全;通过数据资产化,丰富数据资产应用场景,建立数据资产生态,持续运营数据资产,显性数据资产的业务价值、经济价值和社会价值。


本文内容整理收集与网络,仅供学习交流使用,不代表CRM论坛观点。如有侵权,请联系我们,我们将会及时删除处理。
云呐固定资产管理系统是专业销售和研发各种固定资产管理系统,固定资产管理软件,企业条码固定资产管理系统等软件产品,产品作用功能优势明显欢迎来选购!咨询电话:13157126221

相关阅读