当前,发展数字经济、建设数字中国已上升为国家战略。然而,数字化的程度越高,安全性挑战也就越大。随着数字化的不断发展,安全行业正在超越网络安全范畴,升级为数字安全。与此越来越多企业将数据视为数字化转型、提升组织治理能力的重要战略资产,需要对重要资产进行全面盘点,构建企业级数据资产目录,充分挖掘数据的战略战术价值。这就意味对企业数据化转型的核心要素即构建关键数据资产识别分析、企业数据分级、数据溯源、数据监控、资产评估核心能力。作为一家在数据安全领域深耕多年的企业,中孚信息始终积极探索新的安全技术能力,构建集数据资产识别、数据分类分级、数据血缘分析于一体的关键数据资产分类识别能力。
数据资产识别
功能框架
Ø 关键能力
高效的数据扫描技术:采用先进的扫描技术,全盘扫描与定时扫描相结合,提高数据资产发现的效率,自动完成扫描并比对结果,可辅助人工判定,实现关键数据资产的高效监测。
智能的数据识别技术:采用先进的算法,实现智能识别,无需人工判定,并且支持多种数据格式。
清晰的数据分布展示技术:根据数据资产的基本信息及数量,清晰的展示数据资产的地域分布、持有分布、违规持有情况、数据资产的变化情况以及数据资产的流转情况。
数据分类分级
功能框架
以数据合规要求为起点,通过实体识别、句法分析、语义分析、文本相似度等智能算法,对以文档为主的非结构化数据自动化聚类与分类,自动发现个人数据及其他敏感数据,从而实现分级管控、规则持续优化。
Ø 关键能力
增量聚类:高效处理类型复杂、多噪声及孤立点和不完整的数据;并基于行业特征,建立主题矩阵,为定义类别属性提供依据;
多模型分类算法:基于深度学习技术,通过分析待分类数据特征,自动为用户推荐适合的数据分类,使得分类更加准确快捷;
构建行业知识图谱:基于法律法规、行业标准、特征规则、关键词等多维度定义级别,通过构建行业知识图谱,结合特征元数据,增强文本的语义特征表示,提高分类分级精度。
数据血缘分析
功能框架
Ø 关键能力
规则配置统一管理能力:提供不同数据类型的多种关系及影响评估等规则的统一配置、统一管理能力。
血缘关系智能构建能力:通过自动解析SQL语句、存储过程、ETL过程等文件,并基于数据分类分级及行为分析、内容分析等引擎,分别提供数据资产和敏感数据生命全周期的多种血缘关系的构建能力。
图形化展示能力:运用先进的血缘分析图形化应用技术,支持数据对象的高性能展现数据资产目录示例,提供体验良好图谱编辑和查询工具,有效满足外部应用能力的嵌入式整合。
数据血缘分析能力:基于图算法库、标签传播算法、网络寻径、介质寻径等算法与技术,提供数据资产分布、敏感数据分布、数据质量追溯、数据变更影响、数据传播影响等数据血缘分析能力。
新技术、新业态、新模式不断涌现,数据成为组织越来越关键的核心资产,同时也面临日益严重的安全威胁,也正因为如此数据资产目录示例,数据安全无疑已成为当前信息安全的重中之重。中孚作为数字安全企业正加大技术研发投入,守护数字经济发展,持续为数字中国建设贡献技术力量。
两年前,在文章最全大数据开源组件思维导图中,整理了大数据生态的开源技术组件思维导图,至今有4K的下载量。
尽管数据行业的新词热度,由大数据平台->数据治理->数据中台->数字化转型(现代数据技术栈)转换,做为这些新词的基础组成部分,数据资产管理平台/元数据管理平台/数据目录管理平台等技术方案,依旧处于Gartner曲线的爬升恢复期,相关平台百花齐放,一统江湖的开源平台或者商用产品还没出现,在推进企业数字化转型落地过程中,实现数据治理、数据资产管理平台/元数据管理平台/数据目录管理平台的选型,依旧是一项考验人能力的活。
计划分三篇文章详细介绍12款优秀的开源数据资产/元数据管理平台,在第三篇文章中,将通过一张选型二维表,全面对比12款开源软件的功能特性。
本文整理了其中Apache atlas、Datahub、Marquez、Amundsen四款产品,并简单分析其优缺点,供选项参考:
Apache Atlas
开源地址: 1.5K star
Atlas最早由大数据平台三驾马车(Cloudera,Hortonworks,MapR)之一HortonWorks公司开发,用来管理Hadoop项目里面的元数据,进而设计为数据治理的框架,它为Hadoop集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心能力。后来开源出来给Apache社区进行孵化,得到Aetna,Merck,Target,SAS,IBM等公司的支持进行发展演进。因其支持横向海量扩展、良好的集成能力和开源的特点,国内大部分厂家选择使用Atlas或对其进行二次开发。 目前,Cloudera,Hortonworks已经并购,MapR也鲜有新品。大数据技术领域,相较于Hadoop技术平台风头正盛的2016年,已经发生了巨大的变化,Hadoop体系正在逐步淡出舞台中央。MPP、现代技术栈、云原生数据库等登上舞台,例如Clickhouse、Doris、StarRocks、Databend、Materialize、Ringswave。
Atlas的优点:
Atlas的不足:
相关介绍:
选型建议:1)如果您只有Hadoop生态,可以试试。2)如果您的数据资产是面向数据团队的技术人员,可以试试。
Datahub
开源地址: 7.2K star
DataHub是由Linkedin开源的,官方Slogan:The Metadata Platform for the Modern Data Stack - 为现代数据栈而生的元数据平台。目的就是为了解决多种多样数据生态系统的元数据管理问题,它提供元数据检索、数据发现、数据监测和数据监管能力,帮助大家解决数据管理的复杂性。
DataHub基于Apache License 2开源数据资产目录示例,采用基于推送的数据收集架构(当然也支持pull拉取的方式)数据资产目录示例,能够持续收集变化的元数据。当前版本已经集成了大部分流行数据生态系统接入能力,包括但不限于:Kafka, Airflow, MySQL, SQL Server, Postgres, LDAP, Snowflake, Hive, BigQuery。
Datahub的优点:
Datahub的不足:
相关介绍:
选型建议: 1)如果有至少半个前端开发人员+后台开发人员; 2)如果需要用户体验较好的数据资产管理平台; 3)如果有需要扩展支持各种平台、系统的元数据。请把Datahub列为最高选择。 尽管列举了一些不足,但是开源产品中Datahub目前是相对最好的选择。笔者也在生产中使用,有问题的可以随时沟通交流。
商用版本: Metaphor()是Datahub的SaaS版本。
Marquez
开源地址: 1.3K star
Marquez的优点:
Marquez的不足:
相关介绍:
选型建议: 1)如果您有功能强大的元数据及数据资产管理平台后端,仅需要数据资产的可视化及血缘展示,可以考虑使用体验。 2)界面展示比较棒,支持选择依赖线路高亮及隐藏支线依赖。要做到数据资产管理、元数据采集有较多的工作要做。
商用版本: Datakin() 是Marquez的SaaS版本. 支持 Apache Hive, Amazon RDS, Teradata, Amazon Redshift, Amazon S3, and Cassandra.
Amundsen
在这里插入图片描述
开源地址: 3.8K star
Amundsen 是来自Lyft 开源的元数据管理、数据发现平台,功能点很全,有一个比较全的前端、后端以及数据处理框架
Amundsen的优点:
Amundsen的不足:
相关介绍:
选型建议:
1)如果有人折腾,建议选择Datahub,如果没人折腾,选择Amundsen够折腾
商用版本: Stemma()是Amundsen的SaaS 版本。
总结
数据治理、数据资产管理等工作,是企业数字化转型中的底层基建,很重要,却又很难体现出效果和价值。上层数据战略、数据架构、数据流程、数据规范等问题,在组织层面没有解决;不论数据资产平台等工作规划和实现得如何好,都只能体现出杯水车薪的效果。
本文内容整理收集与网络,仅供学习交流使用,不代表CRM论坛观点。如有侵权,请联系我们,我们将会及时删除处理。
云呐固定资产管理系统是专业销售和研发各种固定资产管理系统,固定资产管理软件,企业条码固定资产管理系统等软件产品,产品作用功能优势明显欢迎来选购!咨询电话:13157126221