此外,血统也可以帮助我们理解数据。例如,当用户在元数据平台或者血统平台上查询某个数据资产节点时,他可能想要进行下一步的作业开发或者排查一些问题,所以需要先找到该数据资产。如果用户不了解数据生成的过程,就无法了解数据的过去和未来。这是一个经典的哲学问题:这张桌子是从哪里来的?它到底是什么意思?我们可以通过数据沿袭找到特定表的上下游信息。
(图:数据沿袭用例- 资产字段)
数据沿袭的第二个用例是在开发空间中。开发领域有两种应用:影响分析和归因分析。
1.影响分析应用
影响分析是事前分析,这意味着当表资产发生变化时,可以提前感知到影响。当Bloodline上游资产负责人修改对应的生产任务时,需要通过Bloodline查看下游资产,判断资产修改的影响,从而根据修改的兼容性完成通知等操作或某个链接的重要性。否则,可能因通知不力而发生严重生产事故。
2. 归因分析应用
归因分析应用程序是事后分析。例如,当某个任务生成的表出现问题时,我们可以查询血脉上游,一步步找到血脉上游发生变化的任务节点或者资产节点,找出根本原因的问题。发现并定位问题后,我们将修复数据。在修复数据时,我们可以通过lineage找到任务或表的依赖关系。对于离线数据仓库,我们可能需要重新运行某个分区的输出数据。我们需要根据血缘关系来划定范围,只需要追溯相应受影响的下游任务即可,减少不必要的资源浪费。
(图:数据沿袭用例- 开发领域)
在治理领域的应用中,血缘关系在Byte内部也有典型的使用场景:链路状态跟踪和数据仓库管理。
1. 链路状态跟踪
比如,在重要的节日或活动期间,我们需要提前选择一些需要重要保障的任务。这时候我们就需要通过血缘关系来梳理出链路的骨干,也就是核心链路。然后再去进行相应的关键治理和保障,比如签署SLA。
2. 数据仓库管理
数据血统还将用于辅助数据仓库的建设,比如标准化管理。数据仓库的规范化管理包括清理数据仓库分层中不合理的引用、数据仓库分层不规范、冗余表等。例如,来自同一个上游表但属于不同级别的两张表是冗余的,将通过数据沿袭辅助进行清理。
(图:数据沿袭用例- 治理领域)
安全相关问题在一些跨国公司或国际产品中比较常见,各个国家和地区的安全政策也不同。我们在做安全合规检查的时候,每一项资产都有对应的资产安全级别。这个资产安全级别会有一定的规则。比如我们规定下游资产的安全级别必须高于上游安全资产级别,否则就会出现权限泄露问题或者其他安全问题。根据血缘关系,我们可以扫描这些规则涉及的下游资产,配置相应的扫描规则,然后进行安全合规检查,做出相应的治理。
此外,亲属关系也用于标签传播。可以通过血缘传递环节进行自动化。例如,当使用安全标签来标记资产时,手动标记方法相对繁琐,并且需要注意链接信息。那么就可以利用血缘关系信息来完成自动标记,比如配置一些规则,让安全标签明确场景、节点和终止规则。
(图:数据沿袭用例——安全域)
以上是Byte内数据沿袭的一些典型用例,我们也在探索更多的使用场景。
场景根据血统品质要求划分区域。根据血缘关系覆盖度和血缘关系准确度的要求,可分为四个象限。比如一个类别需要覆盖整个链路,有极高的血缘关系准确度要求,比如开发项目的两个用例,因为在开发项目的用例中,血缘关系的延迟会严重影响决策判断,血缘关系的质量是最高要求。
血脉构建过程也会分为不同的构建周期。我们可以根据现在要支持的业务场景和业务优先级,协助制定血线建设计划,并确定血线迭代的节奏和具体方向。
用户评论
傲世九天
这个Volcano Engine DataLeap的数据沿袭用例分析真是详实,让我对大数据处理有了更深的理解。
有17位网友表示赞同!
无所谓
Volcano Engine DataLeap的四大数据沿袭用例分析,太实用了,我都想立刻应用到工作中去。
有16位网友表示赞同!
全网暗恋者
Volcano Engine DataLeap的用例分析太棒了,特别是对那些初学者来说,简直是福音。
有8位网友表示赞同!
娇眉恨
Volcano Engine DataLeap的数据沿袭用例,让我对大数据的复杂性有了新的认识。
有17位网友表示赞同!
oО清风挽发oО
Volcano Engine DataLeap的四大数据沿袭用例分析,居然这么全面,我都想为作者点赞了。
有13位网友表示赞同!
暮光薄凉
Volcano Engine DataLeap的用例分析,让我对数据处理有了全新的视角。
有12位网友表示赞同!
■□丶一切都无所谓
Volcano Engine DataLeap的数据沿袭用例,虽然内容丰富,但感觉有些地方解释不够清晰。
有12位网友表示赞同!
大王派我来巡山!
Volcano Engine DataLeap的四大数据沿袭用例,对于想要学习大数据的伙伴来说,这是一篇不可多得的佳作。
有9位网友表示赞同!
♂你那刺眼的温柔
Volcano Engine DataLeap的用例分析,让我对数据处理有了更深刻的理解,非常感谢作者。
有16位网友表示赞同!
恰十年
Volcano Engine DataLeap的数据沿袭用例,虽然篇幅较长,但每一部分都很有价值。
有9位网友表示赞同!
半世晨晓。
Volcano Engine DataLeap的四大数据沿袭用例分析,我觉得作者应该出一本书,这样更方便大家学习。
有11位网友表示赞同!
孤败
Volcano Engine DataLeap的用例分析,虽然有些专业术语我看不懂,但整体来说还是受益匪浅。
有18位网友表示赞同!
太难
Volcano Engine DataLeap的数据沿袭用例,让我对大数据技术有了新的认识,真是学到了不少。
有16位网友表示赞同!
青墨断笺み
Volcano Engine DataLeap的四大数据沿袭用例分析,感觉作者对大数据的理解非常深刻。
有7位网友表示赞同!
丢了爱情i
Volcano Engine DataLeap的用例分析,虽然有些地方我看不懂,但我会继续学习的。
有9位网友表示赞同!
冷月花魂
Volcano Engine DataLeap的数据沿袭用例,让我对大数据处理有了更全面的了解。
有20位网友表示赞同!
烟雨萌萌
Volcano Engine DataLeap的四大数据沿袭用例,对于想要提升数据处理能力的伙伴来说,这篇分析很有帮助。
有14位网友表示赞同!
非想
Volcano Engine DataLeap的用例分析,虽然内容很多,但我觉得作者应该再细化一下。
有6位网友表示赞同!
海盟山誓总是赊
Volcano Engine DataLeap的数据沿袭用例,让我对大数据技术有了新的认识,真是学到了不少。
有19位网友表示赞同!