博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
DataPipeline丨新型企业数据融合平台的探索与实践
阅读量:6603 次
发布时间:2019-06-24

本文共 1751 字,大约阅读时间需要 5 分钟。

DataPipeline丨新型企业数据融合平台的探索与实践

一、关于数据融合和企业数据融合平台

数据融合是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。

企业数据融合平台,通常的表现形态为运行着大量数据同步和转换任务的分布式系统。其源端一般为各类偏实时的业务数据存储系统,目的端为各类数据仓库/对象存储。

二、企业数据融合平台的典型架构

下图为数据融合平台的典型架构,源端是不同的数据存储系统,另一端是各种类型的数据仓库,关系型数据库或者文件存储等。中间为数据融合平台的简单架构,组件Source connectors负责做数据的采集。

将数据采集之后,会将其做成格式化数据放到Transport Channel,Transport Channel一般会用Source队列或其它流式数据框架,负责做中间的缓存,包括分布式的支持,数据的分发, sink connectors去负责把数据分别写入不同的数据目的地。

DataPipeline丨新型企业数据融合平台的探索与实践

三、企业数据融合需要解决的关键问题

  1. 数据异构问题

面临繁琐的数据源和目的地适配以及异构数据源的转换问题。

  1. 随时变化的数据结构

数据源结构会随时发生变化,造成下游写入失败。当数据结构发生改变时,需要保证数据像正常一样,不会出现任何问题。

  1. 数据平台的扩展性

需要根据业务驱动做水平拓展,甚至需应对一对多的分发要求,另外也需要处理和解决多任务并行的QoS。

  1. 数据一致性

在任何情况下都需要保证数据是一致的,这也是在生产过程中需要保证的问题。

四、消息队列在数据融合平台的作用

首先是解耦,消息队列可以将源端的数据采集跟移动端的数据完全进行解耦。如果数据写入端出现任何问题,不会影响数据采集的稳定型。

Schema Mapping帮助我们做到了数据源和目的地结构的解耦,减少开发新的connector的复杂度。

同时消息队列提供了水平拓展和高可用的性质,当需要接入更多数据且系统不能支撑时,我们可以轻易的做水平拓展,支持更大的数据量。

另外,对消息队列和数据同步一致性的问题做了保证,至少能保证数据同步的顺序性。

DataPipeline丨新型企业数据融合平台的探索与实践

五、DataPipeline现有架构

下图为DataPipeline基于Kafka connect消息队列所做的架构,Kafka本身是一个非常成熟的消息队列,Kafka connect是其下面的一个子项目,相当于给kafka consumer 和 kafka producer提供了一个封装,它实现了分布式和高可用,同时帮助我们负责和kakfa进行交互。

DataPipeline丨新型企业数据融合平台的探索与实践

六、Kafka connect-offset管理

消费者会有一个offset的概念,用来记录消费进度,Kafka connect会自动化地做消息offset的管理,它可以等我们消费完一些数据之后,自动提交消费进度,然后在Kafka中做存储。

在读取数据的时候, connector会将数据从数据源抽取出来写到data topic,用来做数据中间的缓存。同时connector在同步过程中也会周期性的将offset提交到offset Topic,相当于每读取一段时间,存一个存档点。

DataPipeline丨新型企业数据融合平台的探索与实践

周期性的offset提交如果失败的话,会导致数据任务重启恢复时无法完全恢复到最后写入的offset点。这种情况就会导致数据的重复读取和重复写入,会出现数据一致性的问题,以下解决方案可以从一定程度上避免这个问题:

  1. 依赖目的地的特性进行去重达到数据的最终一致性,例如: RDBMS用主键进行去重。

  2. 依赖消息队列的事务信息避免源端重复,保证数据写入和offset写入的事务性提交。

  3. 目的端在写入后记录单独的offset到redis缓存,并在任务恢复之后根据offset进行过滤,避免重复写入。减少offset rewind带来的数据重复,但是由于写入数据和记录offset并不是事务操作,所以也不保证exactly once delivery。

  4. 依赖目的地的事务性,在目的地建立临时空间记录写入的offset,并在任务恢复之后根据offset进行过滤,避免重复写入,可以保证exactly once delivery。但是要求目的地可以支持事务性,并且会在目的地有额外的数据存储。

转载于:https://blog.51cto.com/13905119/2386723

你可能感兴趣的文章
Linux运维学习笔记-软硬链接知识总结
查看>>
java 成员变量与局部变量
查看>>
面试中常问的List去重问题,你都答对了吗?
查看>>
Pycharm 常用快捷键
查看>>
Delphi之Raise抛出异常
查看>>
教程-delphi的开源json库:superobject,用法简介
查看>>
PHP学习之数组篇
查看>>
hw2打卡
查看>>
this指向问题,只提供案例,不做任何分析
查看>>
spring boot 学习之三(返回json形式实体)
查看>>
一个微信群的现状
查看>>
Slic3r填充代码解析
查看>>
ACM编程题
查看>>
一键安装包制作
查看>>
封装与继承
查看>>
衔接UI线程和管理后台工作线程的类(多线程、异步调用)
查看>>
python中map()函数的用法讲解
查看>>
[leetcode-724-Find Pivot Index]
查看>>
C++ 信号处理
查看>>
Linux中的软链接和硬链接
查看>>