大数据的接入与融合

大数据来源分布广泛、组织方式各异、数据形式多种多样,其接入、汇聚方法亦各不相同,TariDB适配接入思想,构建基于总线的数据接入环境,通过云计算平台的广泛分布的数据接入节点实现各类大数据向数据中心的汇聚。

为了保证融合数据的准确性和可扩展性,TariDB平台提出一种基于Markov逻辑网的数据冲突解决方法。该方法综合运用多角度的特征和规则,可有效提高冲突解决的准确度。另外,由于Markov逻辑网强大的表述能力,该方法可根据不同的数据冲突方便的添加和删除推理规则,具有良好的扩展性。

分布式海量数据存储与分析

TariDB基于开源的Apache Hadoop平台,实现了对海量文本、图片、视频等结构化或非结构化数据的存储与分析。

TariDB支持用户自定义数据结构,提供良好的增、删、改、查、统计等全面的数据管理接口。通过分布式存储系统自带的元数据查询功能以及在其基础上实现的高效二级索引,提供对于原始数据任意字段的快速检索。另外,通过快速模式匹配和关键字检索等技术实现了对于全字段的模糊查询。

TariDB基于MapReduce分布式计算平台提供强大的分布式批处理能力,使对海量数据的分析成为可能。TariDB自身包含丰富的数据分析、挖掘模型,可以直接在智能交通等领域使用。同时支持对于图片、视频等数据的分析,提供提取图片、视频特征,图片与图片匹配、图片与视频匹配等功能。

分布式实时计算技术

TariDB基于Actor-Model计算模型,构建分布式流数据处理平台,实现了对交通大数据中普遍存在的时空数据、传感数据等流数据的实时处理。TariDB流数据处理平台通过计算单元的自动构建,实现了对所有数据的内存计算,完全避免引入磁盘读写导致的I/O瓶颈,从而达到实时处理效果。该平台具备如下两个主要特点:

  • 计算是随着数据的产生而进行,是由“数据驱动”,即时产生即时分析;

  • 数据的分析过程很快,延迟低至零点几秒到一秒以内,是实时的分析。

另外,TariDB支持数据流上的数据查询检索,同时提供良好的接口供用户方便的自定义对于流数据的分布式处理算法。TariDB还解决了数据一旦丢失不可恢复的问题,实现了流数据处理平台的高可靠性。