您现在所在位置: 首页 > 睿道新闻

大数据的采集和管理怎样实现?

发布时间:2020-09-24点击数:


  大数据的生命周期中,数据的获取是第一步。按应用系统对MapReduce产生数据进行分类,大数据采集主要有管理信息系统、网络信息系统、物理信息系统和科学实验系统4种来源。在不同的数据集上,可能有不同的结构和模式,比如文件,XML树,关系表等等,这些都表现为数据的异构。对于多种异构数据集,需要进行进一步的集成处理或整合处理,从不同数据集收集、整理、清理、转换后,生成新的数据集,为后续的查询和分析处理提供统一的数据视图。在管理信息系统中的异构数据库集成技术、Web信息系统中的实体识别技术以及DeepWeb上的集成技术、传感器网络数据融合技术等方面进行了大量的研究工作,并取得了较大进展,如SAS公司的DataFlux、IBM公司的DataStage、美国Informatica公司的InformaticaPowerCenter等。


  由于传统数据存储与管理主要是结构化数据,所以关系数据库系统(RDBMS)能够满足所有类型应用的需要。大数据通常以半结构化和非结构化数据为主,结构化数据为辅,而各种大数据应用通常是对不同类型的数据内容进行检索、交叉比对、深度挖掘和综合分析。针对这样的应用需求,传统的数据库无论在技术上还是功能上都是无法替代的。所以近年来出现了oldSQL,NoSQL和NewSQL三种语言并存的情况。总的来说,根据数据类型的不同,大数据的存储和管理都采用了不同的技术路线,大致可分为三种类型。类别1主要针对的是大型的结构化数据。对于这样的大数据,通常使用新型的数据库集群。他们采用列存储或行列混合存储以及粗粒度索引等技术,结合高效的MPP(MassiveParallelProcessing)架构分布式计算模式,实现了PB量数据的存储和管理。这种集群以其高性能和高可扩展性而被广泛应用于企业分析类应用领域;第二类主要面向半结构化和非结构化数据。基于Hadoop开放源码体系的系统平台能够更好地处理这种应用场景。他们对Hadoop生态系统进行了技术扩展和封装,从而实现了对半结构化和非结构化数据的存储和管理;第三类面向结构化和非结构化混合的大数据集,因此采用了MPP并行数据库集群和Hadoop集群的混合方式来实现百PB、EB级数据的存储和管理。利用MPP技术,一方面可以管理高质量的结构化数据,提供强大的SQL和OLTP类型的服务;另一方面可以利用Hadoop实现对半结构化和非结构化数据的处理,以支持内容检索、深度挖掘和综合分析等新的应用。这种混合模式将成为未来大数据存储和管理的趋势。



  • 友情链接

关注东软睿道公众号了解更多IT行业资讯

添加东小萌微信
获取更多IT学习资源