当前位置: > 关于睿道 > 新闻中心 > 行业动态
  • 睿道简介
  • 新闻中心
  • 园区环境
  • 联系我们
  • 相关推荐

    大数据技术如何实际应用?

    2020-09-24 来源:Neutech东软睿道

      为了应对日益增长的业务变化,JD.COM京迈团队在JD.COM大数据平台的基础上,采用Hadoop等流行的开源大数据计算引擎,打造了一款为JD提供决策的数据产品——北斗平台。COM的运营和产品。


      Hadoop的应用业务分析。


      大数据是传统计算技术无法处理的大数据集的集合。它不是单一的技术或工具,而是涉及商业和技术的多个领域。


      目前主流的三大分布式计算系统是Hadoop、Spark和Strom:


      ⊙Hadoop是目前的大数据管理标准之一,在目前很多商业应用系统中使用。结构化、半结构化甚至非结构化数据集都可以轻松集成。


      ⊙Spark使用内存计算。从多迭代批处理开始,它允许数据加载到内存中进行重复查询,此外,它还集成了数据仓库、流处理和图形计算等各种计算范式。Spark建立在HDFS之上,可以和Hadoop很好的结合。它的RDD是一大特色。


      ⊙Storm是一个处理高速大规模数据流的分布式实时计算系统。Hadoop增加了可靠的实时数据处理功能。


      Hadoop是Apache用Java编写的开源框架,它允许处理分布在集群中的大型计算机数据集,并使用简单的编程模型。Hadoop框架应用工程提供了一个跨计算机集群的分布式存储和计算环境。Hadoop旨在从单个服务器扩展到数千台机器,每台机器都可以提供本地计算和存储。


      Hadoop适用于海量数据、离线数据、责任数据,应用场景如下:


      ⊙场景一:数据分析,比如JD.COM的海量日志分析,JD.COM的商品推荐,JD.COM的用户行为分析;


      ⊙场景二:离线计算,(异构计算+分布式计算)天文计算;


      ⊙场景3:海量数据存储,比如JD.COM的存储集群。