当前位置: > 关于睿道 > 新闻中心 > 行业动态
  • 睿道简介
  • 新闻中心
  • 园区环境
  • 联系我们
  • 相关推荐

    大数据培训与Hadoop之间的关系

    2020-09-24 来源:Neutech东软睿道

      Hadoop分布处理框架的核心设计:


      HDFS:分布式文件系统


      MapReduce:计算模型和软件结构。


      HDFS。


      HDFS是Hadoop的分布式文件存储系统。


      将大的文件分解为多个Block,每个Block保存多个副本。提供容错机制,复印件丢失或停机时自动恢复。默认每个Block保存3个副本,64M为1个Block。将Block根据key-value映射到内存中。


      MapReduce。


      MapReduce是一种编程模式,包装了并行计算、容错、数据分布、负载均衡等细节问题。MapReduce最初是映射map,将操作映射到集中的各文档中,按产生的键进行分组,将产生的键组成列表放入对应的键中。简化(reduce)将列表中的值简化为单值,返回该值,再次进行键分组,直到每个键的列表只有一个值。这样做的好处是,任务分解后,可以通过大量的机器进行并行计算,减少整个操作的时间。但是,如果想让我再介绍一下通俗点的话,白色的话,Mapreduce的原理是分治算法。


      算法:算法:


      MapReduce计划分为映射阶段、shuffle阶段和减少阶段三个阶段执行。


      映射阶段:映射或映射器的工作是处理输入数据。一般输入数据是以文件或目录的形式存储在Hadoop的文件系统(HDFS)。输入文件传输到由线映射器功能线路。映射器处理这个数据,制作数据的几个小块。


      减少阶段:这个阶段是Shuffle阶段和Reduce阶段的组合。减速机的工作是处理来自映射器的数据。处理后,产生新的输出,保存在HDFS中。


      HIVE。


      hive是基于Hadoop的数据仓库工具,可以将结构化的数据文件映射到数据库表中,提供完整的sql查询功能,将sql语句转换为Mapreduce任务运行使不熟悉mapreduce的用户能够简单地利用SQL语言进行查询分析数据。mapreduce开发人员可以将自己写的mapper和reducer作为插件支持Hive进行更复杂的数据分析。


      进行HIVE操作时,HQL写作不当,容易引起数据倾斜,大致分为空值数据倾斜、不同数据类型的关联引起数据倾斜和Join的数据倾斜。只有了解Hadoop的原理,熟练使用HQL,才能避免数据倾斜,提高查询效率。