您现在所在位置: 首页 > 睿道新闻

大数据培训与Hadoop之间的关系

发布时间:2020-09-24点击数:


  Hadoop分布处理框架的核心设计:


  HDFS:分布式文件系统


  MapReduce:计算模型和软件结构。


  HDFS。


  HDFS是Hadoop的分布式文件存储系统。


  将大的文件分解为多个Block,每个Block保存多个副本。提供容错机制,复印件丢失或停机时自动恢复。默认每个Block保存3个副本,64M为1个Block。将Block根据key-value映射到内存中。


  MapReduce。


  MapReduce是一种编程模式,包装了并行计算、容错、数据分布、负载均衡等细节问题。MapReduce最初是映射map,将操作映射到集中的各文档中,按产生的键进行分组,将产生的键组成列表放入对应的键中。简化(reduce)将列表中的值简化为单值,返回该值,再次进行键分组,直到每个键的列表只有一个值。这样做的好处是,任务分解后,可以通过大量的机器进行并行计算,减少整个操作的时间。但是,如果想让我再介绍一下通俗点的话,白色的话,Mapreduce的原理是分治算法。


  算法:算法:


  MapReduce计划分为映射阶段、shuffle阶段和减少阶段三个阶段执行。


  映射阶段:映射或映射器的工作是处理输入数据。一般输入数据是以文件或目录的形式存储在Hadoop的文件系统(HDFS)。输入文件传输到由线映射器功能线路。映射器处理这个数据,制作数据的几个小块。


  减少阶段:这个阶段是Shuffle阶段和Reduce阶段的组合。减速机的工作是处理来自映射器的数据。处理后,产生新的输出,保存在HDFS中。


  HIVE。


  hive是基于Hadoop的数据仓库工具,可以将结构化的数据文件映射到数据库表中,提供完整的sql查询功能,将sql语句转换为Mapreduce任务运行使不熟悉mapreduce的用户能够简单地利用SQL语言进行查询分析数据。mapreduce开发人员可以将自己写的mapper和reducer作为插件支持Hive进行更复杂的数据分析。


  进行HIVE操作时,HQL写作不当,容易引起数据倾斜,大致分为空值数据倾斜、不同数据类型的关联引起数据倾斜和Join的数据倾斜。只有了解Hadoop的原理,熟练使用HQL,才能避免数据倾斜,提高查询效率。



  • 友情链接

关注东软睿道公众号了解更多IT行业资讯

添加东小萌微信
获取更多IT学习资源