您现在所在位置：首页 > 睿道新闻

大数据培训与Hadoop之间的关系

发布时间：2020-09-24点击数：

　　Hadoop分布处理框架的核心设计:

　　HDFS:分布式文件系统

　　MapReduce:计算模型和软件结构。

　　HDFS。

　　HDFS是Hadoop的分布式文件存储系统。

　　将大的文件分解为多个Block，每个Block保存多个副本。提供容错机制，复印件丢失或停机时自动恢复。默认每个Block保存3个副本，64M为1个Block。将Block根据key-value映射到内存中。

　　MapReduce。

　　MapReduce是一种编程模式，包装了并行计算、容错、数据分布、负载均衡等细节问题。MapReduce最初是映射map，将操作映射到集中的各文档中，按产生的键进行分组，将产生的键组成列表放入对应的键中。简化(reduce)将列表中的值简化为单值，返回该值，再次进行键分组，直到每个键的列表只有一个值。这样做的好处是，任务分解后，可以通过大量的机器进行并行计算，减少整个操作的时间。但是，如果想让我再介绍一下通俗点的话，白色的话，Mapreduce的原理是分治算法。

　　算法:算法:

　　MapReduce计划分为映射阶段、shuffle阶段和减少阶段三个阶段执行。

　　映射阶段:映射或映射器的工作是处理输入数据。一般输入数据是以文件或目录的形式存储在Hadoop的文件系统(HDFS)。输入文件传输到由线映射器功能线路。映射器处理这个数据，制作数据的几个小块。

　　减少阶段:这个阶段是Shuffle阶段和Reduce阶段的组合。减速机的工作是处理来自映射器的数据。处理后，产生新的输出，保存在HDFS中。

　　HIVE。

　　hive是基于Hadoop的数据仓库工具，可以将结构化的数据文件映射到数据库表中，提供完整的sql查询功能，将sql语句转换为Mapreduce任务运行使不熟悉mapreduce的用户能够简单地利用SQL语言进行查询分析数据。mapreduce开发人员可以将自己写的mapper和reducer作为插件支持Hive进行更复杂的数据分析。

　　进行HIVE操作时，HQL写作不当，容易引起数据倾斜，大致分为空值数据倾斜、不同数据类型的关联引起数据倾斜和Join的数据倾斜。只有了解Hadoop的原理，熟练使用HQL，才能避免数据倾斜，提高查询效率。

上一篇：大数据技术如何实际应用?

下一篇：大数据技术生态的相关介绍