首页大数据技术文章正文

InputFormat接口的定义代码怎么设置？

更新时间:2020年11月03日17时38分来源:传智播客浏览次数:

Hadoop中有五个编程组件，分别是：InputFormat、Mapper、Reducer、Parttioner、OutputFromat和Canbiner，其中Canbiner的作用是对Map阶段的输出的重复数据先做一次合并计算，所以不属于必属件。本节课就来对MapReducer的这5个必备组件的代码操作步骤做一个简单介绍：

　　InputFormat主要用于描述输入数据的格式，它提供以下两个功能：

　　数据切分：按照某个策略将输入数据切分成若干个分片(split)，以便确定MapTask个数以及对应的分片(split)。

　　·为Mapper提供输入数据：给定某个分片(split)，将其解析成一个一个的key/value键值对。

　　· Hadoop自带了一个 InputFormat接口，该接口的定义代码如下所示：

public abstract class InputFormat {

     public abstract List getSplits(JobContext context

               ) throws IOException, InterruptedException;

     public abstract RecordReadercreateRecordReader(InputSplit split,

                     TaskAttemptContext context

               ) throws IOException, InterruptedException;

  }

　　从上述代码可以看出，InputFormat接口定义了getSplits()和createRecordReader()两个方法，其中，getSplits()方法负责将文件切分为多个分片(split)，createRecordReader()方法负责创建RecordReader对象，用来从分片中读取数据。下面，我们主要对getSplits()方法进行介绍。
getSplits()方法主要实现了逻辑切片机制。其中，切片的大小splitSize是由3个值确定的，即minSize、maxSize和blockSize。
minSize：splitSize的最小值，由参数mapred.min.split.size确定，可在mapred-site.xml中进行配置，默认为1MB。
maxSize：splitSize的最大值，由参数mapreduce.jobtracker.split.metainfo.maxsize确定，可在mapred-site.xml中进行设置，默认值为10MB。
blockSize：HDFS中文件存储块的大小，由参数dfs.block,size确定，可在hdf-site.xml中进行修改，默认为128MB。

猜你喜欢：

　Znode储存结构是怎样的?节点类型有几种?

　Spark的集群安装与配置简介

　传智播客大数据培训课程

上一篇：Watch机制的显著特点有哪些？Watch简介 下一篇：Mapper类中的map()方法怎么用？