hadoop配置文件配置项定义-mshrat-ChinaUnix博客

hadoop配置文件配置项定义

0. 版本

0.19.2

1. hadoop cluster组成

1.1. HDFS

1.1.1 Name Node (1台)

1.1.2 Secondary Name Node (1台, 可选)

1.1.3 Data Node (若干台)

1.2. MR

1.2.1 Master [JobTracker] (1台)

1.2.2 Slave [TaskTracker] (若干台)

2. 配置文件

2.1 hadoop-default.xml

hadoop集群的默认配置, 通常不需要修改这个配置文件.

2.2 hadoop-site.xml

hadoop集群里面的机器个性化配置文件, 通常在这里指定机器的个性化配置.

3. 配置项

3.1 fs.default.name

定义: Name Node的URI

描述: hdfs://hostname/

3.2 mapred.job.tracker

定义: JobTracker的地址

描述: hostname:port

3.3 dfs.name.dir

定义: Name Node 保存元数据和事务日志的本地目录

描述: 逗号分隔的目录列表用于指定多份数据的冗余备份.

3.4 dfs.data.dir

定义: Data Node 保存块文件的本地目录

描述: 逗号分隔的目录列表指定这些目录用于保存块文件.

3.5 mapred.system.dir

定义: HDFS上MapReduce保存系统文件的目录.

描述:

3.6 mapred.local.dir

定义: 保存MapReduce临时文件的本地目录

描述: 逗号分隔的目录列表用于指定多个目录同时做为临时数据空间

3.7 mapred.tasktracker.{map|reduce}.tasks.maximum

定义: TaskTracker上最多能够同时运行的map/reduce task数目.

描述: 默认map/reduce task数目各为2.

3.8 dfs.hosts/dfs.hosts.exclude

定义: Data Node白名单/黑名单文件

描述:

3.9 mapred.hosts/mapred.hosts.exclude

定义: MapReduce白名单/黑名单文件

描述:

3.10 mapred.queue.names

定义: 队列名

描述: hadoop MapReduce系统默认有一个"default"的Job队列(pool).

    3.11 dfs.block.size
        定义： hdfs默认块大小
        描述：默认是128M

    3.12 dfs.namenode.handler.count
        定义： namenode同时和datanode通信的线程数
        描述：

    3.13 mapred.reduce.parallel.copies
        定义： reducer同时从mapper上拉取的文件数
        描述：

    3.14 mapred.child.java.opts
        定义： child jvm的堆大小
        描述：

    3.15 fs.inmemory.size.mb
        定义： reducer在合并map输出数据使用的内存空间
        描述：默认使用200M

    3.16 io.sort.factor
        定义：排序因子。同时合并的数据流的数量
        描述：

    3.17 io.sort.mb
        定义：排序使用的最大内存
        描述：

    3.18 io.file.buffer.size
        定义：读写文件的缓冲区大小
        描述：

    3.19 mapred.job.tracker.handler.count
       定义： jobtracker同时与tasktracker通信的线程数
        描述：

   3.20 tasktracker.http.threads
       定义： tasktracker开http服务的线程数。用于reduce拉取map输出数据。
        描述：

《待续》

hadoop配置文件配置项定义

文章评论