Hadoop执行任务过程,hadoop鎵ц浠诲姟
Comment:
- JobTracker选择哪一个任务进行初始化是由Scheduler的逻辑实现来决定的,用户可以提供自定义的Scheduler
- TaskTracker会启动一个Jvm来执行Mapper或者Reducer,除非用户指定需要重用之前启动的Jvm
- 用户可以提供Combiner来对Mapper的输出进行初步的合并,Combiner会在Partitioner之后执行,主要是在Mapper的结果Spillout到文件的时候进行combine操作。
- 用户可以提供Partitioner来确定Mapper输出的Key,Value 被分到哪一个Reducer,可以用来防止数据倾斜。
- 用户可提供自定义InputFormat来定义如何产生Split
- 用户可提供自定义RecordReader来定义如何从输入中产生Key,Value对
- 用户可提供自定义OutputFormat和RecordWriter来定义如何输出。
本站文章为和通数据库网友分享或者投稿,欢迎任何形式的转载,但请务必注明出处.
同时文章内容如有侵犯了您的权益,请联系QQ:970679559,我们会在尽快处理。