欢迎投稿

今日深度:

hadoop开发环境搭建,

hadoop开发环境搭建,


操作系统 :Ubuntu 15.04
开发工具 : Eclipse 4.4
hadoop版本:hadoop 2.6.1

显示结果:

Welcome to Ubuntu 15.04 (GNU/Linux 3.19.0-15-generic x86_64)

 * Documentation:  https://help.ubuntu.com/

287 packages can be updated.
0 updates are security updates.

Last login: Tue Oct 27 22:52:04 2015 from localhost

4.安装JDK
先去官网下载JDK,linux用
之后再usr/lib下新建一个文件夹,不建也行,直接将JDK解压到usr/lib下即可
之后就是配置环境变量了,和hadoop的环境变量一样

JAVA_HOME=/usr/lib/java_1.8.0/jdk1.8.0_65 解压位置
/usr/lib/java_1.8.0/jdk1.8.0_65/bin,在path后输入
最后输入 source /etc/environment使配置生效

5.配置linux的jdk,输入以下命令,会让选用哪个jdk,选择即将在编译插件中使用的jdk,一定要选对,否则后面可能跑不起来,注,下面的命令只针对当前用户,切换后别的用户就会失效

                              #安装目录           #jdk中的java目录
update-alternatives --install /usr/bin/java java /usr/java/bin/java 300
# update-alternatives --install /usr/bin/java java /usr/java/bin/javac 300
# sudo update-alternatives --config java

6.配置hadoop
1.单机模式,不需要任何配置,即可马上运行
2.伪分布模式
在用户目录下新建一个hadoop_tmp文件夹,用来存放之后的一些运行信息,下面出现的目录都可以按照需要修改,不过得保证该目录存在

修改core-site.xml


<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://localhost:9000</value>
    <final>true</final>
  </property>

  <property>
    <name>hadoop.tmp.dir</name>
    <value>/home/pengchen/hadoop_tmp</value>
  </property>
</configuration>

修改hdfs-site.xml:


<configuration>
        <property>
      <name>dfs.namenode.name.dir</name>
      <value>/home/pengchen/hadoop/dfs/namenode</value>
      <final>true</final>
    </property>      
     <property>
       <name>dfs.datanode.data.dir</name>
       <value>/home/pengchen/hadoop/dfs/datanode</value>
      <final>true</final>
    </property>
    <property>
      <name>dfs.http.address</name>
      <value>localhost:50070</value>
       <description>
         The address and the base port where the dfs namenode web ui will listen on.
If the port is 0 then the server will start on a free port.
      </description>
    </property>
    <property>
      <name>dfs.replication</name>
      <value>1</value>
    </property>
    <property>
      <name>dfs.permissions</name>
      <value>false</value>
    </property>
</configuration>

修改mapred-site.xml


<configuration>
        <property>
      <name>mapreduce.framework.name</name>
      <value>yarn</value>
    </property>
    <property>
      <name>mapred.job.tracker</name>
      <value>hdfs://localhost:9001</value>
    </property>
        <property>  
          <name>mapred.system.dir</name>  
          <value>file:/home/pengchen/hadoop/mapred/system</value>  
          <final>true</final>  
        </property>  

        <property>  
          <name>mapred.local.dir</name>  
          <value>file:/home/pengchen/hadoop/mapred/local</value>  
          <final>true</final>  
        </property> 
</configuration>

修改yarn-site.xml:


<configuration>

<!-- Site specific YARN configuration properties -->
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
    <description>shuffle service that needs to be set for Map Reduce to run</description>
  </property>
  <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>localhost</value>
    <description>hostname of Resource Manager</description>
  </property>
</configuration>

7.以上步骤完成后,就是启动hadoop了
cd到hadoop的安装目录下
首先是格式化hadoop

./bin/hdfs namenode -format

等待格式化完成后,启动

./sbin/start-all.sh

等待命令行输入完成后,输入jps,如果出现下面的显示,就代表运行成功了

pengchen@ubuntu:~/hadoop$ jps
Picked up JAVA_TOOL_OPTIONS: -javaagent:/usr/share/java/jayatanaag.jar 
3403 NodeManager
3433 Jps
3123 SecondaryNameNode
2920 DataNode
2801 NameNode
3278 ResourceManager

7.web登陆
在hadoop启动状态下,于浏览器输入localhost:50070即可登入web界面

umake ide eclipse

第一次可能会提示安装umake,按照提示安装即可,之后,再输入一遍上面的指令,速度可能很慢,耐心等待即可,安装地址会再输入指令后显示出来,不满意可以修改

2.安装完成后,打开eclipse,并新建一个项目,将之前下载的eclipse插件的源码拖到该项目下

3.打开src/contrib下的build-contrib.xml输入以下内容,涉及到目录的请按照自己的安装目录填写,版本信息一样,一定要填对,否则编译的东西可能不能用,不同的环境可能造成插件出现问题,务必保证环境一致

 <property name="jdk.home" value="/usr/lib/java_1.8.0/jdk1.8.0_65" />
        <property name="hadoop.version" value="2.6.1" />
        <property name="jackson.version" value="1.9.13" />
        <property name="hadoop.home" value="/home/pengchen/hadoop" />
        <property name="eclipse.version" value="4.4" />
        <property name="eclipse.home" value="/home/pengchen/tools/ide/eclipse" />
        <property name="root" value="${basedir}" />
        <property file="${root}/build.properties" />
        <property name="name" value="${ant.project.name}" />
        <property name="src.dir" location="${root}/src" />
        <property name="build.contrib.dir" location="${root}/build/contrib" />
        <property name="build.dir" location="${build.contrib.dir}/${name}" />
        <property name="build.classes" location="${build.dir}/classes" />
        <property name="javac.deprecation" value="off" />
        <property name="javac.debug" value="on" />
        <property name="build.encoding" value="UTF-8" /> 

添加完成后,选到build.xml文件,选run as ant file,等待完成

完成后将插件放在eclipse安装目录的plugin文件夹下,重启eclipse,如果成功加载插件,就会在界面上显示一个小像图,如下图,如果没成功,就跳转到eclipse安装目录用eclipse -clean启动一下试试,如果还不行,就删除eclipse安装目录下的configuration/org.eclipse.update文件夹试试

成功后接下来是配置,选择windows/preference,选择hadoop选项,将之前的安装目录填上即可

选择新建项目-map/reduce project,之后hadoop插件会自行把hadoop下的库都导进去,之后,应该会在projectExplorer中看到多出一个DFS LOCATION选项,这里就是用来配置需要连接的hadoop地址

选择Map/Reduce Locations选项卡,并右键点击,新建一个location
会弹出如下对话框:

填上名字,左边对应mapred-site.xml中填写的信息,右边对应core-site.xml中填写的信息,之后点击确定即可
这样在dfs location中显示出链接的信息,最开始时,如果没有命令行配置过输入输出目录的话,就是空的,不要在意自行填上输入输出文件夹,命令行,或者eclipse都行

这样开发环境就搭建完成了
ps:一些简单的命令行

1.查看文件列表,dir对应目录
hadoop fs -ls dir
2.从本地上传至hdfs

hadoop fs -copyFromLocal input/hello.txt /input/hello.txt
3.从hdfs下载至本地

hadoop fs -copyToLocal /input/hello.txt input/hello.copy.txt
4.创建文件夹

hadoop fs -mkdir testDir
5.查看hdfs文件列表

hadoop fs -lsr /testDir

6.查看结果
hadoop fs -cat /resultDir
7.运行jar,目录对应自己本地环境的目录,输入输出目录同理
  hadoop jar /usr/local/hadoop2.4.0/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.4.0.jar wordcount input output
8.停止hadoop
.sbin/stop-all.sh

注意事项:
1.不要多次输入格式化命令会导致datanode起不来,解决方法是hadoop安装目录下的dfs文件夹下的datanode和namenode文件夹,再次格式化,并启动hadoop
2.如果在运行程序时发现log4j未打log,解决方法是将hadoop安装目录下etc/log4j.properties拖入到对应的项目/src文件夹下即可解决log问题
3.如果出现hadoop显示无法连接,或者无法显示问题,可能是对应的编译插件的环境与运行环境不一致导致的,请换用一致环境,即可解决,自己windows编译的放在linux下死活通不过,换了linux一次ok,所以保持一致环境可以保证成功

www.htsjk.Com true http://www.htsjk.com/Hadoop/41745.html NewsArticle hadoop开发环境搭建, 操作系统 :Ubuntu 15.04 开发工具 : Eclipse 4.4 hadoop版本:hadoop 2.6.1 显示结果: Welcome to Ubuntu 15.04 (GNU/Linux 3.19 .0 - 15 -generic x86_64) * Documentation: https ://help.ubuntu.com/ 287...
相关文章
    暂无相关文章
评论暂时关闭