Hadoop单机伪分布的搭建

来源:互联网 发布:针锋对决网络剧第一集 编辑:程序博客网 时间:2024/06/10 05:23
        上一篇主要写了Linux的初步学习,及相关软件的配置安装,没想到这么快就用到了,接触hadoop快一个月了,大致了解了其中的运行机制,主要包括两方面:1,HDFS进行文件存储,2,MapReduce进行数据分析处理。通过网上的资料查询,终于把hadoop单机版配置好了,于是把配置过程总结一下。

  1,安装JDK,我用的是openjdk1.6版本

    sudo apt-get install openjdk-6-jdk 

  2,配置JDK环境变量

    sudo gedit /etc/environment
    在其中添加如下两行:
    CLASSPATH=./:/usr/lib/jvm/java-6-openjdk/lib
    JAVA_HOME=/usr/lib/jvm/java-6-openjdk
    PATH添加::/usr/lib/jvm/java-6-openjdk

  3,验证JDK的配置

    env|grep JAVA

  4,安装SSH

    sudo apt-get install ssh

  5,安装rsync

    sudo apt-get install rsync

  6,配置SSH免密码登录

    ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa

    cat ~/.ssh/id_rsa.pub >>~/.ssh/authorized_keys

  7,验证SSH是否成功

    ssh localhost

  8,下载,安装hadoop

    hadoop-1.0.4-bin.tar.gz

  9,修改hadoop配置文件,指定JDK安装路径

    vi conf/hadoop-env.sh

    export JAVA_HOME=/home/app/jdk/java-6-openjdk-i386

  10,修改hadoop核心配置文件core-site.xml,配置HDFS的地址和端口号

    vi conf/core-site.xml

    <property>

      <name>fs.default.name</name>

      <value>hdfs://localhost:9000</value>

    </property>

  11,修改hadoop中HDFS配置,修改replication

    vi conf/hdfs-site.xml

    <property>

      <name>dfs.replication</name>

      <value>1</value>

    </property>

  12,修改hadoop中MapReduce的配置文件,配置的是JobTracker地址和端口

    vi conf/mapred-site.xml

    <property>

      <name>mapred.job.tracker</name>

      <value>localhost:9001</value>

    </property>

  13,格式化hadoop文件系统HDFS

    bin/hadoop namenode -format

  14,启动hadoop

    bin/start-all.sh

  15,最后一步验证hadoop是否安装成功

    MapReduce的web页面:http://localhost:50030

    HDFS的web页面:http://localhost:50070

  hadoop的单机伪分布终于安装好了,中间出现了一些问题,主要还是细节方面自己不太细心。我是总结网上其的配置方法,基本上市大同小异,感觉自己写的步骤还算比较完整,实践以后思路更加清晰。下一步,hadoop下的第一个示例程序运行。接着还有hadoop的集群搭建,这个已经有了思路。

  最近一个月很忙,三篇论文,两场考试。

  We are drowning in data,but starving for knowledge.

原创粉丝点击