大数据-Hadoop学习笔记01

来源:互联网 发布:模糊聚类算法 matlab 编辑:程序博客网 时间:2024/06/03 01:14

1.安装Hadoop前置条件:

如果想搭建个人集群,硬件需要准备合适的PC机,软件需要JDK、Hadoop安装包,VMvare虚拟机安装包、以及linux系统安装包,下面分别对应下载路径
JDK(选择1.8):http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
Hadoop:http://hadoop.apache.org
Ubuntu:http://www.ubuntu.org.cn/download
通过虚拟机安装多个Ubuntu操作网上有各种方法,可以按需求安装多个,也可以拷贝虚拟机,如果是拷贝的虚拟机因为是安全一样的系统所以需注意ip相关的配置。
ps:在虚拟机中,大多数时候并不需要桌面,更多的是命令行,愿意的话所以可以切换至命令行模式
ctrl  + alt + F6//文本模式
ctrl  + alt + F7//桌面模式

2.Hadoop基本认识:

2.1 什么是大数据: 体量大 样式多 速度快 价值密度低
1.数据规模:、海量数据,常以PB级以上数据作为基础
2.存储方式:分布式存储
3.计算方式:分布式计算
ps:(分布式是由分布在不同主机上的进程协同在一起,才能构成整个应用)
2.2 什么是Hadoop
可靠、可伸缩、分布式计算的开源软件
1.HDFS:
分布式文件存储框架(Hadoop distributed file system)
2.去IOE:
     (IBM + Oracle + EMC)
3.MapReduce:
MR//映射和化简,编程模型

3.Hadoop的安装

3.1:安装JDK
a.复制并tar开 jdk-xx.tar.gz 到指定目录下,并创建符号链接 $>ln -s /soft/jdk-xxx jdk便于指定路径
b.配置环境变量JAVA_HOME以及PATH,这里可以将环境变量配置在某一用户目下(~/.bash_profile)或者配置在系统环境变量中Ubuntu下(/etc/enviroment),source   后通过 $>java -version检查是否安装成功
3.2:安装Hadoop
a.复制并tar开hadoop-xx.tar.gz到指定目录下,创建符号链接$>ln -s /soft/hadoop-xx hadoop便于指定路径
b.配置环境变量HADOOP_HOME以及PATH(包括hadoop目录下的bin目录以及sbin目录),source后通过$>hadoop version检查是否安装成功
   ps:以上安装如果source后环境变量不生效重启即可

4.Hadoop模块

4.1 common模块
支持其他模块的工具模块
4.2 HDFS模块
分布式文件系统,提供了对应用程序数据的高吞吐量访问
【进程】
NameNode:存放目录节点//名称节点
DataNode:存放数据节点//数据节点
SecondaryNamedoe:备份目录节点//辅助名称节点
4.3 Yarn模块
作业调度与集群资源管理框架
【进程】
ResourceManager//资源管理器
NodeManager//节点管理器
4.4 MapReduce
基于yarn系统的对大数据集进行并行处理技术

5.配置Hadoop

hadoop支持三种模式分别为:
1.独立/本地模式(不用配置,适用于开发以及测试环境)
独立模式下不会启动相关进程,hdfs目录即本地系统目录
2.伪分布式(和完全分布式很像,但是是单一节点)
【配置过程】目录:../hadoop/etc/hadoop/
a.core-site.xml
<property>  <name>fs.defaultFS</name>  <value>hdfs://localhost:8020/</value></property>
b.hdfs-site.xml
<property>  <name>dfs.replication</name>  <value>1</value></property>

c.mapred-site.xml (将template文件复制cp一份为mapred-site.xml)
<property>  <name>mapreduce.framework.name</name>  <value>yarn</value></property>
d.yarn-site.xml
<property>  <name>yarn.resourcemanager.hostname</name>  <value>localhost</value></property>
<property>  <name>yarn.nodemanager.aux-services</name>  <value>mapreduce_shuffle</value></property>
e.配置SSH无密安全登陆
1.下载ssh $>sudo apt-get install open-server
2.确认ssh是否启动 $>ps -ef | grep ssh,如果有sshd说明服务已启动否则执行 $>/etc/init.d/ssh restart 然后查看服务是否启动
3.生成公私密钥 $> ssh-keygen -t rsa 然后一直回车,此命令会在当前用户目录下生成公私密钥 id_rsa和id_rsa.pub,私钥自己保管,公钥需要添加在本地机   ~/.ssh/authorized_keys中,如果没有此文件可手动生成一个 $>echo id_rsa.pub >> authorized_keys,并且设置权限为600,$>chmod 600 authorized_keys
  并将id_rsa.pub添加在需要登陆的其他机器的authorized_keys中,并且可以配置hosts文件 $>sudo vim /etc/hosts,在最后一行添加需要登陆机器的
  ip hostname,这样可以通过dns解析,直接连接hostname即可。配置好后可以通过 $>ssh hostname 尝试登陆机器,输入yes后即可无密登录对应机器。
f.格式化hdfs
$>hadoop namenode -format
g.启动所有进程(包括上述5个进程)
$>start-all.sh 并通过jps查看五个进程是否启动成功包括NM NN 2NN RM NM
h.初始化创建hdfs目录
$>hadoop fs -mkdir -P /xx/xx

ps:HDFS的端口号为8020,WebUI的端口为50070

3.完全分布式



















0 0