大数据-Hadoop学习笔记01
来源:互联网 发布:模糊聚类算法 matlab 编辑:程序博客网 时间:2024/06/03 01:14
1.安装Hadoop前置条件:
如果想搭建个人集群,硬件需要准备合适的PC机,软件需要JDK、Hadoop安装包,VMvare虚拟机安装包、以及linux系统安装包,下面分别对应下载路径
JDK(选择1.8):http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
Hadoop:http://hadoop.apache.org
Ubuntu:http://www.ubuntu.org.cn/download
通过虚拟机安装多个Ubuntu操作网上有各种方法,可以按需求安装多个,也可以拷贝虚拟机,如果是拷贝的虚拟机因为是安全一样的系统所以需注意ip相关的配置。
ps:在虚拟机中,大多数时候并不需要桌面,更多的是命令行,愿意的话所以可以切换至命令行模式
ctrl + alt + F6//文本模式
ctrl + alt + F7//桌面模式
2.Hadoop基本认识:
2.1 什么是大数据: 体量大 样式多 速度快 价值密度低
1.数据规模:、海量数据,常以PB级以上数据作为基础
2.存储方式:分布式存储
3.计算方式:分布式计算
ps:(分布式是由分布在不同主机上的进程协同在一起,才能构成整个应用)
2.2 什么是Hadoop
可靠、可伸缩、分布式计算的开源软件
1.HDFS:
分布式文件存储框架(Hadoop distributed file system)
2.去IOE:
(IBM + Oracle + EMC)
3.MapReduce:
MR//映射和化简,编程模型
3.Hadoop的安装
3.1:安装JDK
a.复制并tar开 jdk-xx.tar.gz 到指定目录下,并创建符号链接 $>ln -s /soft/jdk-xxx jdk便于指定路径
b.配置环境变量JAVA_HOME以及PATH,这里可以将环境变量配置在某一用户目下(~/.bash_profile)或者配置在系统环境变量中Ubuntu下(/etc/enviroment),source 后通过 $>java -version检查是否安装成功
3.2:安装Hadoop
a.复制并tar开hadoop-xx.tar.gz到指定目录下,创建符号链接$>ln -s /soft/hadoop-xx hadoop便于指定路径
b.配置环境变量HADOOP_HOME以及PATH(包括hadoop目录下的bin目录以及sbin目录),source后通过$>hadoop version检查是否安装成功
ps:以上安装如果source后环境变量不生效重启即可
4.Hadoop模块
4.1 common模块
支持其他模块的工具模块
4.2 HDFS模块
分布式文件系统,提供了对应用程序数据的高吞吐量访问
【进程】
NameNode:存放目录节点//名称节点
DataNode:存放数据节点//数据节点
SecondaryNamedoe:备份目录节点//辅助名称节点
4.3 Yarn模块
作业调度与集群资源管理框架
【进程】
ResourceManager//资源管理器
NodeManager//节点管理器
4.4 MapReduce
基于yarn系统的对大数据集进行并行处理技术
5.配置Hadoop
hadoop支持三种模式分别为:
1.独立/本地模式(不用配置,适用于开发以及测试环境)
独立模式下不会启动相关进程,hdfs目录即本地系统目录
2.伪分布式(和完全分布式很像,但是是单一节点)
【配置过程】目录:../hadoop/etc/hadoop/
a.core-site.xml
<property> <name>fs.defaultFS</name> <value>hdfs://localhost:8020/</value></property>
b.hdfs-site.xml
<property> <name>dfs.replication</name> <value>1</value></property>
c.mapred-site.xml (将template文件复制cp一份为mapred-site.xml)
<property> <name>mapreduce.framework.name</name> <value>yarn</value></property>
d.yarn-site.xml
<property> <name>yarn.resourcemanager.hostname</name> <value>localhost</value></property>
<property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value></property>
e.配置SSH无密安全登陆
1.下载ssh $>sudo apt-get install open-server
2.确认ssh是否启动 $>ps -ef | grep ssh,如果有sshd说明服务已启动否则执行 $>/etc/init.d/ssh restart 然后查看服务是否启动
3.生成公私密钥 $> ssh-keygen -t rsa 然后一直回车,此命令会在当前用户目录下生成公私密钥 id_rsa和id_rsa.pub,私钥自己保管,公钥需要添加在本地机 ~/.ssh/authorized_keys中,如果没有此文件可手动生成一个 $>echo id_rsa.pub >> authorized_keys,并且设置权限为600,$>chmod 600 authorized_keys
并将id_rsa.pub添加在需要登陆的其他机器的authorized_keys中,并且可以配置hosts文件 $>sudo vim /etc/hosts,在最后一行添加需要登陆机器的
ip hostname,这样可以通过dns解析,直接连接hostname即可。配置好后可以通过 $>ssh hostname 尝试登陆机器,输入yes后即可无密登录对应机器。
f.格式化hdfs
$>hadoop namenode -format
g.启动所有进程(包括上述5个进程)
$>start-all.sh 并通过jps查看五个进程是否启动成功包括NM NN 2NN RM NM
h.初始化创建hdfs目录
$>hadoop fs -mkdir -P /xx/xx
ps:HDFS的端口号为8020,WebUI的端口为50070
3.完全分布式
0 0
- 大数据-Hadoop学习笔记01
- 大数据之hadoop[MapReduce]学习 笔记
- 大数据-Hadoop学习笔记02
- 大数据-Hadoop学习笔记03
- 大数据-Hadoop学习笔记04
- 大数据-Hadoop学习笔记05
- 大数据-Hadoop学习笔记07
- 大数据-Hadoop学习笔记08
- 大数据-Hadoop学习笔记09
- 大数据-Hadoop学习笔记10
- 大数据hadoop学习
- 大数据与Hadoop简单入门[学习笔记]
- 大数据学习笔记1--hadoop简介和入门
- 大数据学习笔记之二十七 Hadoop的HBase
- 大数据学习笔记:配置windows下的hadoop
- 大数据学习笔记:启动脚本分析,hadoop.cmd
- 大数据学习笔记:Hadoop中的IPC与RPC
- Hadoop大数据平台架构与实践学习笔记
- 3月9日,TextField,每日20行。
- crontab执行php或执行shell脚本
- OpenGL核心技术之延迟着色器提升版
- 数据库事务详解
- 工作的态度和做事还是需要端正啊和注意啊
- 大数据-Hadoop学习笔记01
- 历届试题 兰顿蚂蚁 蓝桥杯
- 带花树算法 UOJ#79. 一般图最大匹配
- 数据库三大范式
- R语言随机抽样sample
- ubuntu环境下安装python3,配置文件正常导入自定义模块
- 结合动态更新ProgressBar进度
- NumPy详细API第四篇
- Java threadpool机制深入分析
原创粉丝点击
热门IT博客
热门问题
老师的惩罚
人脸识别
我在镇武司摸鱼那些年
重生之率土为王
我在大康的咸鱼生活
盘龙之生命进化
天生仙种
凡人之先天五行
春回大明朝
姑娘不必设防,我是瞎子
狂野飙车8破解版下载
狂野飙车9中文破解版安卓
狂野飙车下载
狂野飙车9辅助
逢场作戏大王叫我来飙车txt
逢爱作戏by大王叫我来飙车
飙风战警
飙风营救
飙风营救4在线高清正片
飙风战警国语手机在线
飙风战警国语免费
飚王移动硬盘盒
飚王u盘
飚王
biaowang
ssk u盘
ssk
飚车
飚车世界
星际飚车王
大飚车拆车
狂yie飚车9
酷飚车神2
闪电飚车
狂野飚车8破解版
我男友超会飚车
飚风营救
飝
飝怎么读
飝虪齺魕爧衳齺怎么读
飞云
飞,
飞将
中飞
网飞
飞蚂
插翅难飞
飞云之下
狂少秦飞
飛
飞是什么意思