大数据-Hadoop学习笔记01

来源：互联网发布：模糊聚类算法 matlab 编辑：程序博客网时间：2024/06/03 01:14

1.安装Hadoop前置条件：

如果想搭建个人集群，硬件需要准备合适的PC机，软件需要JDK、Hadoop安装包，VMvare虚拟机安装包、以及linux系统安装包，下面分别对应下载路径

JDK（选择1.8）：http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

Hadoop：http://hadoop.apache.org

Ubuntu：http://www.ubuntu.org.cn/download

通过虚拟机安装多个Ubuntu操作网上有各种方法，可以按需求安装多个，也可以拷贝虚拟机，如果是拷贝的虚拟机因为是安全一样的系统所以需注意ip相关的配置。

ps：在虚拟机中，大多数时候并不需要桌面，更多的是命令行，愿意的话所以可以切换至命令行模式

ctrl + alt + F6//文本模式

ctrl + alt + F7//桌面模式

2.Hadoop基本认识：

2.1 什么是大数据: 体量大样式多速度快价值密度低

1.数据规模：、海量数据，常以PB级以上数据作为基础

2.存储方式：分布式存储

3.计算方式：分布式计算

ps：（分布式是由分布在不同主机上的进程协同在一起，才能构成整个应用）

2.2 什么是Hadoop

可靠、可伸缩、分布式计算的开源软件

1.HDFS：

分布式文件存储框架（Hadoop distributed file system）

2.去IOE：

（IBM + Oracle + EMC）

3.MapReduce：

MR//映射和化简，编程模型

3.Hadoop的安装

3.1:安装JDK

a.复制并tar开 jdk-xx.tar.gz 到指定目录下，并创建符号链接 $>ln -s /soft/jdk-xxx jdk便于指定路径

b.配置环境变量JAVA_HOME以及PATH，这里可以将环境变量配置在某一用户目下（~/.bash_profile）或者配置在系统环境变量中Ubuntu下（/etc/enviroment），source 后通过 $>java -version检查是否安装成功

3.2:安装Hadoop

a.复制并tar开hadoop-xx.tar.gz到指定目录下，创建符号链接$>ln -s /soft/hadoop-xx hadoop便于指定路径

b.配置环境变量HADOOP_HOME以及PATH（包括hadoop目录下的bin目录以及sbin目录），source后通过$>hadoop version检查是否安装成功

ps：以上安装如果source后环境变量不生效重启即可

4.Hadoop模块

4.1 common模块

支持其他模块的工具模块

4.2 HDFS模块

分布式文件系统，提供了对应用程序数据的高吞吐量访问

【进程】

NameNode：存放目录节点//名称节点

DataNode：存放数据节点//数据节点

SecondaryNamedoe：备份目录节点//辅助名称节点

4.3 Yarn模块

作业调度与集群资源管理框架

【进程】

ResourceManager//资源管理器

NodeManager//节点管理器

4.4 MapReduce

基于yarn系统的对大数据集进行并行处理技术

5.配置Hadoop

hadoop支持三种模式分别为：

1.独立／本地模式（不用配置，适用于开发以及测试环境）

独立模式下不会启动相关进程，hdfs目录即本地系统目录

2.伪分布式（和完全分布式很像，但是是单一节点）

【配置过程】目录：../hadoop/etc/hadoop/

a.core-site.xml

<property>  <name>fs.defaultFS</name>  <value>hdfs://localhost:8020/</value></property>

b.hdfs-site.xml

<property>  <name>dfs.replication</name>  <value>1</value></property>

c.mapred-site.xml (将template文件复制cp一份为mapred-site.xml)

<property>  <name>mapreduce.framework.name</name>  <value>yarn</value></property>

d.yarn-site.xml

<property>  <name>yarn.resourcemanager.hostname</name>  <value>localhost</value></property>

<property>  <name>yarn.nodemanager.aux-services</name>  <value>mapreduce_shuffle</value></property>

e.配置SSH无密安全登陆

1.下载ssh $>sudo apt-get install open-server

2.确认ssh是否启动 $>ps -ef | grep ssh,如果有sshd说明服务已启动否则执行 $>/etc/init.d/ssh restart 然后查看服务是否启动

3.生成公私密钥 $> ssh-keygen -t rsa 然后一直回车，此命令会在当前用户目录下生成公私密钥 id_rsa和id_rsa.pub,私钥自己保管，公钥需要添加在本地机 ~/.ssh/authorized_keys中，如果没有此文件可手动生成一个 $>echo id_rsa.pub >> authorized_keys，并且设置权限为600，$>chmod 600 authorized_keys

并将id_rsa.pub添加在需要登陆的其他机器的authorized_keys中，并且可以配置hosts文件 $>sudo vim /etc/hosts,在最后一行添加需要登陆机器的

ip hostname，这样可以通过dns解析，直接连接hostname即可。配置好后可以通过 $>ssh hostname 尝试登陆机器，输入yes后即可无密登录对应机器。

f.格式化hdfs

$>hadoop namenode -format

g.启动所有进程（包括上述5个进程）

$>start-all.sh 并通过jps查看五个进程是否启动成功包括NM NN 2NN RM NM

h.初始化创建hdfs目录

$>hadoop fs -mkdir -P /xx/xx

ps:HDFS的端口号为8020，WebUI的端口为50070

3.完全分布式

0 0

模糊聚类算法 matlab

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子狂野飙车8破解版下载狂野飙车9中文破解版安卓狂野飙车下载狂野飙车9辅助逢场作戏大王叫我来飙车txt 逢爱作戏by大王叫我来飙车飙风战警飙风营救飙风营救4在线高清正片飙风战警国语手机在线飙风战警国语免费飚王移动硬盘盒飚王u盘飚王 biaowang ssk u盘 ssk 飚车飚车世界星际飚车王大飚车拆车狂yie飚车9 酷飚车神2 闪电飚车狂野飚车8破解版我男友超会飚车飚风营救飝飝怎么读飝虪齺魕爧衳齺怎么读飞云飞, 飞将中飞网飞飞蚂插翅难飞飞云之下狂少秦飞飛飞是什么意思