hadoop3.0伪分布式集群搭建
搭建环境:CentOS7+hadoop3.0.3+jdk8
前提准备
- 安装配置jdk
- 配置静态ip地址
- 修改主机名
- 配置主机名和ip地址映射
- 关闭防火墙,设置开机不自启动
注:以上操作在笔者之前的Linux相关笔记中均有介绍
正式搭建集群
- 添加用户hadoop
useradd hadoop
passwd hadoop
注:后面都统一在hadoop用户下操作,统一权限 - 创建目录
mkdir -p /home/hadoop/apps/dfs/data
mkdir /home/hadoop/apps/dfs/name
mkdir /home/hadoop/apps/tmp - 上传并解压hadoop-3.0.3.tar.gz
sftp上传
tar -zxvf hadoop-3.0.3.tar.gz apps/ - 配置hadoop-env.sh
vi /home/hadoop/apps/hadoop-3.0.3/etc/hadoop/hadoop-env.sh
找到export JAVA_HOME
并添加
export JAVA_HOME=/usr/local/jdk - 修改核心配置文件core-site.xml
vi core-site.xml
在configuration标签中添加属性12345678910<configuration><property><name>fs.defaultFS</name> #默认<value>hdfs://hadoop5:9000</value> #hdfs的api接口</property><property><name>hadoop.tmp.dir</name> #hadoop运行时产生临时数据的存储目录<value>/home/hadoop/apps/tmp</value> #该目录的地址</property></configuration> - 配置hadoop的底层存储hdfs-site.xml
vi hdfs-site.xml
在configuration标签中添加属性1234567891011121314<configuration><property><name>dfs.replication</name> #设置副本个数<value>1</value></property><property><name>dfs.namenode.name.dir</name> #设置namende数据存放点<value>file:/home/hadoop/apps/dfs/name</value></property><property><name>dfs.datanode.data.dir</name> #设置datanode数据存放点<value>file:/home/hadoop/apps/dfs/data</value></property></configuration> - 复制并重命名mapred-site.xml.template
cp mapred-site.xml.template mapred-site.xml - 修改配置文件mapred-site.xml
vi mapred-site.xml
在configuration标签中添加属性123456<configuration><property><name>mapreduce.framwork.name</name> #设置mapreduce的运行平台的名称<value>yarn</value> #设置mapreduce的运行平台为yarn</property></configuration> - 修改配置文件yarn-site.xml
vi yarn-site.xml
在configuration标签中添加属性12345678910<configuration><property><name>yarn.resourcemanager.hostname</name> #指定yarn的老大的地址<value>hadoop5</value></property><property><name>yarn.nodemanager.aux-services</name> #reducer获取数据的方式<value>mapreduce_shuffle</value></property></configuration> - 修改配置文件workers
添加
hadoop5 - 配置hadoop环境变量
vi ~/.bash_profile
添加
HADOOP_HOME=/home/hadoop/apps/hadoop-3.0.3
PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export HADOOP_HOME PATH - 格式化hdfs(没事不要用这个命令,蛋疼)
hdfs namenode -format - 配置免密登录
ssh-keygen
ssh-copy-id hadoop5 - 启动所有服务(不推荐)
start-all.sh
相当于start-dfs.sh+start-yarn.sh - 停止所有服务
stop-all.sh - 在浏览器查看
hadoop5:9870
hadoop5:8088 - 查看该集群的根目录
hdfs dfs -ls / - 创建自己的家目录
hdfs dfs -mkdir /user/xujie - 测试实例
cd /home/hadoop/apps/hadoop-3.0.3/share/hadoop/mapreduce/
调用jar包计算pi的值,计算100次
hadoop jar hadoop-mapreduce-examples-3.0.3.jar pi 3 100
转载请注明:SuperIT » hadoop3.0伪分布式集群搭建