hadoop环境搭建实验报告(hadoop安装配置实验报告)

hadoop伪分布式配置时,在修改配置文件时无法连接

一般是配置hadoop的配置文件时配置出了问题,关于环境变量在安装里面记得做好测试启动集群时先确保Java和hadoop都安装好了,环境变量也配置好了即可,一定要看清楚各个配置文件里面的路径网上很多配置的路径方式不同但是不一定不一样就是错的例如:大家一定要根据自己路径来配置,每个人创建的包文件不同自己可以根据pwd来查看当前目录的路径

在这里插入图片描述

再就是报错的时候,发现某个节点运行不起来可以查看日志上面都有h记录cat 加你的文件日志的文件名,跟据报错内容修改,

如何部署hadoop分布式文件系统

一、实战环境

系统版本:CentOS 5.8x86_64

JAVA版本:JDK-1.7.0_25

Hadoop版本:hadoop-2.2.0

192.168.149.128namenode (充当namenode、secondary namenode和ResourceManager角色)

192.168.149.129datanode1 (充当datanode、nodemanager角色)

192.168.149.130datanode2 (充当datanode、nodemanager角色)

二、系统准备

1、Hadoop可以从Apache官方网站直接下载最新版本Hadoop2.2。官方目前是提供了linux32位系统可执行文件,所以如果需要在64位系统上部署则需要单独下载src 源码自行编译。(如果是真实线上环境,请下载64位hadoop版本,这样可以避免很多问题,这里我实验采用的是32位版本)

1234 Hadoop

Java

2、我们这里采用三台CnetOS服务器来搭建Hadoop集群,分别的角色如上已经注明。

第一步:我们需要在三台服务器的/etc/hosts里面设置对应的主机名如下(真实环境可以使用内网DNS解析)

[root@node1 hadoop]# cat /etc/hosts

# Do not remove the following line, or various programs

# that require network functionality will fail.

127.0.0.1localhost.localdomain localhost

192.168.149.128node1

192.168.149.129node2

192.168.149.130node3

(注* 我们需要在namenode、datanode三台服务器上都配置hosts解析)

第二步:从namenode上无密码登陆各台datanode服务器,需要做如下配置:

在namenode 128上执行ssh-keygen,一路Enter回车即可。

然后把公钥/root/.ssh/id_rsa.pub拷贝到datanode服务器即可,拷贝方法如下:

ssh-copy-id -i .ssh/id_rsa.pub root@192.168.149.129

ssh-copy-id -i .ssh/id_rsa.pub root@192.168.149.130

三、Java安装配置

tar -xvzf jdk-7u25-linux-x64.tar.gz mkdir -p /usr/java/ ; mv /jdk1.7.0_25 /usr/java/ 即可。

安装完毕并配置java环境变量,在/etc/profile末尾添加如下代码:

export JAVA_HOME=/usr/java/jdk1.7.0_25/

export PATH=$JAVA_HOME/bin:$PATH

export CLASSPATH=$JAVE_HOME/lib/dt.jar:$JAVE_HOME/lib/tools.jar:./

保存退出即可,然后执行source /etc/profile 生效。在命令行执行java -version 如下代表JAVA安装成功。

[root@node1 ~]# java -version

java version \"1.7.0_25\"

Java(TM) SE Runtime Environment (build 1.7.0_25-b15)

Java HotSpot(TM) 64-Bit Server VM (build 23.25-b01, mixed mode)

(注* 我们需要在namenode、datanode三台服务器上都安装Java JDK版本)

四、Hadoop版本安装

官方下载的hadoop2.2.0版本,不用编译直接解压安装就可以使用了,如下:

第一步解压:

tar -xzvf hadoop-2.2.0.tar.gz mv hadoop-2.2.0/data/hadoop/

(注* 先在namenode服务器上都安装hadoop版本即可,datanode先不用安装,待会修改完配置后统一安装datanode)

第二步配置变量:

在/etc/profile末尾继续添加如下代码,并执行source /etc/profile生效。

export HADOOP_HOME=/data/hadoop/

export PATH=$PATH:$HADOOP_HOME/bin/

export JAVA_LIBRARY_PATH=/data/hadoop/lib/native/

(注* 我们需要在namenode、datanode三台服务器上都配置Hadoop相关变量)

五、配置Hadoop

在namenode上配置,我们需要修改如下几个地方:

1、修改vi /data/hadoop/etc/hadoop/core-site.xml 内容为如下:

?xml version=\"1.0\"?

?xml-stylesheet type=\"text/xsl\"href=\\\'#\\\'\" Put site-specific property overrides inthisfile. --

configuration

property

namefs.default.name/name

valuehdfs://192.168.149.128:9000/value

/property

property

namehadoop.tmp.dir/name

value/tmp/hadoop-${user.name}/value

descriptionA base forother temporary directories./description

/property

/configuration

2、修改vi /data/hadoop/etc/hadoop/mapred-site.xml内容为如下:

?xml version=\"1.0\"?

?xml-stylesheet type=\"text/xsl\"href=\\\'#\\\'\" Put site-specific property overrides inthisfile. --

configuration

property

namemapred.job.tracker/name

value192.168.149.128:9001/value

/property

/configuration

3、修改vi /data/hadoop/etc/hadoop/hdfs-site.xml内容为如下:

?xml version=\"1.0\"encoding=\"UTF-8\"?

?xml-stylesheet type=\"text/xsl\"href=\\\'#\\\'\" /name

value/data/hadoop/data_name1,/data/hadoop/data_name2/value

/property

property

namedfs.data.dir/name

value/data/hadoop/data_1,/data/hadoop/data_2/value

/property

property

namedfs.replication/name

value2/value

/property

/configuration

4、在/data/hadoop/etc/hadoop/hadoop-env.sh文件末尾追加JAV_HOME变量:

echo \"export JAVA_HOME=/usr/java/jdk1.7.0_25/\" /data/hadoop/etc/hadoop/hadoop-env.sh

5、修改 vi /data/hadoop/etc/hadoop/masters文件内容为如下:

192.168.149.128

6、修改vi /data/hadoop/etc/hadoop/slaves文件内容为如下:

192.168.149.129

192.168.149.130

如上配置完毕,以上的配置具体含义在这里就不做过多的解释了,搭建的时候不明白,可以查看一下相关的官方文档。

如上namenode就基本搭建完毕,接下来我们需要部署datanode,部署datanode相对简单,执行如下操作即可。

1 fori in`seq 129130` ; doscp -r /data/hadoop/ root@192.168.149.$i:/data/ ; done

自此整个集群基本搭建完毕,接下来就是启动hadoop集群了。

怎么搭建两个hadoop集群的测试环境

环境配置:

虚拟机:

vmware workstation 12

系统:

ubuntu 16.04 LTS(推荐使用原版,不要用kylin)

节点:                192.168.159.132    master                192.168.159.134    node1                192.168.159.137    node2

jdk-8u101-Linux-x64.gz (Java )hadoop-2.7.3.tar.gz (Hadoop 包)

安装步骤:

1、安装虚拟机系统,并进行准备工作(可安装一个然后克隆)

2.修改各个虚拟机的hostname和host

3.创建用户组和用户

4、配置虚拟机网络,使虚拟机系统之间以及和host主机之间可以通过相互ping通。

5.安装jdk和配置环境变量,检查是否配置成功

6、配置ssh,实现节点间的无密码登录 ssh node1/2指令验证时候成功

7、master配置hadoop,并将hadoop文件传输到node节点

8、配置环境变量,并启动hadoop,检查是否安装成功,执行wordcount检查是否成功。

1.安装虚拟机

在VM上安装下载好的Ubuntu的系统,具体过程自行百度。可以安装完一个以后克隆,但是本人安装过程中遇到很多问题,经常需要删除虚拟机,重新安装,而被克隆的虚拟机不能删除,所以本人就用了很长时候,一个一个安装。

一共3台虚拟机:分配情况和IP地址如下:

(注:查看ip地址的指令   ifconfig)

安装虚拟机时可以设置静态IP,因为过程中常常遇到网络连接问题,ifconfig找不到IPV4地址。当然,也可以不设,默认分配。

192.168.159.132    master                192.168.159.134    node1                192.168.159.137    node2

2.修改虚拟机的hostname和hosts文件

以master上机器为例,打开终端,执行如下的操作,把hostname修改成master,hosts修改成如下所示的样子:

#修改hostname的指令:sudo gedit /etc/hostname

#修改hosts指令:sudo gedit /etc/hosts

#将以下内容添加到hosts中192.168.159.132    master192.168.159.134    node1192.168.159.137    node2

如下图所示:

同样地,在node1和node2机器上做相似的操作,分别更改主机名为node1和node2,然后把hosts文件更改和master一样。

3.创建用户和用户组(三台机器上都要操作)

1. 创建hadoop用户组

sudo addgroup hadoop

2. 创建hadoop用户

sudo adduser -ingroup hadoop hadoop

3. 给hadoop用户添加权限,打开/etc/sudoers文件

sudo gedit /etc/sudoers

按回车键后就会打开/etc/sudoers文件了,给hadoop用户赋予root用户同样的权限

在root  ALL=(ALL:ALL)  ALL下添加hadoop  ALL=(ALL:ALL)  ALL

4.检验各个主机之间能否连通

分别以刚刚创建的hadoop用户重新登录系统,以后的操作都以hadoop用户登录。

ping +主机名

分别在各个主机上执行上述指令,看是否能与其他主机连通。

出现下图代表能够连通:

如果都成功ping通,进行下面的操作。

5.安装jdk和配置环境变量

分别在每台主机上安装jdk,并配置环境变量。(嫌麻烦的前面可以安装完jdk后再克隆)

1)下载jdk安装包(自行百度),并将安装包拖入到虚拟机当中

2)通过cd命令进入到安装包的当前目录,利用如下命令进行解压缩。

tar -zxvf jdk.....(安装包名称)

3)利用如下命令将解压后的文件夹移到/usr目录下 

#注意,这样移动到/usr以后就没有jdk1.8...这个目录了,是将这个目录下的所有文件全部移动到/usr/java下,mv jdk1.8...(文件夹名称) /usr/java

4)配置环境变量

sudo gedit /etc/profile

在末尾加上四行:

[plain] view plain copy print?

#java

export JAVA_HOME=/usr/java

export JRE_HOME=/usr/java/jre

export CLASSPATH=$JAVA_HOME/lib

export PATH=:$PATH:$JAVA_HOME/bin:$JRE_HOME/bin

输入如下命令使配置生效:source /etc/profile

查看配置是否成功,

出现如上信息说明java配置成功。

6.配置SSH,实现节点间的无密码登录

本人在这一步经常出错,莫名其妙的错误,网上也找不到资料。需要自己多实验几次。

下面的 1.2.3在所有主机上都要做

1..安装ssh

[plain] view plain copy print?

sudo apt-get install openssh-server

已有ssh或者安装成功了的输入命令

[plain] view plain copy print?

ps -e | grep ssh

验证SSH是否成功安装输入

[plain] view plain copy print?

ssh localhost

出现以下提示说明安装成功

3.生成密钥Pair

ssh-keygen -t rsa

输入之后一直选择enter即可。生成的秘钥位于 ~/.ssh文件夹下。可用cd 命令进入查看。

4.在master上,导入authorized_keys

cat ~/.ssh/id_dsa.pub ~/.ssh/authorized_keys

5.远程无密码登录(把master上的authorized_keys拷贝到其他主机的相应目录下)

#进入master的.ssh目录,执行复制操作

scp authorized_keys hadoop@node1:~/.ssh/

scp authorized_keys hadoop@node2:~/.ssh/

修改各台主机上authorized_keys文件的权限:

所有机器上,均执行命令:

chmod 600 .ssh/authorized_keys

完成之后,在master上执行下面操作,检查免密码登录是否成功。

ssh node1(node2)

7.master配置hadoop,然后将master的hadoop文件传送给node节点

1)解包移动

[plain] view plain copy print?

#解压hadoop包

tar -zxvf hadoop...

#将安装包移到/usr目录下

mv hadoop... /usr/hadoop

2)新建文件夹

[plain] view plain copy print?

#在/usr/hadoop目录下新建如下目录(root)

mkdir /dfs

mkdir /dfs/name

mkdir /dfs/data

mkdir /tmp

3)配置文件:hadoop-env.sh(文件都在/usr/hadoop/etc/hadoop中)

修改JAVA_HOME值(export JAVA_HOME=/usr/java)

4)配置文件:yarn-env.sh

修改JAVA_HOME值(export JAVA_HOME=/usr/java)

5)配置文件:slaves

将内容修改为:

node1

node2

6)配置文件:core-site.xml

[html] view plain copy print?

configuration

property

namefs.defaultFS/name

valuehdfs://master:9000/value

/property

property

nameio.file.buffer.size/name

value131072/value

/property

property

namehadoop.tmp.dir/name

valuefile:/usr/hadoop/tmp/value

descriptionAbase for other temporary   directories./description

/property

/configuration

7)配置文件:hdfs-site.xml

[html] view plain copy print?

configuration

property

namedfs.namenode.secondary.http-address/name

valuemaster:9001/value

/property

property

namedfs.namenode.name.dir/name

valuefile:/usr/hadoop/dfs/name/value

/property

property

namedfs.datanode.data.dir/name

valuefile:/usr/hadoop/dfs/data/value

/property

property

namedfs.replication/name

value2/value

/property

property

namedfs.webhdfs.enabled/name

valuetrue/value

/property

/configuration

8)配置文件:mapred-site.xml

先创建然后编辑

cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml

gedit etc/hadoop/mapred-site.xml

[html] view plain copy print?

configuration

property

namemapreduce.framework.name/name

valueyarn/value

/property

property

namemapreduce.jobhistory.address/name

valuemaster:10020/value

/property

property

namemapreduce.jobhistory.webapp.address/name

valuemaster:19888/value

/property

/configuration

9)配置文件:yarn-site.xml

[html] view plain copy print?

configuration

property

nameyarn.nodemanager.aux-services/name

valuemapreduce_shuffle/value

/property

property

nameyarn.nodemanager.aux-services.mapreduce.shuffle.class/name

valueorg.apache.hadoop.mapred.ShuffleHandler/value

/property

property

nameyarn.resourcemanager.address/name

valuemaster:8032/value

/property

property

nameyarn.resourcemanager.scheduler.address/name

valuemaster:8030/value

/property

property

nameyarn.resourcemanager.resource-tracker.address/name

valuemaster:8031/value

/property

property

nameyarn.resourcemanager.admin.address/name

valuemaster:8033/value

/property

property

nameyarn.resourcemanager.webapp.address/name

valuemaster:8088/value

/property

/configuration

10)将hadoop传输到node1和node2 usr/hadoop目录,(如果传输时报错说 :权限拒绝,先把文件传送到非/usr目录下,然后在node上把这个文件再移动到/usr/hadoop)

scp -r /usr/hadoop hadoop@node1:/usr/hadoop

7、配置环境变量,并启动hadoop,检查是否安装成功

1)配置环境变量

#编辑/etc/profilesudo gedit /etc/profile#以上已经添加过java的环境变量,在后边添加就可以#hadoop  export HADOOP_HOME=/opt/Hadoop/hadoop-2.7.2  export PATH=$PATH:$HADOOP_HOME/sbin  export PATH=$PATH:$HADOOP_HOME/bin  

执行

source /etc/profile

使文件生效。

2)启动hadoop,进入hadoop安装目录

bin/hdfs namenode -format

sbin/start-all.sh

3)启动后分别在master, node下输入jps查看进程

看到下面的结果,则表示成功。

Master:

node:

8.向hadoop集群系统提交第一个mapreduce任务(wordcount)

进入本地hadoop目录(/usr/hadoop)

1、  bin/hdfs dfs -mkdir -p /data/input在虚拟分布式文件系统上创建一个测试目录/data/input

2、  hdfs dfs -put README.txt  /data/input  将当前目录下的README.txt 文件复制到虚拟分布式文件系统中

3、  bin/hdfs dfs-ls /data/input    查看文件系统中是否存在我们所复制的文件

如图操作:

3、  运行如下命令向hadoop提交单词统计任务

进入jar文件目录,执行下面的指令。

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /data/input /data/output/result

查看result,结果在result下面的part-r-00000中

hdfs dfs -cat /data/output/result/part-r-00000

自此,hadoop集群搭建成功!

hadoop分布式部署(转载)--贼靠谱

原文地址:

1. 集群搭建形式

Hadoop环境搭建分为三种形式:单机模式、伪分布式模式、完全分布模式

单机模式—— 在一台单机上运行,没有分布式文件系统,而是直接读写本地操作系统的文件系统。

伪分布式—— 也是在一台单机上运行,但不同的是Java进程模仿分布式运行中的各类节点。即一台机器上,既当NameNode,又当DataNode,或者说既是JobTracker又是TaskTracker。没有所谓的在多台机器上进行真正的分布式计算,故称为“伪分布式”。

完全分布式—— 真正的分布式,由3个及以上的实体机或者虚拟机组成的机群。一个Hadoop集群环境中,NameNode,SecondaryName和DataNode是需要分配在不同的节点上,也就需要三台服务器。

前两种模式一般用在开发或测试环境下,生产环境下都是搭建完全分布式模式。

从分布式存储的角度来说,集群中的节点由一个NameNode和若干个DataNode组成,另有一个SecondaryNameNode作为NameNode的备份。

从分布式应用的角度来说,集群中的节点由一个JobTracker和若干个TaskTracker组成。JobTracker负责任务的调度,TaskTracker负责并行执行任务。TaskTracker必须运行在DataNode上,这样便于数据的本地计算。JobTracker和NameNode则无须在同一台机器上。

2. 环境

    操作系统:CentOS7(红帽开源版)

    机器:虚拟机3台,(master 192.168.0.104, slave1 192.168.0.102, slave2 192.168.0.101)

    JDK:1.8(jdk-8u162-linux-x64.tar)

    Hadoop:2.9.0()

3. 搭建步骤

3.1 每台机器安装配置JDK(1台做好后,克隆出其它机器)

1) 创建目录 mkdir /usr/java

2) 上传jdk安装包到 /usr/java/

3) 解压 tar -xvf jdk-8u162-linux-x64.tar

4) 追加环境变量 vi /etc/profile

5) 使环境变量生效 source /etc/profile

6) 检测jdk正确安装 java -version

3.2 修改每台机器主机名(hostname)

hostnamectl set-hostname master  (立即生效)

hostnamectl set-hostname slave1    (立即生效)

hostnamectl set-hostname slave2    (立即生效)

确认修改

3.3 修改每台机器/etc/hosts文件

vi /etc/hosts

修改其中1台,然后scp到其它机器

scp 文件名 远程主机用户名@远程主机名或ip:存放路径

scp hosts root@192.168.0.102:/etc/

scp hosts root@192.168.0.101:/etc/

修改完之后,互ping其它机器,能互ping则说明修改OK

ping -c 3 slave1 (※ 3表示发送 3 个数据包)

3.4 配置ssh,实现无密码登录

无密码登录,效果也就是在master上,通过ssh slave1或者ssh slave2就可以登录对方机器,而不用输入密码。

1) 每台机器执行ssh-keygen -t rsa,接下来一路回车即可

执行ssh-keygen -t rsa主要是生成 密钥 和 密钥的存放路径

我们用的root用户,公钥私钥都会保存在~/.ssh下

2) 在master上将公钥放到authorized_keys里,命令:cat id_rsa.pub authorized_keys

3) 将master上的authorized_keys放到其它机器上

scp authorized_keys root@slave1:~/.ssh/

scp authorized_keys root@slave2:~/.ssh/

4) 测试是否成功

3.5 上传配置hadoop(配置完master后,将/usr/hadoop/整个目录内容copy到其它机器)

1) 创建目录 mkdir /usr/hadoop

2) 上传hadoop安装包hadoop-2.9.0.tar.gz到 /usr/hadoop/

3) 解压 tar -xvf hadoop-2.9.0.tar.gz

4) 追加环境变量 vi /etc/profile(其它机器也要相应配置一次hadoop环境变量)

5) 使环境变量生效 source /etc/profile

6) 确认环境变量配置OK

7) 创建HDFS存储目录

cd /usr/hadoop

mkdir hdfs

cd hdfs

mkdir name data tmp

/usr/hadoop/hdfs/name    --存储namenode文件

/usr/hadoop/hdfs/data      --存储数据

/usr/hadoop/hdfs/tmp      --存储临时文件

8) 修改/usr/hadoop/hadoop-2.9.0/etc/hadoop/hadoop-env.sh文件,设置JAVA_HOME为实际路径

否则启动集群时,会提示路径找不到

9) 修改/usr/hadoop/hadoop-2.9.0/etc/hadoop/yarn-env.sh文件,设置JAVA_HOME为实际路径

10) 配置/usr/hadoop/hadoop-2.9.0/etc/hadoop/core-site.xml

增加hadoop.tmp.dir 和 fs.default.name

11) 配置/usr/hadoop/hadoop-2.9.0/etc/hadoop/hdfs-site.xml

dfs.replication:默认值3

dfs.permissions:默认值为true,设置为true有时候会遇到数据因为权限访问不了;设置为false可以不要检查权限就生成dfs上的文件

12) 配置/usr/hadoop/hadoop-2.9.0/etc/hadoop/mapred-site.xml

cd /usr/hadoop/hadoop-2.9.0/etc/hadoop

cp mapred-site.xml.template mapred-site.xml

mapreduce.framework.name:指定mapreduce运行在yarn平台,默认为local

13) 配置/usr/hadoop/hadoop-2.9.0/etc/hadoop/yarn-site.xml

yarn.resourcemanager.hostname:指定yarn的resourcemanager的地址

yarn.nodemanager.aux-services:reducer获取数据的方式

yarn.nodemanager.vmem-check-enabled:意思是忽略虚拟内存的检查,如果安装在虚拟机上,这个配置很有用,配上去之后后续操作不容易出问题。如果是在实体机上,并且内存够多,可以将这个配置去掉

14) 配置/usr/hadoop/hadoop-2.9.0/etc/hadoop/slaves文件,将里面的localhost删除,配置后内容如下:

15) copy整个/usr/hadoop/目录到其它机器

scp -r hadoop root@slave1:/usr/

scp -r hadoop root@slave2:/usr/

3.6 启动Hadoop

1) 启动之前需要格式化一下。因为master是namenode,slave1和slave2都是datanode,所以在master上运行

hadoop namenode -format

格式化成功后,可以看到在/usr/hadoop/hdfs/name目录下多了一个current目录,而且该目录下有一系列文件,如下:

2) 执行启动(namenode只能在master上启动,因为配置在master上;datanode每个节点上都可以启动)

执行 start-all.sh

master上执行jps,会看到NameNode, SecondaryNameNode, ResourceManager

其它节点上执行jps,会看到DataNode, NodeManager

3) 在wins上打开网页,查看HDFS管理页面 查看,提示无法访问

在master上,执行以下命令关闭防火墙,即可访问(为了能够正常访问node节点,最好把其它机器的防火墙也stop了)

systemctl stop firewalld.service

HDFS管理首页

HDFS Datenodes页

访问Yarn管理页:

4)通过主机名也可以访问的设置

win7为例,需要将以下信息追加到C:\\Windows\\System32\\drivers\\etc\\hosts文件中

192.168.0.104 master

192.168.0.102 slave1

192.168.0.101 slave2

Over!!!搭建成功!!!

4. 运行实例

cd /usr/hadoop/hadoop-2.9.0/share/hadoop/mapreduce

hadoop jar hadoop-mapreduce-examples-2.9.0.jar pi 5 10

。。。。。。

=====================================================

如果不关防火墙,子节点可能出现,输入jps后只有jps一个进程,或者是缺进程的情况,关闭防火墙就好了。

如何搭建基于Hadoop的大数据平台

Hadoop: 一个开源的分布式存储、分布式计算平台.(基于Apache)

Hadoop的组成:

HDFS:分布式文件系统,存储海量的数据。

MapReduce:并行处理框架,实现任务分解和调度。

Hadoop的用处:

搭建大型数据仓库,PB级数据的存储、处理、分析、统计等业务。

比如搜索引擎、网页的数据处理,各种商业智能、风险评估、预警,还有一些日志的分析、数据挖掘的任务。

Hadoop优势:高扩展、低成本、成熟的生态圈(Hadoop Ecosystem Map)

Hadoop开源工具:

Hive:将SQL语句转换成一个hadoop任务去执行,降低了使用Hadoop的门槛。

HBase:存储结构化数据的分布式数据库,habase提供数据的随机读写和实时访问,实现 对表数据的读写功能。

zookeeper:就像动物管理员一样,监控hadoop集群里面每个节点的状态,管理整个集群 的配置,维护节点针之间数据的一次性等等。

hadoop的版本尽量选稳定版本,即较老版本。

===============================================

Hadoop的安装与配置:

1)在Linux中安装JDK,并设置环境变量

安装jdk: sudo apt-get install openjdk-7-jdk

设置环境变量:

vim /etc/profile

:wq

2)下载Hadoop,并设置Hadoop环境变量

下载hadoop解压缩:

cd /opt/hadoop-1.2.1/

ls

vim /etc/profile

:wq

3)修改4个配置文件

(a)修改hadoop-env.sh,设置JAVA_HOME

(b)修改core-site.xml,设置hadoop.tmp.dir, dfs.name.dir, fs.default.name

(c)修改mapred-site.xml, 设置mapred.job.tracker

(d)修改hdfs-site.xml,设置dfs.data.dir

cd conf

ls

vim mapred-site.xml

:wq

vim core-site.xml

第一部分

第二部分

:wq

vim hdfs-site.xml

:wq

vim hadoop-env.sh

:wq

# hadoop格式化

hadoop namenode -format

# hadoop启动

start-all.sh

# 通过jps命令查看当前运行进程

jps

看见以下进程即说明hadoop安装成功

如何在Linux下搭建hadoop集群环境 小残\'s Blog

前期准备

l 两台linux虚拟机(本文使用redhat5,IP分别为 IP1、IP2)

l JDK环境(本文使用jdk1.6,网上很多配置方法,本文省略)

l Hadoop安装包(本文使用Hadoop1.0.4)

搭建目标

210作为主机和节点机,211作为节点机。

搭建步骤

1修改hosts文件

在/etc/hosts中增加:

IP1 hadoop1

IP2 hadoop2

2 实现ssh无密码登陆

2.1 主机(master)无密码本机登陆

ssh-keygen -t dsa -P \'\' -f ~/.ssh/id_dsa

直接回车,完成后会在 ~/.ssh/ 生成两个文件: id_dsa 和 id_dsa.pub 。

这两个是成对出现,类似钥匙和锁。

再把 id_dsa.pub 追加到授权 key 里面 ( 当前并没有 authorized_key s文件 ) :

cat ~/.ssh/id_dsa.pub ~/.ssh/authorized_keys

ssh localhost hostname

还是要输入密码,一般这种情况都是因为目录或文件的权限问题,看看系统日志,确实是权限问题

.ssh下的authorized_keys权限为600,其父目录和祖父目录应为755

2.2 无密码登陆节点机(slave)

slave上执行:

ssh-keygen -t dsa -P \'\' -f ~/.ssh/id_dsa

生成.ssh目录。

将master上的authorized_keys复制到slave上:

scp authorized_keys hadoop2:~/.ssh/

实验:在master上执行

ssh hadoop2

实现无密码登陆。

3 配置Hadoop

3.1拷贝hadoop

将hadoop-1.0.4.tar.gz ,拷贝到usr/local 文件夹下,然后解压。

解压命令:

tar –zxvf hadoop-1.0.4.tar.gz

3.2查看 cat /etc/hosts

IP1 hadoop1

IP2 hadoop2

3.3 配置 conf/masters 和 conf/slaves

conf/masters:

1

IP1

conf/slaves:

1

2

IP2

IP2

3.4 配置 conf/hadoop-env.sh

加入

1

export JAVA_HOME=/home/elvis/soft/jdk1.7.0_17

3.5 配置 conf/core-site.xml

1

2

3

4

property

namefs.default.name/name

valuehdfs://IP1:9000/value

/property

3.6 配置 conf/hdfs-site.xml

加入

property

namedfs.http.address/name

valueIP1:50070/value

/property

property

namedfs.name.dir/name

value/usr/local/hadoop/namenode/value

/property

property

namedfs.data.dir/name

value/usr/local/hadoop/data/value

/property

property

namedfs.replication/name

value2/value

/property

3.7 配置conf/mapred-site.xml

加入

property

namemapred.job.tracker/name

value192.168.1.50:8012/value

/property

3.8 建立相关的目录

1

/usr/local/hadoop/ //hadoop数据和namenode目录

【注意】只创建到hadoop目录即可,不要手动创建data和namenode目录。

其他节点机也同样建立该目录。

3.9 拷贝hadoop文件到其他节点机

将hadoop文件远程copy到其他节点(这样前面的配置就都映射到了其他节点上),

命令:

1

scp -r hadoop-1.0.4 IP2:/usr/local/

3.10 格式化Active master

命令:

bin/hadoop namenode -format

3.11 启动集群 ./start-all.sh

现在集群启动起来了,看一下,命令:

1

bin/hadoop dfsadmin -report

2个datanode,打开web看一下

浏览器输入:IP1:50070

打完收工,集群安装完成!

未经允许不得转载:便宜VPS网 » hadoop环境搭建实验报告(hadoop安装配置实验报告)