摘要:由于最近在做一个小比赛,,需要搭建数据处理平台,,由于数据量比较大,因此选择了,本人并不是很熟悉这个平台,,因此搭建过程中遇到了许多问题,,所以想记录一下,以后可能会用到。
由于最近在做一个小比赛,,需要搭建数据处理平台,,由于数据量比较大,因此选择了Hadoop,本人并不是很熟悉这个平台,,因此搭建过程中遇到了许多问题,,所以想记录一下,以后可能会用到。
搭建过程并不困难,由于手上没有服务器,在虚拟机中搭建,本次搭建系统环境是ubuntu 14.04LTS,hadoop的版本是2.7.3
首先在ubuntu上安装java环境,我选择的是jdk1.8,jdk可以直接在官网下载,下载完成后上传到ubuntu上
由于个人喜好,,我将它解压到usr文件夹下
`cp java* /usr/` `sudo tar -xzf java*` `move java* java`
然后添加环境变量,sudo vim /etc/profile,在文件末尾追加一下几行:
`#java` `export JAVA_HOME=/usr/java` `export JRE_HOME=/usr/java/jre` `export CLASSPATH=$JAVA_HOME/lib` `export PATH=:$PATH:$JAVA_HOME/bin:$JRE_HOME/bin`
然后下载hadoop2.7.3的压缩包,并将其解压到usr文件夹下,
然后添加环境变量,同上追加一下几行:
`#hadoop` `export HADOOP_HOME=/usr/hadoop` `export PATH=$PATH:$HADOOP_HOME/sbin` `export PATH=$PATH:$HADOOP_HOME/bin`
到这里准备工作几乎完成了,下面需要配置ssh免密码登录,
先生成密钥ssh-keygen -t rsa,一路回车,然后
`cd ~/.ssh`
cat id_rsa.pub >> ~/.ssh/authorized_keys
`chmod 600 authorized_keys`
添加一个用户组和用户来管理hadoop,首先添加一个用户组,groupadd hadoop useradd hadoop -g hadoop passeord hadoop 输入两次密码,到这里就完成了用户和组的添加
此时需要配置hadoop环境,先创建dfs的文件夹,切换到hadoop用户,然后在hadoop文件夹下添加dfs/name,dfs/data,/tmp
修改hadoop文件的属性
切换到/usr/hadoop/etc/hadoop
1) 配置文件:hadoop-env.sh(文件都在/usr/hadoop/etc/hadoop中)
修改JAVA_HOME值(export JAVA_HOME=/usr/java)
2) 配置文件:yarn-env.sh
修改JAVA_HOME值(export JAVA_HOME=/usr/java)
3) 配置文件:core-site.xml
fs.defaultFS hdfs://master:9000 io.file.buffer.size 131072 hadoop.tmp.dir file:/usr/hadoop/tmp Abase for other temporary directories.
4)配置文件:hdfs-site.xml
dfs.namenode.secondary.http-address master:9001 dfs.namenode.name.dir file:/usr/hadoop/dfs/name dfs.datanode.data.dir file:/usr/hadoop/dfs/data dfs.replication 2 dfs.webhdfs.enabled true
5) 配置文件:mapred-site.xml
先创建然后编辑
cp mapred-site.xml.template mapred-site.xml
mapreduce.framework.name yarn mapreduce.jobhistory.address master:10020 mapreduce.jobhistory.webapp.address master:19888
6) 配置文件:yarn-site.xml
yarn.nodemanager.aux-services mapreduce_shuffle yarn.nodemanager.aux-services.mapreduce.shuffle.class org.apache.hadoop.mapred.ShuffleHandler yarn.resourcemanager.address master:8032 yarn.resourcemanager.scheduler.address master:8030 yarn.resourcemanager.resource-tracker.address master:8031 yarn.resourcemanager.admin.address master:8033 yarn.resourcemanager.webapp.address master:8088
到了这里基本完成了单机的配置,现在可以克隆虚拟机,,完成后修改hosts文件和主机名
ip分别是 192.168.137.150 151 152,hostname分别是master1 node1 node2,打开hosts文件配置ip和主机对应,然后修改/usr/hadoop/etc/hadoop/slaves 添加内容
node1 node2
完成配置,进行测试
启动hadoophdfs namenode -format
sbin/start-all.sh sbin/mr-jobhistory-daemon.sh start
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/66842.html
摘要:在近些年经历了哪些变化呢未来又会有哪些规划韩冀中就像实战这本书里提到的,在版本中引入了一个新的,作者预计在中旧的会被废弃。对于是应用程序框架这一概念,能否谈谈您的理解韩冀中是一个复杂的系统。 人物简介:韩冀中 博士,中国科学院计算技术研究所副研究员,研究生导师,长期从事并行分布式计算领域的科研工作。国内早期的Hadoop使用者之一,有丰富的相关应用开发经验。 研究方...
摘要:集群管理系统搭建规划说明分布式集群环境搭建是每个入门级新手都非常头疼的事情,因为你可能花费了很久的时间在搭建运行环境,最终却不知道什么原因无法创建成功。也是如此,它负责管理集群中的资源和任务调度,你也可以把它视为大数据操作系统。 hadoop集群管理系统搭建规划说明Hadoop分布式集群环境搭建是每个入门级新手都非常头疼的事情,因为你可能花费了很久的时间在搭建运行环境,最终却不知道什么...
摘要:如何根据数据冷热程度对存储系统进行优化是一个亟待解决的问题。纠删码传统数据采用三副本机制保证数据的可靠性,即每存储数据,实际在集群各节点上占用的数据达到,额外开销为。根据热度和规则,生成具体的任务。 陶捷中国移动苏州研发中心高级软件开发工程师目前负责中国移动大数据平台产品线CMH套件产品的研发,拥有丰富的Hadoop大数据平台研发和建设经验;开源Hadoop社区贡献者。曾任职于阿里巴巴,先后...
摘要:首先从各个数据源中提取数据,然后把各个数据源数据解析出来的可读数据上传云平台上。本文主要展示了如何利用和框架进行大规模的网络流的分析的方法,并列举了几个利用这种方法进行实际分析的实例以及和传统方法进行网络流分析的对比。 在网络流量的分析中,基于流的分析被大多数ISP所采用,分析系统一般部署在一台高配置的服务器中。如由CERT网络势态感知团队(CERT-NetSA)开发的用于大规模网络安全分析...
摘要:数据分析师原创作品身处世纪的今天,数据分析行业急剧发展,越来越多的企业已经意识到大数据分析的重要性和发展潜力,同时越来越多的传统行业公司开始转型升级,开始引入并发展专属自己的大数据分析部门及岗位。也是学习大数据的第一步。 showImg(https://segmentfault.com/img/bVbjO68?w=800&h=532);CDA数据分析师原创作品 身处21世纪的今天,数据...
阅读 1790·2021-11-22 14:44
阅读 2376·2021-11-19 09:40
阅读 1470·2021-11-02 14:46
阅读 3432·2021-10-13 09:40
阅读 2325·2021-09-07 09:58
阅读 1158·2021-09-03 10:28
阅读 1533·2019-08-29 15:30
阅读 863·2019-08-29 15:28