Hadoop部署web服务器,轻松搭建大数据处理平台 (hadoop部署web服务器)
AB资源网 2023-09-19 18:59 4619 浏览 0 评论
在当今大数据时代,如何高效地存储、处理和分析数据是每个企业都需要面对的挑战。Hadoop是当今更流行的开源大数据处理平台之一,其分布式计算和数据处理能力使得其广受欢迎。本文将介绍如何使用。

一、Hadoop简介
Hadoop是Apache基金会开发的一个开源框架,旨在处理大规模数据和分布式存储。它由两个核心部分组成:HDFS和MapReduce。HDFS(Hadoop分布式文件系统)用于存储大规模的数据,而MapReduce则用于处理数据。Hadoop还有许多其他的组件,如YARN(Yet Another Resource Negotiator)用于集群资源的管理,HBase用于非关系型数据库的存储等等。Hadoop的高扩展性和高容错性使得其成为了处理大数据的首选平台之一。
二、Hadoop的web服务器部署
1. 安装Java
在安装Hadoop之前,需要先安装Java。可以从Oracle官方网站或其他可靠渠道下载Java。安装完Java后,可以通过以下命令验证是否成功:
“`bash
java -version
“`
2. 下载和安装Hadoop
Hadoop可以从Apache官方网站或其他可靠渠道下载。下载完毕后,将其解压到一个目录中,例如:
“`bash
tar -xzvf hadoop-x.x.x.tar.gz -C /usr/local/
“`
Hadoop安装完成后,需要设置一些必要的环境变量,包括JAVA_HOME、HADOOP_HOME和PATH。配置方法如下:
“`bash
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export HADOOP_HOME=/usr/local/hadoop-x.x.x
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/in
“`
3. 修改Hadoop配置文件
进入$HADOOP_HOME/etc/hadoop目录,修改以下文件:
core-site.xml:
“`xml
fs.defaultFS
hdfs://localhost:9000
“`
hdfs-site.xml:
“`xml
dfs.replication
1
dfs.namenode.name.dir
/usr/local/hadoop-x.x.x/hadoop_data/hdfs/namenode
dfs.datanode.data.dir
/usr/local/hadoop-x.x.x/hadoop_data/hdfs/datanode
“`
mapred-site.xml:
“`xml
mapreduce.framework.name
yarn
“`
4. 启动Hadoop
输入以下命令启动Hadoop:
“`bash
start-dfs.sh
start-yarn.sh
“`
输入jps命令,可以看到以下进程已经启动:
“`bash
1100 ResourceManager
943 Jps
727 DataNode
581 NameNode
800 SecondaryNameNode
1042 NodeManager
“`
5. 部署web服务器
安装Tomcat作为web服务器,下载地址:https://tomcat.apache.org/download-80.cgi。下载完成后解压到一个目录中。修改$TOMCAT_HOME/conf/server.xml文件,添加以下内容:
“`xml
unpackWARs=”true” autoDeploy=”true”>
“`
6. 访问web服务器
启动Tomcat服务器:
“`bash
cd $TOMCAT_HOME/bin
./startup.sh
“`
访问http://localhost:8080/hadoop即可进入Hadoop的web界面,进行文件系统管理、作业管理以及集群管理等操作。
三、结语
通过以上步骤,我们已经成功地使用Hadoop搭建了web服务器,轻松搭建了一个大数据处理平台。当然,为了更好地利用Hadoop的分布式计算和数据处理能力,我们还需要深入了解Hadoop的其他组件,如YARN、HBase等等,以及如何编写MapReduce程序。只有这样,我们才能更大化地发挥Hadoop的威力,在海量的数据中发现商机和价值。
相关问题拓展阅读:
- 哪些Hadoop版本支持WebHDFS?是不是Hadoop 1.0之后的都支持
- Hadoop安装过程中常见问题
哪些Hadoop版本支持WebHDFS?是不是Hadoop 1.0之后的都支持
WebHDFS观盯粗念是基于HTTP操作,比如GET、PUT、POST和DELETE。像OPEN、GETFILESTATUS、LISTSTATUS的操作是使用HTTP GET,其它的像CREAT、凯悉镇MKDIRS、RENAME、SETPERMISSION是依赖于HTTP PUT类型。 APPEND操作时基于HTTP POST类型,然而,DELETE是使用HTTP DELETE。
在配置开源日志系统fluentd过程中,fluentd就是利用webHDFS和HDFS进行通信,配置好久没有通,最后发现Hadoop 0.20.2 不支持webHDFS!所以本陆余文中的hadoop版本是:hadoop-1.2.1
应该是吧!我0.20.2都用过的,可以的!
Hadoop安装过程中常见问题
一、启动namenode服务后,web页面依然无法访问
1、启动namenode服务,
指令:start-all.sh
”’
# start-all.sh
Starting namenodes on
Starting datanodes
Starting secondary namenodes
Starting resourcemanager
Starting nodemanagers
ERROR: Refusing to run as root: roo account is not found. Aborting.
”’
2、查看namenode服务是否启动,
”’
# jps
8130 Jps
7494 ResourceManager
6871 NameNode
7244 SecondaryNameNode
”’
3、查看后台监听端口
”’
# netstat -nltp |grep 6871
tcp 0 192.168.43.250:.0.0.0:* LISTEN/java
tcp 0 0.0.0.0:.0.0.0:* LISTEN 态态 6871/java
”’
4、查看web是否可以访问,发现web页面无法访问
5、检查防火墙设置,可以看帆燃源到hadoop1服务器已经禁用了除本机外的其他多有服务访问,
# service iptables status
表格:filter
Chain INPUT (policy ACCEPT)
num target prot opt source destination
1 ACCEPT all.0.0.0/.0.0.0/state RELATED,ESTABLISHED
2 ACCEPT icmp — 0.0.0.0/.0.0.0/
3 ACCEPT all.0.0.0/.0.0.0/
4 ACCEPT tcp.0.0.0/.0.0.0/state NEW tcp dpt:22
5 REJECT all.0.0.0/.0.0.0/段野reject-with icmp-host-prohibited
Chain FORWARD (policy ACCEPT)
num target prot opt source destination
1 REJECT all.0.0.0/.0.0.0/reject-with icmp-host-prohibited
Chain OUTPUT (policy ACCEPT)
num target prot opt source destination
6、关闭防火墙,并把防火墙设置为开启不启动
centos6:
关闭防火墙:service iptables stop
设置开启不启动防火墙:chkconfig iptables off
centos7:
关闭防火墙:systemctl stop firewalld.service
设置开启不启动防火墙:systemctl disable firewalld.service
7、检查web已经可以正常显示
8、如果上面的操作依然无法访问的话,需要查看一下主机的hosts文件 是否有配置域名映射
二、开启datanode指令时出现waring
# hadoop-daemon.sh start datanode
WARNING: Use of this script to start HDFS daemons is deprecated.
WARNING: Attempting to execute replacement “hdfs –daemon start” instead.
主要是2.7版本的hadoop已经把hadoop命令改为hdfs命令了,所以尝试使用
指令:hdfs –daemon start datanode
”’
# hdfs –daemon start datanode
# jps
4064 Jps
4033 DataNode
2922 ResourceManager
”’
三、使用root配置的hadoop并启动会出现报错
错误:
Starting namenodes on
ERROR: Attempting to operate on hdfs namenode as root
ERROR: but there is no HDFS_NAMENODE_USER defined. Aborting operation.
Starting datanodes
ERROR: Attempting to operate on hdfs datanode as root
ERROR: but there is no HDFS_DATANODE_USER defined. Aborting operation.
Starting secondary namenodes
ERROR: Attempting to operate on hdfs secondarynamenode as root
ERROR: but there is no HDFS_SECONDARYNAMENODE_USER defined. Aborting operation.
原因分析:由于root没有start-dfs.sh和 stop-dfs.sh脚本的执行权限,在这两个脚本的开头加上如下参数,给root赋予执行权限即可:
HDFS_DATANODE_USER=root
HADOOP_SECURE_DN_USER=hdfs /* 后续版本这边需要修改为 HDFS_DATANODE_SECURE_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root
start-yarn.sh,stop-yarn.sh顶部也需添加以下
YARN_RESOURCEMANAGER_USER=root
HADOOP_SECURE_DN_USER=yarn /* 后续版本这边需要修改为 HDFS_DATANODE_SECURE_USER=hdfs
YARN_NODEMANAGER_USER=root
4、hdfs运行指令时出现warn警告提示:
:07:58,517 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable
该警告信息主要是由于是依赖库的问题
我们对静态库查看下依赖:看下依赖是否都正常:
通过指令 ldd libhadoop.so.1.0.0
”’
./libhadoop.so.1.0.0: /lib64/libc.so.6: version `GLIBC_2.14′ not found (required by ./libhadoop.so.1.0.0)
linux-vdso.so.1 => (0x00007fff369ff000)
libdl.so.2 => /lib64/libdl.so.2 (0x00007f3caa7ea000)
libc.so.6 => /lib64/libc.so.6 (0x00007f3caa455000)
/lib64/ld-linux-x86-64.so.2 (0x00007f3caac1b000)
”’
可以看到是glibc 版本的问题:
我们再确认下:
GLIBC_2.14找不到,现在检查系统的glibc库, ldd –version 即可检查。
输入命令:
”’
ldd –version
ldd (GNU libc) 2.12
Copyright (C) 2023 Free Software Foundation, Inc.
This is free software; see the source for copying conditions. There is NO
warranty; not even for MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.
Written by Roland McGrath and Ulrich Drepper.
”’
还可以直接确认下glibc 目前支持的版本:
通过如下查询方法:
”’
strings /lib64/libc.so.6|grep GLIBC
GLIBC_2.2.5
GLIBC_2.2.6
GLIBC_2.3
GLIBC_2.3.2
GLIBC_2.3.3
GLIBC_2.3.4
GLIBC_2.4
GLIBC_2.5
GLIBC_2.6
GLIBC_2.7
GLIBC_2.8
GLIBC_2.9
GLIBC_2.10
GLIBC_2.11
GLIBC_2.12
GLIBC_PRIVATE
”’
可以看到目前只支持到 2.12
解决办法有两个
1、升级 glibc 库
2、屏蔽hadoop提示这个告警
直接在log4j日志中去除告警信息。在$HADOOP_HOME/etc/hadoop/log4j.properties文件中添加
hadoop部署web服务器的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于hadoop部署web服务器,Hadoop部署web服务器,轻松搭建大数据处理平台,哪些Hadoop版本支持WebHDFS?是不是Hadoop 1.0之后的都支持,Hadoop安装过程中常见问题的信息别忘了在本站进行查找喔。
相关推荐
- 云主机FTP软件:高效传输与安全管理的一站式解决方案
-
在云计算时代,云主机已成为企业和个人用户托管应用和存储数据的首选。为了方便文件传输,FTP(文件传输协议)软件在云主机环境中扮演着重要角色。本文将详细介绍如何在云主机上配置和使用FTP软件...
- 云主机FP:引领未来计算,解锁无限可能
-
云主机FP(FloatingPoint)是指在云计算环境中,针对浮点运算性能进行优化的虚拟机实例。浮点运算在科学计算、工程模拟、金融建模、图形处理等领域中占据重要地位,因此云主机FP的设计和配置...
- 云主机ECS:解锁企业数字化转型的新引擎,高效、安全、灵活的云计算解决方案
-
云主机ECS(ElasticComputeService)是阿里云提供的一种弹性计算服务,它允许用户在云端创建和管理虚拟机实例。ECS的核心优势在于其灵活性和可扩展性,能够满足各种规模和类型的业...
- 云主机D盘:解锁无限存储空间,轻松应对大数据挑战!
-
云主机是一种基于云计算技术的虚拟化服务器,它允许用户在云平台上创建、配置和管理虚拟机实例。在云主机中,磁盘分区是存储数据的关键部分,通常包括系统盘和数据盘。系统盘用于安装操作系统和运行应用...
- 云主机DNS解析:提升网站速度与稳定性的关键策略
-
云主机DNS(DomainNameSystem)是云计算环境中至关重要的一部分,它负责将域名转换为IP地址,从而使得用户能够通过易于记忆的域名访问云主机上的服务和应用。本文将深入探讨云主机DNS...
- 云主机C盘爆满?快速解决方法大揭秘,让你的服务器重获新生!
-
云主机C盘满了是一个常见但棘手的问题,尤其对于依赖云服务进行日常运营的企业和个人用户来说,这可能导致系统性能下降、应用程序崩溃,甚至数据丢失。本文将详细探讨云主机C盘满的原因、影响以及解决方法。...
- 云主机CPU选择指南:提升性能与效率的关键决策
-
在选择云主机的CPU时,用户需要考虑多个因素,以确保所选的CPU能够满足其应用的需求,同时优化成本效益。以下是一些关键点,帮助用户在云主机CPU选择过程中做出明智的决策。了解应用的性能需求...
- 云主机CPU性能大比拼:揭秘顶级云服务商的核心竞争力
-
云主机CPU是云计算环境中至关重要的组成部分,它直接影响着云服务的性能、稳定性和用户体验。CPU,即中央处理器,是计算机系统的核心,负责执行指令和处理数据。在云主机中,CPU的性能决定了虚...
- 云主机ASP:高效搭建动态网站,轻松实现业务扩展与性能优化
-
云主机ASP(ActiveServerPages)是一种在云环境中运行ASP应用程序的技术。ASP是一种由微软开发的动态网页技术,允许开发者使用VBScript或JScript等脚本语言编写服务...
- 云主机API:解锁无限可能,引领企业数字化转型新纪元
-
云主机API(ApplicationProgrammingInterface)是云计算服务提供商为用户提供的一种编程接口,允许开发者通过编程方式管理和操作云主机资源。这些API通常基于RESTf...
- 云主机99idc:高效稳定,轻松搭建您的专属云端空间,一键部署,畅享无限可能!
-
云主机99idc是一家专注于提供云计算服务的公司,其核心业务是为企业和个人用户提供高性能、高可靠性的云主机服务。随着数字化转型的加速,云计算已经成为企业IT基础设施的重要组成部分,而云主机99i...
- 云主机80端口:解锁无限可能,开启高效网络新时代!
-
云主机是一种基于云计算技术的虚拟化服务器,它通过互联网提供计算资源和服务。在云主机中,80端口是一个非常重要的端口,通常用于HTTP协议,即网页服务。本文将详细探讨云主机80端口的相关内容...
- 云主机403错误:解锁高效解决方案,提升网站性能与安全
-
云主机403错误是一个常见的网络问题,通常表示用户在尝试访问某个资源时被服务器拒绝。这种错误可能由多种原因引起,包括权限问题、配置错误、防火墙设置等。以下是关于云主机403错误的一些详细信...
- 云主机360:全方位云端解决方案,助力企业数字化转型无忧
-
云主机360是一种基于云计算技术的虚拟化服务器解决方案,它通过将物理服务器资源虚拟化,为用户提供灵活、高效、安全的计算服务。云主机360的核心优势在于其高度的可扩展性和弹性,用户可以根据业务需求...
- 云主机301:引领未来云计算的新纪元,高效稳定,助力企业数字化转型!
-
云主机301是一种常见的网络重定向状态码,通常用于指示用户请求的资源已被永久移动到新的URL。在云计算环境中,云主机301状态码的出现可能涉及到多种技术和管理策略,下面我们将详细探讨这一现象。...
你 发表评论:
欢迎- 一周热门
-
-
HostYun廉价洛杉矶三网回程CN2 GIA云服务器内测13元/月起(美国原生IP,去程10Gbps防御)
-
大网数据:双12秒杀聚惠,湖北100G高防云低至0元/月,湖北独服务器低至210元、200G高防+50Mbps带宽
-
HostYun洛杉矶大硬盘云服务器9折22.5元/月起(240G-500G硬盘/1Gbps/10G防御)
-
樊云香港双程CN2及洛杉矶50G高防三网CN2 GIA云服务器9折22.5元/月起
-
大网数据、湖北高防云服务器低至39元/月起、湖北高防独服务器低至245元起(200G硬防、金盾+傲盾防CC)
-
spinservers圣何塞/达拉斯10Gbps带宽高配服务器月付89美元起
-
tmhhost美国高防云服务器8折_CeRaNetworks机房/三网cn2直连/适合建站
-
高防服务器大网数据湖北独服务器低至210元、200G高防+50Mbps带宽
-
DogYun新上韩国独立服务器,E5/SSD+NVMe优惠后300元/月,自动化上架
-
初忆云 – 2020年中云聚惠全场五折 BGP云服务器低至88/年,抓紧上车
-
- 互动交流
- 标签列表
- 最新评论
-
您的文章条理清晰,论述有据,说服力强。您的文章情感真挚,能够触动人心,引起共鸣。https://www.renhehui.com/renhehui/1479.h
沉醉于月色 评论于:08-09虚拟机部署好后跟物理机一样当服务器的,只是它依赖了本地物理机不要关机为前提。对于外网访问内网场景,本地内网搭建服务器后需要提供到互联网上连接访问的,比较简便的
访客 评论于:03-01刘中宜 评论于:11-01
访客 评论于:06-03
AB资源网 评论于:05-08
AB资源网 评论于:11-22
AB资源网 评论于:11-22
頹廢了悲伤 评论于:11-15
南风知我意 评论于:11-15
心若冰凝 评论于:11-15