AB资源网(www.xxab.cn)服务器导航站-找服务器商就上AB资源网
百度360必应搜狗本站头条
【本站公告】:本站互助计划,欢迎有活动的服务器商免费投稿,免费收录,最新收录会在首页展示! - 站长QQ:6502567
当前位置:网站首页 > 技术文档 > 正文

Hadoop部署web服务器,轻松搭建大数据处理平台 (hadoop部署web服务器)

AB资源网 2023-09-19 18:59 4619 浏览 0 评论

在当今大数据时代,如何高效地存储、处理和分析数据是每个企业都需要面对的挑战。Hadoop是当今更流行的开源大数据处理平台之一,其分布式计算和数据处理能力使得其广受欢迎。本文将介绍如何使用。

Hadoop部署web服务器,轻松搭建大数据处理平台 (hadoop部署web服务器)

一、Hadoop简介

Hadoop是Apache基金会开发的一个开源框架,旨在处理大规模数据和分布式存储。它由两个核心部分组成:HDFS和MapReduce。HDFS(Hadoop分布式文件系统)用于存储大规模的数据,而MapReduce则用于处理数据。Hadoop还有许多其他的组件,如YARN(Yet Another Resource Negotiator)用于集群资源的管理,HBase用于非关系型数据库的存储等等。Hadoop的高扩展性和高容错性使得其成为了处理大数据的首选平台之一。

二、Hadoop的web服务器部署

1. 安装Java

在安装Hadoop之前,需要先安装Java。可以从Oracle官方网站或其他可靠渠道下载Java。安装完Java后,可以通过以下命令验证是否成功:

“`bash

java -version

“`

2. 下载和安装Hadoop

Hadoop可以从Apache官方网站或其他可靠渠道下载。下载完毕后,将其解压到一个目录中,例如:

“`bash

tar -xzvf hadoop-x.x.x.tar.gz -C /usr/local/

“`

Hadoop安装完成后,需要设置一些必要的环境变量,包括JAVA_HOME、HADOOP_HOME和PATH。配置方法如下:

“`bash

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

export HADOOP_HOME=/usr/local/hadoop-x.x.x

export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/in

“`

3. 修改Hadoop配置文件

进入$HADOOP_HOME/etc/hadoop目录,修改以下文件:

core-site.xml:

“`xml

fs.defaultFS

hdfs://localhost:9000

“`

hdfs-site.xml:

“`xml

dfs.replication

1

dfs.namenode.name.dir

/usr/local/hadoop-x.x.x/hadoop_data/hdfs/namenode

dfs.datanode.data.dir

/usr/local/hadoop-x.x.x/hadoop_data/hdfs/datanode

“`

mapred-site.xml:

“`xml

mapreduce.framework.name

yarn

“`

4. 启动Hadoop

输入以下命令启动Hadoop:

“`bash

start-dfs.sh

start-yarn.sh

“`

输入jps命令,可以看到以下进程已经启动:

“`bash

1100 ResourceManager

943 Jps

727 DataNode

581 NameNode

800 SecondaryNameNode

1042 NodeManager

“`

5. 部署web服务器

安装Tomcat作为web服务器,下载地址:https://tomcat.apache.org/download-80.cgi。下载完成后解压到一个目录中。修改$TOMCAT_HOME/conf/server.xml文件,添加以下内容:

“`xml

unpackWARs=”true” autoDeploy=”true”>

“`

6. 访问web服务器

启动Tomcat服务器:

“`bash

cd $TOMCAT_HOME/bin

./startup.sh

“`

访问http://localhost:8080/hadoop即可进入Hadoop的web界面,进行文件系统管理、作业管理以及集群管理等操作。

三、结语

通过以上步骤,我们已经成功地使用Hadoop搭建了web服务器,轻松搭建了一个大数据处理平台。当然,为了更好地利用Hadoop的分布式计算和数据处理能力,我们还需要深入了解Hadoop的其他组件,如YARN、HBase等等,以及如何编写MapReduce程序。只有这样,我们才能更大化地发挥Hadoop的威力,在海量的数据中发现商机和价值。

相关问题拓展阅读:

  • 哪些Hadoop版本支持WebHDFS?是不是Hadoop 1.0之后的都支持
  • Hadoop安装过程中常见问题

哪些Hadoop版本支持WebHDFS?是不是Hadoop 1.0之后的都支持

WebHDFS观盯粗念是基于HTTP操作,比如GET、PUT、POST和DELETE。像OPEN、GETFILESTATUS、LISTSTATUS的操作是使用HTTP GET,其它的像CREAT、凯悉镇MKDIRS、RENAME、SETPERMISSION是依赖于HTTP PUT类型。 APPEND操作时基于HTTP POST类型,然而,DELETE是使用HTTP DELETE。

在配置开源日志系统fluentd过程中,fluentd就是利用webHDFS和HDFS进行通信,配置好久没有通,最后发现Hadoop 0.20.2 不支持webHDFS!所以本陆余文中的hadoop版本是:hadoop-1.2.1

应该是吧!我0.20.2都用过的,可以的!

Hadoop安装过程中常见问题

一、启动namenode服务后,web页面依然无法访问

1、启动namenode服务,

指令:start-all.sh

”’

# start-all.sh

Starting namenodes on

Starting datanodes

Starting secondary namenodes

Starting resourcemanager

Starting nodemanagers

ERROR: Refusing to run as root: roo account is not found. Aborting.

”’

2、查看namenode服务是否启动,

”’

# jps

8130 Jps

7494 ResourceManager

6871 NameNode

7244 SecondaryNameNode

”’

3、查看后台监听端口

”’

# netstat -nltp |grep 6871

tcp 0 192.168.43.250:.0.0.0:*    LISTEN/java

tcp 0 0.0.0.0:.0.0.0:*    LISTEN     态态 6871/java   

”’

4、查看web是否可以访问,发现web页面无法访问

5、检查防火墙设置,可以看帆燃源到hadoop1服务器已经禁用了除本机外的其他多有服务访问,

# service iptables status

表格:filter

Chain INPUT (policy ACCEPT)

num  target    prot opt source destination

1    ACCEPT    all.0.0.0/.0.0.0/state RELATED,ESTABLISHED

2    ACCEPT    icmp —  0.0.0.0/.0.0.0/

3    ACCEPT    all.0.0.0/.0.0.0/

4    ACCEPT    tcp.0.0.0/.0.0.0/state NEW tcp dpt:22

5    REJECT    all.0.0.0/.0.0.0/段野reject-with icmp-host-prohibited

Chain FORWARD (policy ACCEPT)

num  target    prot opt source destination

1    REJECT    all.0.0.0/.0.0.0/reject-with icmp-host-prohibited

Chain OUTPUT (policy ACCEPT)

num  target    prot opt source destination

6、关闭防火墙,并把防火墙设置为开启不启动

centos6:

    关闭防火墙:service iptables stop

    设置开启不启动防火墙:chkconfig iptables off

centos7:

    关闭防火墙:systemctl stop firewalld.service

     设置开启不启动防火墙:systemctl disable firewalld.service

7、检查web已经可以正常显示

8、如果上面的操作依然无法访问的话,需要查看一下主机的hosts文件 是否有配置域名映射

二、开启datanode指令时出现waring

# hadoop-daemon.sh start datanode

WARNING: Use of this script to start HDFS daemons is deprecated.

WARNING: Attempting to execute replacement “hdfs –daemon start” instead.

主要是2.7版本的hadoop已经把hadoop命令改为hdfs命令了,所以尝试使用

指令:hdfs –daemon start datanode

”’

# hdfs –daemon start datanode

# jps

4064 Jps

4033 DataNode

2922 ResourceManager

”’

三、使用root配置的hadoop并启动会出现报错

错误:

Starting namenodes on

ERROR: Attempting to operate on hdfs namenode as root

ERROR: but there is no HDFS_NAMENODE_USER defined. Aborting operation.

Starting datanodes

ERROR: Attempting to operate on hdfs datanode as root

ERROR: but there is no HDFS_DATANODE_USER defined. Aborting operation.

Starting secondary namenodes

ERROR: Attempting to operate on hdfs secondarynamenode as root

ERROR: but there is no HDFS_SECONDARYNAMENODE_USER defined. Aborting operation.

原因分析:由于root没有start-dfs.sh和 stop-dfs.sh脚本的执行权限,在这两个脚本的开头加上如下参数,给root赋予执行权限即可:

HDFS_DATANODE_USER=root

HADOOP_SECURE_DN_USER=hdfs /* 后续版本这边需要修改为 HDFS_DATANODE_SECURE_USER=hdfs

HDFS_NAMENODE_USER=root

HDFS_SECONDARYNAMENODE_USER=root

start-yarn.sh,stop-yarn.sh顶部也需添加以下

YARN_RESOURCEMANAGER_USER=root

HADOOP_SECURE_DN_USER=yarn  /* 后续版本这边需要修改为 HDFS_DATANODE_SECURE_USER=hdfs

YARN_NODEMANAGER_USER=root

4、hdfs运行指令时出现warn警告提示:

:07:58,517 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable

该警告信息主要是由于是依赖库的问题

我们对静态库查看下依赖:看下依赖是否都正常:

通过指令 ldd libhadoop.so.1.0.0

”’

./libhadoop.so.1.0.0: /lib64/libc.so.6: version `GLIBC_2.14′ not found (required by ./libhadoop.so.1.0.0)

linux-vdso.so.1 =>  (0x00007fff369ff000)

libdl.so.2 => /lib64/libdl.so.2 (0x00007f3caa7ea000)

libc.so.6 => /lib64/libc.so.6 (0x00007f3caa455000)

/lib64/ld-linux-x86-64.so.2 (0x00007f3caac1b000)

”’

可以看到是glibc 版本的问题:

我们再确认下:

GLIBC_2.14找不到,现在检查系统的glibc库,  ldd –version  即可检查。

输入命令:

”’

ldd –version

ldd (GNU libc) 2.12

Copyright (C) 2023 Free Software Foundation, Inc.

This is free software; see the source for copying conditions.  There is NO

warranty; not even for MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.

Written by Roland McGrath and Ulrich Drepper.

”’

还可以直接确认下glibc 目前支持的版本:

通过如下查询方法:

”’

strings /lib64/libc.so.6|grep GLIBC

GLIBC_2.2.5

GLIBC_2.2.6

GLIBC_2.3

GLIBC_2.3.2

GLIBC_2.3.3

GLIBC_2.3.4

GLIBC_2.4

GLIBC_2.5

GLIBC_2.6

GLIBC_2.7

GLIBC_2.8

GLIBC_2.9

GLIBC_2.10

GLIBC_2.11

GLIBC_2.12

GLIBC_PRIVATE

”’

可以看到目前只支持到 2.12 

解决办法有两个

1、升级 glibc 库

2、屏蔽hadoop提示这个告警

直接在log4j日志中去除告警信息。在$HADOOP_HOME/etc/hadoop/log4j.properties文件中添加

hadoop部署web服务器的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于hadoop部署web服务器,Hadoop部署web服务器,轻松搭建大数据处理平台,哪些Hadoop版本支持WebHDFS?是不是Hadoop 1.0之后的都支持,Hadoop安装过程中常见问题的信息别忘了在本站进行查找喔。

腾讯云

相关推荐

云主机FTP软件:高效传输与安全管理的一站式解决方案

在云计算时代,云主机已成为企业和个人用户托管应用和存储数据的首选。为了方便文件传输,FTP(文件传输协议)软件在云主机环境中扮演着重要角色。本文将详细介绍如何在云主机上配置和使用FTP软件...

云主机FP:引领未来计算,解锁无限可能

云主机FP(FloatingPoint)是指在云计算环境中,针对浮点运算性能进行优化的虚拟机实例。浮点运算在科学计算、工程模拟、金融建模、图形处理等领域中占据重要地位,因此云主机FP的设计和配置...

云主机ECS:解锁企业数字化转型的新引擎,高效、安全、灵活的云计算解决方案

云主机ECS(ElasticComputeService)是阿里云提供的一种弹性计算服务,它允许用户在云端创建和管理虚拟机实例。ECS的核心优势在于其灵活性和可扩展性,能够满足各种规模和类型的业...

云主机D盘:解锁无限存储空间,轻松应对大数据挑战!

云主机是一种基于云计算技术的虚拟化服务器,它允许用户在云平台上创建、配置和管理虚拟机实例。在云主机中,磁盘分区是存储数据的关键部分,通常包括系统盘和数据盘。系统盘用于安装操作系统和运行应用...

云主机DNS解析:提升网站速度与稳定性的关键策略

云主机DNS(DomainNameSystem)是云计算环境中至关重要的一部分,它负责将域名转换为IP地址,从而使得用户能够通过易于记忆的域名访问云主机上的服务和应用。本文将深入探讨云主机DNS...

云主机C盘爆满?快速解决方法大揭秘,让你的服务器重获新生!

云主机C盘满了是一个常见但棘手的问题,尤其对于依赖云服务进行日常运营的企业和个人用户来说,这可能导致系统性能下降、应用程序崩溃,甚至数据丢失。本文将详细探讨云主机C盘满的原因、影响以及解决方法。...

云主机CPU选择指南:提升性能与效率的关键决策

在选择云主机的CPU时,用户需要考虑多个因素,以确保所选的CPU能够满足其应用的需求,同时优化成本效益。以下是一些关键点,帮助用户在云主机CPU选择过程中做出明智的决策。了解应用的性能需求...

云主机CPU性能大比拼:揭秘顶级云服务商的核心竞争力

云主机CPU是云计算环境中至关重要的组成部分,它直接影响着云服务的性能、稳定性和用户体验。CPU,即中央处理器,是计算机系统的核心,负责执行指令和处理数据。在云主机中,CPU的性能决定了虚...

云主机ASP:高效搭建动态网站,轻松实现业务扩展与性能优化

云主机ASP(ActiveServerPages)是一种在云环境中运行ASP应用程序的技术。ASP是一种由微软开发的动态网页技术,允许开发者使用VBScript或JScript等脚本语言编写服务...

云主机API:解锁无限可能,引领企业数字化转型新纪元

云主机API(ApplicationProgrammingInterface)是云计算服务提供商为用户提供的一种编程接口,允许开发者通过编程方式管理和操作云主机资源。这些API通常基于RESTf...

云主机99idc:高效稳定,轻松搭建您的专属云端空间,一键部署,畅享无限可能!

云主机99idc是一家专注于提供云计算服务的公司,其核心业务是为企业和个人用户提供高性能、高可靠性的云主机服务。随着数字化转型的加速,云计算已经成为企业IT基础设施的重要组成部分,而云主机99i...

云主机80端口:解锁无限可能,开启高效网络新时代!

云主机是一种基于云计算技术的虚拟化服务器,它通过互联网提供计算资源和服务。在云主机中,80端口是一个非常重要的端口,通常用于HTTP协议,即网页服务。本文将详细探讨云主机80端口的相关内容...

云主机403错误:解锁高效解决方案,提升网站性能与安全

云主机403错误是一个常见的网络问题,通常表示用户在尝试访问某个资源时被服务器拒绝。这种错误可能由多种原因引起,包括权限问题、配置错误、防火墙设置等。以下是关于云主机403错误的一些详细信...

云主机360:全方位云端解决方案,助力企业数字化转型无忧

云主机360是一种基于云计算技术的虚拟化服务器解决方案,它通过将物理服务器资源虚拟化,为用户提供灵活、高效、安全的计算服务。云主机360的核心优势在于其高度的可扩展性和弹性,用户可以根据业务需求...

云主机301:引领未来云计算的新纪元,高效稳定,助力企业数字化转型!

云主机301是一种常见的网络重定向状态码,通常用于指示用户请求的资源已被永久移动到新的URL。在云计算环境中,云主机301状态码的出现可能涉及到多种技术和管理策略,下面我们将详细探讨这一现象。...

取消回复欢迎 发表评论: