编辑
2026-06-05
云计算实验报告
00

目录

实验四 Hadoop分布式环境部署与基础操作实战
一、实验目的
二、实验内容
三、实验步骤
四、实验分析

实验四 Hadoop分布式环境部署与基础操作实战

一、实验目的

  1. 理解Hadoop分布式文件系统(HDFS)和MapReduce计算框架的基本原理;
  2. 掌握在阿里云ECS/Alibaba Cloud Linux环境中安装JDK和Hadoop的完整流程;
  3. 掌握Hadoop伪分布式环境的配置方法,能够完成HDFS的初始化与启动;
  4. 理解Hadoop集群的核心配置文件及其作用,具备基本的Hadoop运维能力;
  5. 结合企业级大数据处理场景,培养分布式系统的实践操作能力。

二、实验内容

本实验主要包含四个阶段:

  1. 环境准备与JDK安装:配置系统环境、安全组,下载并安装配置OpenJDK 1.8。
  2. Hadoop安装与环境配置:下载Hadoop安装包,解压至/opt目录并配置环境变量。
  3. Hadoop伪分布式配置:修改core-site.xml和hdfs-site.xml核心配置,配置SSH免密登录。
  4. 启动Hadoop并验证:格式化NameNode,启动HDFS与YARN服务,通过Web UI及命令行验证,运行MapReduce示例程序。

三、实验步骤

步骤1:环境准备与JDK安装。 登录服务器后,使用cat /etc/os-release查看系统版本,并通过ping aliyun.com测试网络连通性。接着下载OpenJDK 1.8安装包,解压后移动至/usr/java8目录。在用户配置文件中添加JAVA_HOME环境变量并更新PATH,执行source命令生效。最后输入java -version,若显示版本信息则说明JDK安装成功。

步骤2:Hadoop安装与基础配置。 使用wget命令下载Hadoop安装包,解压至/opt目录并重命名。通过修改配置文件设置HADOOP_HOME环境变量,将Hadoop的binsbin目录加入PATH。编辑hadoop-env.shyarn-env.sh文件,显式指定JAVA_HOME=/usr/java8,确保Hadoop能正确识别Java路径,运行hadoop version进行验证。

步骤3:伪分布式参数配置与免密登录。 编辑core-site.xml,配置hadoop.tmp.dir/opt/hadoop/tmp,指定fs.defaultFShdfs://localhost:9000。修改hdfs-site.xml,设置dfs.replication为1,并定义NameNode和DataNode的存储目录。此外,生成SSH密钥对并将公钥写入authorized_keys文件,配置本地免密登录,以满足Hadoop启动脚本的要求。

步骤4:系统初始化、启动与验证。 执行hadoop namenode -format对HDFS进行格式化。在启动脚本头部添加root用户定义后,依次运行start-dfs.shstart-yarn.sh。使用jps命令检查Java进程,确认包含NameNode、DataNode及ResourceManager等核心进程。最后,通过Web UI访问集群状态,并运行hadoop jar自带的WordCount示例程序,验证MapReduce作业的执行结果。

四、实验分析

实验结果 成功在云环境下部署了Hadoop伪分布式环境。通过jps命令验证了NameNode、DataNode等进程正常运行,Web UI界面可正常访问集群状态。执行WordCount程序后,HDFS输出目录中准确生成了单词统计结果,数据读写与计算功能验证通过。

个人收获 通过本实验,深入理解了HDFS的主从架构及MapReduce的分布式计算原理。掌握了核心配置文件的参数含义及环境变量的配置技巧,学会了通过日志和Web界面排查故障。实践操作提升了在Linux环境下部署大数据平台的能力,为后续学习分布式系统打下坚实基础。

本文作者:Linxiong

本文链接:

版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!