实验四 Hadoop分布式环境部署与基础操作实战

一、实验目的

理解Hadoop分布式文件系统（HDFS）和MapReduce计算框架的基本原理；
掌握在阿里云ECS/Alibaba Cloud Linux环境中安装JDK和Hadoop的完整流程；
掌握Hadoop伪分布式环境的配置方法，能够完成HDFS的初始化与启动；
理解Hadoop集群的核心配置文件及其作用，具备基本的Hadoop运维能力；
结合企业级大数据处理场景，培养分布式系统的实践操作能力。

二、实验内容

本实验主要包含四个阶段：

环境准备与JDK安装：配置系统环境、安全组，下载并安装配置OpenJDK 1.8。
Hadoop安装与环境配置：下载Hadoop安装包，解压至/opt目录并配置环境变量。
Hadoop伪分布式配置：修改core-site.xml和hdfs-site.xml核心配置，配置SSH免密登录。
启动Hadoop并验证：格式化NameNode，启动HDFS与YARN服务，通过Web UI及命令行验证，运行MapReduce示例程序。

三、实验步骤

步骤1：环境准备与JDK安装。 登录服务器后，使用cat /etc/os-release查看系统版本，并通过ping aliyun.com测试网络连通性。接着下载OpenJDK 1.8安装包，解压后移动至/usr/java8目录。在用户配置文件中添加JAVA_HOME环境变量并更新PATH，执行source命令生效。最后输入java -version，若显示版本信息则说明JDK安装成功。

步骤2：Hadoop安装与基础配置。 使用wget命令下载Hadoop安装包，解压至/opt目录并重命名。通过修改配置文件设置HADOOP_HOME环境变量，将Hadoop的bin和sbin目录加入PATH。编辑hadoop-env.sh和yarn-env.sh文件，显式指定JAVA_HOME=/usr/java8，确保Hadoop能正确识别Java路径，运行hadoop version进行验证。

步骤3：伪分布式参数配置与免密登录。 编辑core-site.xml，配置hadoop.tmp.dir为/opt/hadoop/tmp，指定fs.defaultFS为hdfs://localhost:9000。修改hdfs-site.xml，设置dfs.replication为1，并定义NameNode和DataNode的存储目录。此外，生成SSH密钥对并将公钥写入authorized_keys文件，配置本地免密登录，以满足Hadoop启动脚本的要求。

步骤4：系统初始化、启动与验证。 执行hadoop namenode -format对HDFS进行格式化。在启动脚本头部添加root用户定义后，依次运行start-dfs.sh和start-yarn.sh。使用jps命令检查Java进程，确认包含NameNode、DataNode及ResourceManager等核心进程。最后，通过Web UI访问集群状态，并运行hadoop jar自带的WordCount示例程序，验证MapReduce作业的执行结果。

四、实验分析

实验结果 成功在云环境下部署了Hadoop伪分布式环境。通过jps命令验证了NameNode、DataNode等进程正常运行，Web UI界面可正常访问集群状态。执行WordCount程序后，HDFS输出目录中准确生成了单词统计结果，数据读写与计算功能验证通过。

个人收获 通过本实验，深入理解了HDFS的主从架构及MapReduce的分布式计算原理。掌握了核心配置文件的参数含义及环境变量的配置技巧，学会了通过日志和Web界面排查故障。实践操作提升了在Linux环境下部署大数据平台的能力，为后续学习分布式系统打下坚实基础。