本实验主要包含四个阶段:
步骤1:环境准备与JDK安装。
登录服务器后,使用cat /etc/os-release查看系统版本,并通过ping aliyun.com测试网络连通性。接着下载OpenJDK 1.8安装包,解压后移动至/usr/java8目录。在用户配置文件中添加JAVA_HOME环境变量并更新PATH,执行source命令生效。最后输入java -version,若显示版本信息则说明JDK安装成功。
步骤2:Hadoop安装与基础配置。
使用wget命令下载Hadoop安装包,解压至/opt目录并重命名。通过修改配置文件设置HADOOP_HOME环境变量,将Hadoop的bin和sbin目录加入PATH。编辑hadoop-env.sh和yarn-env.sh文件,显式指定JAVA_HOME=/usr/java8,确保Hadoop能正确识别Java路径,运行hadoop version进行验证。
步骤3:伪分布式参数配置与免密登录。
编辑core-site.xml,配置hadoop.tmp.dir为/opt/hadoop/tmp,指定fs.defaultFS为hdfs://localhost:9000。修改hdfs-site.xml,设置dfs.replication为1,并定义NameNode和DataNode的存储目录。此外,生成SSH密钥对并将公钥写入authorized_keys文件,配置本地免密登录,以满足Hadoop启动脚本的要求。
步骤4:系统初始化、启动与验证。
执行hadoop namenode -format对HDFS进行格式化。在启动脚本头部添加root用户定义后,依次运行start-dfs.sh和start-yarn.sh。使用jps命令检查Java进程,确认包含NameNode、DataNode及ResourceManager等核心进程。最后,通过Web UI访问集群状态,并运行hadoop jar自带的WordCount示例程序,验证MapReduce作业的执行结果。
实验结果
成功在云环境下部署了Hadoop伪分布式环境。通过jps命令验证了NameNode、DataNode等进程正常运行,Web UI界面可正常访问集群状态。执行WordCount程序后,HDFS输出目录中准确生成了单词统计结果,数据读写与计算功能验证通过。
个人收获 通过本实验,深入理解了HDFS的主从架构及MapReduce的分布式计算原理。掌握了核心配置文件的参数含义及环境变量的配置技巧,学会了通过日志和Web界面排查故障。实践操作提升了在Linux环境下部署大数据平台的能力,为后续学习分布式系统打下坚实基础。
本文作者:Linxiong
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!