如何部署hadoop集群 (一)

让我们通过vmware虚拟机来简单部署hadoop3.x集群

Posted by Byolio on February 23, 2025

本文主要介绍了如何布置hadoop3.x集群所需虚拟机的过程

什么是hadoop

Hadoop是由Apache基金会开发的开源分布式计算框架,用于处理大规模数据集的存储和分析。它是一个可靠、可扩展的分布式计算生态系统,能够让用户使用简单的编程模型在由多台计算机组成的集群上处理海量数据, 是大数据的核心组件之一。

为什么要部署hadoop集群

在大数据时代,数据量呈指数级增长,传统的单机处理方式已经无法满足需求。Hadoop集群可以将数据分散存储在多台计算机上,通过并行计算的方式来处理海量数据,从而提高数据处理的效率和速度。

部署hadoop集群需要准备什么

  1. vmware17.5及以上, 不建议安装17.x其他版本, 因为其他版本vmware官方警告存在usb安全漏洞
  2. jdk以及与其版本相适应的hadooop3.x版本
  3. centos7的iso镜像文件
  4. 因为本blog将会建4台虚拟机组建集群, 因此内存建议至少在16G以上, 使用SSD硬盘并建议剩余空间在160G以上, 以及16核心的CPU(每台4G以上内存, 40G以上存储, 4核心以上)
  5. 一定的linux知识储备

部署hadoop集群

以下为如何在vmware虚拟机中部署hadoop3.x集群(请先确保你已经安装好vmware17.5及以上版本):

1. 配置centos系统

点开vmware, 点击创建新的虚拟机, 选择自定义高级模式 -> 对应的vmware版本 -> 稍后安装操作系统 -> 选择linux, 版本选择Red Hat Enterprise Linux 7 64位(centos7.x) -> 设置接下来的安装名称, 位置, 核心数, 内存大小, 网络类型NAT, 存储大小并选择多文件存储及其位置(硬盘选择scsi控制器和scsi硬盘), 点击完成即可。 然后打开虚拟机属性, 选择CD/DVD, 选择使用ISO映像文件, 选择你下载好的centos7的iso镜像文件, 并确保网络适配器的网络链接模式使用的是NAT, 然后点击确定即可。

2. 安装centos系统

将虚拟机开机, 选择语言, 键盘布局后进入安装界面, 进行软件选择, 选择最小安装(无界面)或GNOME桌面(有界面, 建议初学者选择), 然后点击确定

  • 注: 如果选择GNOME桌面, 可以选择兼容性程序库, 传统X Windows系统的兼容性, 开发工具等

点开安装位置, 选择我要配置分区点击完成, 然后添加硬盘个分区大小, 点击完成

  • 注: 应将/boot分区大小设置为1G以上, 文件系统选择ext4, swap分区大小设置为2G以上, 文件系统选择swap, /分区大小设置为剩余空间大小, 文件系统内选择ext4

配置主机名等信息后点击开始安装 \

  • 注: 如果你的内存比较小的话在学习过程中可以关闭kdump用于节省一部分内存 设置root密码后和用户及其密码后, 等待安装重启后同意license完成centos系统安装

3. 配置VMware的NAT网络模式

点击vmware上的编辑按件, 点击虚拟网络编辑器, 点击更改配置 -> 添加网络, 选择vmnet8, 选择NAT模式, 可以对NAT网关进行修改, 然后点击确定即可。

4. 配置主机名和静态地址

4.1 配置主机名

1
vim /etc/hostname

将文件中的内容修改为你想要的主机名, 然后保存并退出

4.2 配置静态地址

1
vim /etc/sysconfig/network-scripts/ifcfg-ens33

将文件中的内容中的BOOTPROTO修改为static, 然后将IPADDR修改为你想要的IP地址, 添加子网掩码NETMASK并修改为255.255.255.0, 添加网关GATEWAY并修改为vmware虚拟网络编辑器中NAT的网关, 添加DNS1并修改为你想要的DNS服务器(如谷歌服务器: 8.8.8.8), 其他的保存不变然后保存并退出

  • 注 : IPADDR和GATEWAY的IP地址必须在vmware虚拟网络编辑器中NAT的网关的IP地址所在网段内才可以, 且IPADDR和GATEWAY的IP地址不能与windows主机所在网段下的IP地址冲突。

FAQ

为什么网络类型要选择NAT

NAT全称NETWORK ADDRESS TRANSLATION, 即网络地址转换, 是一种将私有IP地址转换为公有IP地址的技术, 可以实现不同网络之间的通信。在如今IPV4地址枯竭的情况下, NAT技术可以有效地解决IP地址不足的问题, 并为用户提供更加稳定的网络连接。
NAT在虚拟机使用情况下可以转换windows和虚拟机的IP地址在同一个网段下, 从而实现windows的访问和虚拟机之间的通信, 且不会与windows主机所在网段下的IP地址冲突, 也不会对windows的网络造成影响。

如何安装和使用vim编辑器

vim是一种强大的文本编辑器, 可以通过以下命令进行下载:

1
yum install vim

在指令模式下输入i可以进入编辑模式, 输入esc可以退出编辑模式, 输入:wq可以保存并退出vim编辑器。

总结

本文主要介绍了如何布置hadoop3.x集群所需虚拟机的过程, 希望能对你有所帮助。