一、选择GPU服务器硬件

1、需求分析:首先根据需要的算力和内存量,选择合适的GPU。当前市场上以NVIDIA为主要供应商,典型的有GTX和RTX系列。

2、服务器选择:接下来需要选择一台可以容纳GPU的服务器。这一过程需要根据服务器大小、散热、扩展性等进行综合考虑。

3、装配GPU:在选好的服务器上,配备好GPU,注意GPU的插槽和电源连接。

二、安装GPU驱动

1、下载驱动:在官网上下载对应GPU型号的驱动程序,压缩文件。

wget https://us.download.nvidia.com/tesla/460.73.01/NVIDIA-Linux-x86_64-460.73.01.run

2、关闭X服务:驱动安装需要关闭X服务避免冲突。

systemctl stop lightdm.service

3、卸载现有驱动:如果存在旧的驱动,需要先卸载。

sudo apt-get remove --purge nvidia*

4、安装新驱动:在终端中进入驱动文件目录,执行安装命令。

chmod a+x NVIDIA-Linux-x86_64-460.73.01.run
sudo ./NVIDIA-Linux-x86_64-460.73.01.run

5、重启系统:驱动安装完成后,重新启动系统。

reboot

三、安装CUDA

1、下载CUDA:在官网上下载对应版本的CUDA压缩包。

wget https://developer.download.nvidia.com/compute/cuda/11.2.0/local_installers/cuda_11.2.0_460.27.04_linux.run

2、关闭X服务:安装CUDA前需要关闭X服务。

systemctl stop lightdm.service

3、安装CUDA:在终端中进入下载的CUDA文件目录,运行安装命令。

chmod +x cuda_11.2.0_460.27.04_linux.run
./cuda_11.2.0_460.27.04_linux.run

4、配置环境变量:安装完成后,需要配置环境变量,将路径加入环境变量中,方便执行CUDA程序。

echo 'export PATH=/usr/local/cuda-11.2/bin${PATH:+:${PATH}}' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda-11.2/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}' >> ~/.bashrc
source ~/.bashrc

四、安装Cudnn

1、下载Cudnn:在NVIDIA官网上下载对应版本的Cudnn。

wget https://developer.download.nvidia.cn/compute/redist/cudnn/v8.0.5/cudnn-11.2-linux-x64-v8.0.5.39.tgz

2、解压安装:进入Cudnn压缩包所在目录,解压并拷贝到CUDA文件夹安装目录中。

tar -zxvf cudnn-11.2-linux-x64-v8.0.5.39.tgz
sudo cp -P cuda/include/cudnn*.h /usr/local/cuda-11.2/include
sudo cp -P cuda/lib64/libcudnn* /usr/local/cuda-11.2/lib64
sudo chmod a+r /usr/local/cuda-11.2/include/cudnn*.h /usr/local/cuda-11.2/lib64/libcudnn*

五、配置Python虚拟环境

1、创建虚拟环境:使用virtualenv创建Python虚拟环境。

pip3 install virtualenv
virtualenv -p /usr/bin/python3.8 gpu_env

2、激活虚拟环境:进入虚拟环境的bin目录,执行activate命令。

cd gpu_env/bin
source activate

3、安装Python组件:使用pip安装需要的Python组件。

pip install tensorflow-gpu==2.4.0
pip install torch torchvision
pip install pandas matplotlib seaborn

六、跑通GPU程序

1、测试TensorFlow GPU环境:在激活的Python虚拟环境中,输入下面命令跑通TensorFlow的GPU环境。

python -c "import tensorflow as tf; tf.config.list_physical_devices('GPU')"

2、测试PyTorch GPU环境:在激活的Python虚拟环境中,输入下面命令跑通PyTorch的GPU环境。

python -c "import torch; torch.randn(1).cuda()"

七、总结

本文对GPU服务器搭建做了详细的阐述,主要包括硬件选择、GPU驱动安装、CUDA安装、Cudnn安装、Python虚拟环境配置和GPU程序跑通等步骤。读者可以根据自己的需要,参考本文搭建属于自己的GPU服务器。最后,希望本文能为大家提供帮助。