一、选择GPU服务器硬件
1、需求分析:首先根据需要的算力和内存量,选择合适的GPU。当前市场上以NVIDIA为主要供应商,典型的有GTX和RTX系列。
2、服务器选择:接下来需要选择一台可以容纳GPU的服务器。这一过程需要根据服务器大小、散热、扩展性等进行综合考虑。
3、装配GPU:在选好的服务器上,配备好GPU,注意GPU的插槽和电源连接。
二、安装GPU驱动
1、下载驱动:在官网上下载对应GPU型号的驱动程序,压缩文件。
wget https://us.download.nvidia.com/tesla/460.73.01/NVIDIA-Linux-x86_64-460.73.01.run
2、关闭X服务:驱动安装需要关闭X服务避免冲突。
systemctl stop lightdm.service
3、卸载现有驱动:如果存在旧的驱动,需要先卸载。
sudo apt-get remove --purge nvidia*
4、安装新驱动:在终端中进入驱动文件目录,执行安装命令。
chmod a+x NVIDIA-Linux-x86_64-460.73.01.run sudo ./NVIDIA-Linux-x86_64-460.73.01.run
5、重启系统:驱动安装完成后,重新启动系统。
reboot
三、安装CUDA
1、下载CUDA:在官网上下载对应版本的CUDA压缩包。
wget https://developer.download.nvidia.com/compute/cuda/11.2.0/local_installers/cuda_11.2.0_460.27.04_linux.run
2、关闭X服务:安装CUDA前需要关闭X服务。
systemctl stop lightdm.service
3、安装CUDA:在终端中进入下载的CUDA文件目录,运行安装命令。
chmod +x cuda_11.2.0_460.27.04_linux.run ./cuda_11.2.0_460.27.04_linux.run
4、配置环境变量:安装完成后,需要配置环境变量,将路径加入环境变量中,方便执行CUDA程序。
echo 'export PATH=/usr/local/cuda-11.2/bin${PATH:+:${PATH}}' >> ~/.bashrc echo 'export LD_LIBRARY_PATH=/usr/local/cuda-11.2/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}' >> ~/.bashrc source ~/.bashrc
四、安装Cudnn
1、下载Cudnn:在NVIDIA官网上下载对应版本的Cudnn。
wget https://developer.download.nvidia.cn/compute/redist/cudnn/v8.0.5/cudnn-11.2-linux-x64-v8.0.5.39.tgz
2、解压安装:进入Cudnn压缩包所在目录,解压并拷贝到CUDA文件夹安装目录中。
tar -zxvf cudnn-11.2-linux-x64-v8.0.5.39.tgz sudo cp -P cuda/include/cudnn*.h /usr/local/cuda-11.2/include sudo cp -P cuda/lib64/libcudnn* /usr/local/cuda-11.2/lib64 sudo chmod a+r /usr/local/cuda-11.2/include/cudnn*.h /usr/local/cuda-11.2/lib64/libcudnn*
五、配置Python虚拟环境
1、创建虚拟环境:使用virtualenv创建Python虚拟环境。
pip3 install virtualenv virtualenv -p /usr/bin/python3.8 gpu_env
2、激活虚拟环境:进入虚拟环境的bin目录,执行activate命令。
cd gpu_env/bin source activate
3、安装Python组件:使用pip安装需要的Python组件。
pip install tensorflow-gpu==2.4.0 pip install torch torchvision pip install pandas matplotlib seaborn
六、跑通GPU程序
1、测试TensorFlow GPU环境:在激活的Python虚拟环境中,输入下面命令跑通TensorFlow的GPU环境。
python -c "import tensorflow as tf; tf.config.list_physical_devices('GPU')"
2、测试PyTorch GPU环境:在激活的Python虚拟环境中,输入下面命令跑通PyTorch的GPU环境。
python -c "import torch; torch.randn(1).cuda()"
七、总结
本文对GPU服务器搭建做了详细的阐述,主要包括硬件选择、GPU驱动安装、CUDA安装、Cudnn安装、Python虚拟环境配置和GPU程序跑通等步骤。读者可以根据自己的需要,参考本文搭建属于自己的GPU服务器。最后,希望本文能为大家提供帮助。
最新评论