上一篇介绍了如何使用ssh。
【深度学习】谷歌云GPU服务器创建与使用指南(二)_星辰大漠-CSDN博客
本篇主要介绍:在服务器中安装显卡驱动及配置深度学习框架。
服务器与本地主机的区别(待补充)
在配置本地Linux系统(比如ubuntu)主机的深度学习框架时,显卡驱动的安装按照提示一步一步进行即可。但是,在给服务器安装GPU驱动时,就要考虑到显卡驱动中的显示驱动不能安装,因为服务器预装的系统中没有X桌面(GUI),这点一定要注意。
配置环境
1)安装NVIDIA驱动
显卡驱动下载官网地址:/Download/index.aspx?lang=en-us
参考下图,CUDA版本一定要选择“8.0”!!!因为TensorFlow官网要求cuda版本为8.0,虽然有写支持9.0,但是实测暂时不支持
新建一个文件夹,存放需要下载的驱动文件
sudo mkdir /home/downloads
点search后点下载,按照下图操作复制链接
链接形式如下:
http://cn./tesla/384.66/nvidia-diag-driver-local-repo-ubuntu1604-384.66_1.0-1_amd64.deb
输入如下命令下载并重命名驱动文件
sudo wget -O driver-384.deb <span style="color:rgb(0,0,0);">http://cn./tesla/384.66/nvidia-diag-driver-local-repo-ubuntu1604-384.66_1.0-1_amd64.deb</span>
按照官网“其他”中介绍的安装方式安装
2)安装CUDA toolkit
这里就有小坑了,CUDA版本要在下面“legacy releases”中选择8.0版本
win 版本:/compute/cuda/9.0/Prod/local_installers/cuda_9.0.176_win10-exe
Linuxubuntu16.04版本:(可能会变动)/compute/cuda/9.0/Prod/local_installers/cuda-repo-ubuntu1604-9-0-local_9.0.176-1_amd64-deb
下面这两个用哪个都可以
然后按照下图选择类型,最后按照安装介绍安装。
在安装时,会遇到如下提示,我们不安装显示驱动,所以一定要选“n”
Install NVIDIAAccelerated Graphics Driver for Linux-x86_64 387.26?
(y)es/(n)o/(q)uit:n
最后显示如下内容,代表CUDA安装成功
3)安装CUDNN
在官网下载cudnn-8.0-linux-x64-v5.1.tgz/rdp/cudnn-download
需要注册登录才可以下载,下载完同样上传到自己home下面,解压:
tar -xvzf cudnn-8.0-linux-x64-v5.1.tgz
解压后是一个cuda文件夹
cd cuda
sudo cp include/cudnn.h /usr/local/cuda/include
sudo cp lib64/libcudnn.* /usr/local/cuda/lib64
sudo vi /etc/profile
export PATH=/usr/local/cuda-8.0/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-8.0/lib64:$LD_LIBRARY_PATH
source /etc/profile 使更改生效。nvcc -V 检查CUDA
下面 4)5)步可以参考TensorFlow官网安装教程:
/install/install_linux#installing_with_anaconda
4)安装anaconda
5)安装TensorFlow
云服务器搭载业务,选择合适的平台最重要!
从目前国内云计算市场的格局来看,国内云计算前三强分别是阿里云、腾讯云和华为云,阿里云、腾讯云作为背靠互联网平台的企业,更偏向于B端用户;华为与作为传统的通信巨头,更偏向于G端。
当然如何选择服务器机型,这里有篇文档汇总的比较详细,文档地址:
云服务器哪家好!阿里云、腾讯云、华为云的服务器配置及价格对比?
如果是高并发,高IO业务场景,需要确定服务器规格,可让业务应用性能发挥到最佳,参考官方文档:
阿里云服务器规格:规格实例族 - 云服务器 ECS
腾讯云服务器规格:规格实例族 - 云服务器CVM