一.显卡驱动安装
硬件状况:nvidia 1080Ti显卡
系统:centos7.6.1810
需要的环境:可以连公网
需要下载cuda_8.0.61_375.26_linux.run、NVIDIA-Linux-x86_64-450.80.02.run
显卡驱动下载地址:/Download/index.aspx?lang=cn
cuda下载地址: /cuda-toolkit
准备工作
1.安装编译环境依赖包
--- yum install epel-release gcc gcc-c++ make cmake dkms -y
2.确认自己的内核版本与kernel-devel的版本一致
--- uname -r
--- yum list | grep kernel-devel
如果不一致的时候,需要yum update,之后再看是否一致
3.安装kernel(根据实际情况选做,如果2的结果一致可不做)
--- yum install kernel-devel.x86_64 kernel.x86_64 -y
#最好加上kernel(此命令偶尔不管用),我遇到过当前的kernel版本跟安装的kernel-devel版本不一致无法安装驱动的情况
4.修改/etc/modprobe.d/blacklist.conf 文件,以阻止 nouveau 模块的加载
--- vim /lib/modprobe.d/dist-blacklist.conf (当该文件存在时)
#将nvidiafb注释掉。
#blacklist nvidiafb
#然后添加以下语句
blacklist nouveau
noptions nouveau modeset=0
当改文件不存在时,直接执行:echo -e "blacklist nouveau\noptions nouveau modeset=0" > /etc/modprobe.d/blacklist.conf
5.重新建立initramfs image文件
--- mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak
--- dracut /boot/initramfs-$(uname -r).img $(uname -r)
--- systemctl set-default multi-user.target
--- reboot #重启
重启后执行:
--- lsmod |grep nouveau ###查看是否还有nouveau相关的进程,正常情况下是没有的。
6.安装驱动
下载驱动文件,并修改文件执行权限
--- chmod +x 文件名
运行驱动文件安装
--- ./NVIDIA-XXXX.run --kernel-source-path=/usr/src/kernels/内核号 #uname -r 查看自己内核版本号,然后填写对应的版本号目录
7.验证显卡是否装成功
--- nvidia-smi
问题描述及解决:
4)若显示“cc”找不到,需要到/usr/local/bin里为gcc创建软连接cc.
5)若没有kernel-devel,需安装内核对应的开发包,内核版本查看uanme –r。
6)编译kernel如果遇到CONFIG_RETPOLINE的错误,说明gcc不支持,需要将Makefile里的下面这段注释掉。
# Avoid indirect branches in kernel to deal with Spectre#ifdef CONFIG_RETPOLINE# RETPOLINE_CFLAGS += $(call cc-option,-mindirect-branch=thunk-extern -mindirect-branch-register)# ifneq ($(RETPOLINE_CFLAGS),)# KBUILD_CFLAGS += $(RETPOLINE_CFLAGS) -DRETPOLINE# else# $(error CONFIG_RETPOLINE=y, but not supported by the compiler. Compiler update recommended.)# endif#endif
ERROR: Unable to load the 'nvidia-drm' kernel module.
如果能够搜索到nvidia-drm,重启机器就可以重新加载了。
ERROR:An NVIDIA kernel module 'nvidia-uvm' appears to already be loaded in your kernel.
使用lsmod | grep -i nvidia可以查看当前与nvidia驱动有个的模块。
然后,如果存在nvidia-uvm的错误,说明某个进程还在使用nvidia-uvm,需要使用命令lsof | grep nvidia.uvm
查看是哪个进程,然后kill掉。
二.显卡驱动升级
下载显卡驱动
/Download/index.aspx?lang=cn
上传驱动文件到服务器给驱动文件加载执行权限
chmod +x NVIDIA-Linux-x86_64-440.82.run
2.卸载旧版本驱动
./NVIDIA-XXXX.run –uninstall
验证是否卸载彻底:nvidia-后table如果有nvidia-smi表示没有完全卸载,执行下面命令
apt-get remove --purge nvidia-\*
3.安装驱动:
--- ./NVIDIA-XXXX.run --kernel-source-path=/usr/src/kernels/内核号 #uname -r 查看自己内核版本号,然后填写对应的版本号目录
三.安装cuda10.2
1.安装
--- ./cuda_10.2.89_440.33.01_linux.run
2.如下是安装cuda10.2时的选择:
会出现安装界面,输入accept
3. 配置全局用户的环境变量
--- vim /etc/profile
添加以下内容:
export PATH=$PATH:/usr/local/cuda-10.2/bin
export LD_LIBRARY_PATH=/usr/local/cuda-10.2/lib64:$LD_LIBRARY_PATH
--- source /etc/profile
添加内容里的路径根据自己安装cuda的实际位置做修改
4. 配置全局的cuda库环境
--- vim /etc/ld.so.conf.d/cuda-10-2.conf
添加以下内容:
/usr/local/cuda-10.2/lib64
/usr/local/cuda-10.2/lib
--- ldconfig
添加内容里的路径根据自己安装cuda的实际位置做修改
5.配置普通用的环境变量(若配置了全局的用户变量,下面操作可不操作)
-- vim ~/.bashrc
添加以下内容:
export PATH=/usr/local/cuda-8.0/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-8.0/lib64:$LD_LIBRARY_PATH
--- source ~/.bashrc
6.验证安装是否成功
--- nvcc -V #验证是否安装成功。