700字范文 > centos离线安装(升级)nvidia显卡驱动及cuda10.2

centos离线安装(升级)nvidia显卡驱动及cuda10.2

时间：2023-09-18 05:42:14

一.显卡驱动安装

硬件状况：nvidia 1080Ti显卡

系统：centos7.6.1810

需要的环境：可以连公网

需要下载cuda_8.0.61_375.26_linux.run、NVIDIA-Linux-x86_64-450.80.02.run

显卡驱动下载地址：/Download/index.aspx?lang=cn

cuda下载地址： /cuda-toolkit

准备工作

1.安装编译环境依赖包

--- yum install epel-release gcc gcc-c++ make cmake dkms -y

2.确认自己的内核版本与kernel-devel的版本一致

--- uname -r

--- yum list | grep kernel-devel

如果不一致的时候，需要yum update,之后再看是否一致

3.安装kernel（根据实际情况选做，如果2的结果一致可不做）

--- yum install kernel-devel.x86_64 kernel.x86_64 -y

#最好加上kernel(此命令偶尔不管用），我遇到过当前的kernel版本跟安装的kernel-devel版本不一致无法安装驱动的情况

4.修改/etc/modprobe.d/blacklist.conf 文件，以阻止 nouveau 模块的加载

--- vim /lib/modprobe.d/dist-blacklist.conf （当该文件存在时）

#将nvidiafb注释掉。

#blacklist nvidiafb

#然后添加以下语句

blacklist nouveau

noptions nouveau modeset=0

当改文件不存在时，直接执行：echo -e "blacklist nouveau\noptions nouveau modeset=0" > /etc/modprobe.d/blacklist.conf

5.重新建立initramfs image文件

--- mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak

--- dracut /boot/initramfs-$(uname -r).img $(uname -r)

--- systemctl set-default multi-user.target

--- reboot #重启

重启后执行：

--- lsmod |grep nouveau ###查看是否还有nouveau相关的进程，正常情况下是没有的。

6.安装驱动

下载驱动文件，并修改文件执行权限

--- chmod +x 文件名

运行驱动文件安装

--- ./NVIDIA-XXXX.run --kernel-source-path=/usr/src/kernels/内核号 #uname -r 查看自己内核版本号，然后填写对应的版本号目录

7.验证显卡是否装成功

--- nvidia-smi

问题描述及解决：

4）若显示“cc”找不到，需要到/usr/local/bin里为gcc创建软连接cc.

5）若没有kernel-devel,需安装内核对应的开发包，内核版本查看uanme –r。

6）编译kernel如果遇到CONFIG_RETPOLINE的错误，说明gcc不支持，需要将Makefile里的下面这段注释掉。

# Avoid indirect branches in kernel to deal with Spectre#ifdef CONFIG_RETPOLINE# RETPOLINE_CFLAGS += $(call cc-option,-mindirect-branch=thunk-extern -mindirect-branch-register)# ifneq ($(RETPOLINE_CFLAGS),)# KBUILD_CFLAGS += $(RETPOLINE_CFLAGS) -DRETPOLINE# else# $(error CONFIG_RETPOLINE=y, but not supported by the compiler. Compiler update recommended.)# endif#endif

ERROR: Unable to load the 'nvidia-drm' kernel module.

如果能够搜索到nvidia-drm，重启机器就可以重新加载了。

ERROR:An NVIDIA kernel module 'nvidia-uvm' appears to already be loaded in your kernel.

使用lsmod | grep -i nvidia可以查看当前与nvidia驱动有个的模块。

然后，如果存在nvidia-uvm的错误，说明某个进程还在使用nvidia-uvm，需要使用命令lsof | grep nvidia.uvm

查看是哪个进程，然后kill掉。