ubuntu22.04 安装 NVIDIA 驱动以及CUDA

地球被支点撬走啦 2024-10-22 16:37:01 阅读 65

1、事前问题解决

2、安装 nvidia 驱动

3、卸载 nvidia 驱动方法

4、安装 CUDA

5、安装 Anaconda

6、安装 PyTorch

1、事前问题解决

在安装完ubuntu之后，如果进入ubuntu出现黑屏情况，一般就是nvidia驱动与linux自带的不兼容，可以通过以下方式解决：

1、启动电脑，进入引导菜单，将光标移动到 Ubuntu项，按键盘上的 "E" 键，进入GRUB页面

2、选择首单词为 linux 对应的行，将光标移动到该行的末尾（一般这行的倒数第2、3个参数为：quiet splash），在这行末尾空一个后输入：nomodeset ，按下键盘的 “Ctrl + X” 或者 F10启动，就能进入Ubuntu系统桌面了。

3、之后需要将系统自带的 nouveau 驱动加入系统黑名单中，输入：sudo gedit /etc/modprobe.d/blacklist.conf ，在文件的末尾添加以下字段：blacklist nouveau，该操作就是将 nouveau 驱动加入系统黑名单

4、最后更新黑名单：sudo update-initramfs -u

2、安装 nvidia 驱动

接下来查询系统推荐的nvidia显卡版本号：

<code>// 先执行这两行 cmd，否则可能出现 ubuntu-drivers devices 执行后没反映的现象

sudo apt update

sudo apt upgrade

// 查询系统建议安装的nvidia版本

ubuntu-drivers devices

/// 例如

wsx@wsx:~$ ubuntu-drivers devices

== /sys/devices/pci0000:00/0000:00:01.1/0000:01:00.0 ==

modalias : pci:v000010DEd00002520sv00001043sd00001722bc03sc00i00

vendor : NVIDIA Corporation

model : GA106M [GeForce RTX 3060 Mobile / Max-Q]

driver : nvidia-driver-545-open - distro non-free

driver : nvidia-driver-535-server - distro non-free

driver : nvidia-driver-535 - distro non-free recommended // 建议安装版本

driver : nvidia-driver-470 - distro non-free

driver : nvidia-driver-470-server - distro non-free

driver : nvidia-driver-535-open - distro non-free

driver : nvidia-driver-535-server-open - distro non-free

driver : nvidia-driver-545 - distro non-free

driver : xserver-xorg-video-nouveau - distro free builtin

然后首先确保 BIOS 的 security boot 是 disable 状态的，以华硕电脑为例，操作如下：

安装过程中可能在进入BIOS时找不到U盘启动项，这时可以尝试将电脑的 Secure Boot Control 关掉。具体的做法为：进入BIOS -> Advanced Mode -> Security -> Secure Boot -> Secure Boot Control -> Disabled。如下所示：

然后执行以下命令安装，最后需要执行 reboot 重启电脑（必须重启，否则后面执行 nvidia-smi 会报错）：

<code>sudo apt install nvidia-driver-535

reboot

重启之后执行 nvidia-smi，正常情况下可以看到 nvidia driver 信息以及显卡信息：

注意，这里右上角所显示的 cuda version 是指当前 nvidia 所支持的 cuda 的最高版本，也就是说是可以兼容 cuda 12.1 的。

nvidia-smi 显示的的 cuda version 是当前驱动支持的最大 cuda toolkit 的版本。

CUDA有两种API，分别是运行时API和驱动API，即所谓的Runtime API与Driver API。[可参考：CUDA Compatibility]

nvidia-smi 的结果除了有 GPU 驱动版本型号，还有 CUDA Driver API 的版本号，而 nvcc -V 的结果是对应 CUDA Runtime API。CUDA Runtime API 依赖 CUDA Driver API。

使用conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia 命令安装 pytorch 时，附带的 CUDA 和从官网安装的 CUDA 有何不同？一言以蔽之：前者是后者的子集，是 pytorch 所必须的那一部分子集，而像编译器 nvcc 等非必须的 CUDA 组件则没有。

Pytorch往往只需要使用 CUDA 的动态链接库使程序顺利运行，因为其中利用 CUDA 计算的部分是提前编译好的，就像常见的可执行程序一样，不需要重新进行编译过程，只需要其所依赖的动态链接库存在即可正常运行。

当两者同时安装时，pytorch 深度学习环境会优先使用前者。当没有单独安装CUDA时，如果在安装pytorch时安装了 CUDA 子集，那么环境也是可以正常使用的，这在pytorch的源码中可以发现。因此建议使用深度学习环境的同学非必要不安装单独的CUDA，只需保持显卡驱动的正常更新即可。

参考：https://www.zhihu.com/question/622711856/answer/3339303390

3、卸载 nvidia 驱动方法

卸载nvidia驱动的方法：

<code>sudo apt-get purge nvidia-*

sudo apt-get update

sudo apt-get autoremove

4、安装 CUDA

CUDA 版本与 NVIDIA 驱动的兼容关系可以参考：CUDA 12.5 Update 1 Release Notes

CUDA 的下载地址： CUDA Toolkit Archive | NVIDIA Developer

这里我装 12.1.1 版本

选择 runfile 来安装，deb 那个看起来命令太多了，吓人。。。

这里我在 wget 后面加一个 -P 参数可以制定安装文件夹路径，对应的在执行 .run 文件时也需要加上指定的路径才行：

<code>wget https://developer.download.nvidia.com/compute/cuda/12.1.1/local_installers/cuda_12.1.1_530.30.02_linux.run -P Downloads/

sudo sh Downloads/cuda_12.1.1_530.30.02_linux.run

安装的时候记得去掉安装 driver 的选项，因为上面已经装过了。安装完成之后会出现：

然后添加系统环境变量，根据自己安装的实际版本修改：

<code>export PATH=$PATH:/usr/local/cuda-12.1/bin

export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-12.1/lib64

export LIBRARY_PATH=$LIBRARY_PATH:/usr/local/cuda-12.1/lib64

然后输入 nvcc -V 来查看是否安装成功：

source .bashrc // 刷新刚才写入的环境变量

nvcc -V

Ubuntu 安装NVIDIA显卡驱动、安装对应的CUDA_ubuntu安装nvidia显卡驱动-CSDN博客

接下来：

5、安装 Anaconda

Download Anaconda Distribution | Anaconda

创建conda环境：

<code>conda create -n name python=3.12

6、安装 PyTorch

Start Locally | PyTorch

嫌弃 ubuntu pip 安装太慢的话，可以换一下国内的源：

cd ~

mkdir .pip

cd .pip

touch pip.conf

sudo chmod 755 pip.conf

gedit pip.conf

填入以下内容并保存，我这里选择aliyun的源：

[global]

index-url = https://mirrors.aliyun.com/pypi/simple/

下载直接起飞～

上一篇：【JavaEE初阶】深入理解网络编程—使用UDP协议API实现回显服务器

下一篇：【Docker系列】深入理解`docker export`与`docker import`

本文标签

ubuntu22.04 安装 NVIDIA 驱动以及CUDA

声明

本文内容仅代表作者观点，或转载于其他网站，本站不以此文作为商业用途
如有涉及侵权，请联系本站进行删除
转载本站原创文章，请注明来源及作者。