【linux】AMD GPU和NVIDIA GPU驱动安装

109702008 2024-06-13 10:07:14 阅读 75

AMD GPUs - Radeon™ PRO W7900的驱动实际安装过程

Linux® Drivers for AMD Radeon™ and Radeon PRO™ Graphics | AMD

https://repo.radeon.com/amdgpu-install/23.40.3/ubuntu/jammy/amdgpu-install_6.0.60003-1_all.deb

Radeon™ Pro Software for Linux® version 23.40.2 for Ubuntu 22.04.3 HWE with ROCm 6.0.2()

sudo apt updatewget https://repo.radeon.com/amdgpu-install/23.40.2/ubuntu/jammy/amdgpu-install_6.0.60002-1_all.debsudo apt install ./amdgpu-install_6.0.60002-1_all.debsudo amdgpu-install -y --usecase=graphics,rocmsudo reboot

Install Radeon software for Linux with ROCm — Use ROCm on Radeon GPUs

groupssudo usermod -a -G render,video $LOGNAMEsudo rebootgroupsdkms statusrocminfo

https://rocm.docs.amd.com/projects/radeon/en/latest/docs/install/install-pytorch.html

https://rocm.docs.amd.com/projects/radeon/en/latest/docs/install/install-onnx.html

https://rocm.docs.amd.com/projects/radeon/en/latest/docs/install/install-migraphx.html

Radeon™ Software for Linux® version 23.40.2 for Ubuntu 22.04.4 HWE

注意:这不是PRO的驱动。

下载https://repo.radeon.com/amdgpu-install/23.40.2/ubuntu/jammy/amdgpu-install_6.0.60002-1_all.deb

Radeon™ Software for Linux® Installation — amdgpu graphics and compute stack unknown-build documentation

sudo passwd rootsucdapt-get updateapt-get dist-upgradeapt-get install ./amdgpu-install_6.0.60002-1_all.debapt-get updateamdgpu-install -yamdgpu-install --usecase=workstation -y --vulkan=pro --opencl=rocramdgpu-install -y --usecase=workstation,rocm或者amdgpu-install --usecase=graphics -y --opencl=rocr --vulkan=proamdgpu-install -y --usecase=graphics,rocm

指定Vulkan实现

有两种可用的Vulkan实现:

AMDVLK:提供开源的VulkanPRO:提供PRO Vulkan(专有,需要接受EULA协议)

可以选择安装其中一个或两个实现。

Vulkan的安装使用--vulkan选项,如下:

选项 描述

--vulkan=amdvlk 安装开源的Vulkan

--vulkan=pro 安装PRO Vulkan(专有)

--vulkan=amdvlk,pro 安装开源和PRO Vulkan两者。

根据需求和偏好,可以使用相应的选项来安装想要的Vulkan实现。如果想要同时拥有两种实现,可以使用--vulkan=amdvlk,pro选项来同时安装它们。需要注意的是,安装PRO Vulkan可能需要接受相关的最终用户许可协议(EULA)。

指定OpenCL实现

有两种可用的OpenCL实现:

ROCr:为Vega 10及更新版本的硬件提供支持。

Legacy:为Vega 10之前的旧硬件提供支持。(已弃用,需要接受EULA协议)

可以选择安装其中一个或两个实现。

注意

要使用ROCr实现的OpenCL,运行用户可能需要额外的权限。通常,用户需要被添加到“render”组或“video”组。更多详细信息请参阅OpenCL(可选组件)中的说明。

OpenCL的安装使用--opencl选项,如下:

选项 描述

--opencl=rocr 安装ROCr OpenCL。

--opencl=legacy 安装旧的OpenCL(已弃用,专有)

--opencl=rocr,legacy 同时安装ROCr和旧的OpenCL。

Use ROCm on Radeon GPUs — Use ROCm on Radeon GPUs

Installing PyTorch for ROCm — ROCm installation (Linux)

Install PyTorch for ROCm — Use ROCm on Radeon GPUs

wget https://repo.radeon.com/rocm/manylinux/rocm-rel-6.0.2/torch-2.1.2+rocm6.0-cp310-cp310-linux_x86_64.whlwget https://repo.radeon.com/rocm/manylinux/rocm-rel-6.0.2/torchvision-0.16.1+rocm6.0-cp310-cp310-linux_x86_64.whl

Miniconda — Anaconda documentation

sumkdir -p ~/miniconda3wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh -O ~/miniconda3/miniconda.shbash ~/miniconda3/miniconda.sh -b -u -p ~/miniconda3rm -rf ~/miniconda3/miniconda.sh~/miniconda3/bin/conda init bashexitsuconda create -n w7900 python=3.10conda-env listconda activate /root/miniconda3/envs/w7900 #或者conda activate w7900pip3 install --upgrade pip wheelpip3 install six#pip3 install --force-reinstall torch-2.1.2+rocm6.0-cp310-cp310-linux_x86_64.whl torchvision-0.16.1+rocm6.0-cp310-cp310-linux_x86_64.whlpip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/rocm6.0#Looking in indexes: https://download.pytorch.org/whl/rocm6.0#Collecting torch# Downloading https://download.pytorch.org/whl/rocm6.0/torch-2.3.0%2Brocm6.0-cp310-cp310-linux_x86_64.whl (2193.5 MB)#Collecting torchvision# Downloading https://download.pytorch.org/whl/rocm6.0/torchvision-0.18.0%2Brocm6.0-cp312-cp312-linux_x86_64.whl (65.7 MB)#pip3 install --pre --force-reinstall torch torchvision torchaudio --index-url #https://download.pytorch.org/whl/nightly/rocm6.0#Looking in indexes: https://download.pytorch.org/whl/nightly/rocm6.0#Collecting torch# Downloading https://download.pytorch.org/whl/nightly/rocm6.0/torch-2.4.0.dev20240424%2Brocm6.0-cp310-cp310-linux_x86_64.whl (2196.0 MB)#Collecting torchvision# Downloading https://download.pytorch.org/whl/nightly/rocm6.0/torchvision-0.19.0.dev20240425%2Brocm6.0-cp310-cp310-linux_x86_64.whl (65.9 MB)rocminfopython3 -c 'import torch; print(torch.cuda.is_available())'python3 -c "import torch; print(f'device name [0]:', torch.cuda.get_device_name(0))"python3 -m torch.utils.collect_envrocminfoclinforocm-smiapt install radeontopradeontopapt install mesa-utilsglxinfo

https://github.com/ROCm/pytorch/issues/1398

Verify PyTorch installation

Confirm if PyTorch is correctly installed.

Verify if Pytorch is installed and detecting the GPU compute device.

python3 -c 'import torch' 2> /dev/null && echo 'Success' || echo 'Failure'

Expected result:

Success

Enter command to test if the GPU is available.

python3 -c 'import torch; print(torch.cuda.is_available())'

Expected result:

True

Enter command to display installed GPU device name.

python3 -c "import torch; print(f'device name [0]:', torch.cuda.get_device_name(0))"

Expected result: Example: device name [0]: Radeon RX 7900 XTX

device name [0]: <Supported AMD GPU>

Enter command to display component information within the current PyTorch environment.

python3 -m torch.utils.collect_env

Expected result:

PyTorch version ROCM used to build PyTorch OS Is CUDA available GPU model and configuration HIP runtime version MIOpen runtime version

Environment set-up is complete, and the system is ready for use with PyTorch to work with machine learning models, and algorithms.

Using Docker provides portability, and access to a prebuilt Docker container that has been rigorously tested within AMD. Docker also cuts down compilation time, and should perform as expected without installation issues.

suapt install docker.iodocker pull rocm/pytorch:rocm6.0.2_ubuntu22.04_py3.10_pytorch_2.1.2docker run -it \ --cap-add=SYS_PTRACE \ --security-opt seccomp=unconfined \ --device=/dev/kfd \ --device=/dev/dri \ --group-add video \ --ipc=host \ --shm-size 8G \ rocm/pytorch:rocm6.0.2_ubuntu22.04_py3.10_pytorch_2.1.2

Install PyTorch for ROCm — Use ROCm on Radeon GPUs

ONNX Runtime

pip3 install https://repo.radeon.com/rocm/manylinux/rocm-rel-6.0.2/onnxruntime_rocm-inference-1.17.0-cp310-cp310-linux_x86_64.whlpython3import onnxruntime as ortort.get_available_providers()

MIGraphX

suapt install migraphxcd /opt/rocm/bin./migraphx-driver perf --model resnet50

Using Docker provides portability, and access to a prebuilt Docker container that has been rigorously tested within AMD. Docker also cuts down compilation time, and should perform as expected without installation issues.

sugit clone https://github.com/ROCmSoftwarePlatform/torch_migraphx.gitcd torch_migraphx/./build_image.shdocker run -it --network=host --device=/dev/kfd --device=/dev/dri --group-add=video --ipc=host --cap-add=SYS_PTRACE --security-opt seccomp=unconfined torch_migraphxpython3 -c 'import torch_migraphx' 2> /dev/null && echo 'Success' || echo 'Failure'pytest ./torch_migraphx/tests

ChatGPT

要在Linux系统上安装AMD的Radeon™ PRO W7900显卡驱动程序,通常需要执行以下步骤。以下示例基于Ubuntu系统;其他Linux发行版的具体步骤可能有所不同。

1. 更新系统

    打开一个终端窗口,并输入以下命令来更新系统的包列表和已安装的包:

    sudo apt update    sudo apt upgrade

2. 安装依赖包

    有些系统可能需要安装一些依赖项,以确保驱动程序能够正确构建和安装:    

    sudo apt install build-essential libelf-dev linux-headers-$(uname -r) dkms

3. 卸载旧的驱动程序(如果有的话)

    如果之前安装了旧版本的AMD驱动程序或使用开源驱动程序`radeon`或`amdgpu`,可能需要先卸载它们。例如:    

    sudo apt remove --purge xserver-xorg-video-amdgpu xserver-xorg-video-ati

4. 下载驱动程序

    访问AMD官方网站下载最新版的Radeon™ PRO W7900驱动程序。找到适合Linux的下载链接,并下载到本地。

    下载链接通常长这样(但需要以官网为准):    

    https://www.amd.com/en/support/professional-graphics/radeon-pro/radeon-pro-wx-x100-series/radeon-pro-w7900

5. 解压缩驱动程序

    使用`tar`命令解压你下载的驱动程序文件。这通常类似于:    

    tar -Jxvf amdgpu-pro-*.tar.xz

6. 安装驱动程序

    解压后进入到驱动程序的目录并根据需要安装全套的PRO驱动或者只安装开源部分(通常全套驱动包含专有组件,有更好的性能):    

    cd amdgpu-pro-*/    ./amdgpu-install -y

    或者,如果只想安装开源驱动组件,可以运行:    

    ./amdgpu-install --open-source

    若需要Pro组件(一般针对工作站级用户),则使用:    

    ./amdgpu-pro-install -y

    确保根据下载的AMD驱动程序的名称和文件路径修改上述命令。

7. 重启系统

    驱动程序安装完成后,重启系统以确保新安装的驱动程序被正确加载:    

    sudo reboot

8. 验证驱动安装

    系统重启后,可以使用以下命令来验证驱动程序是否安装成功:    

    dmesg | grep amdgpu

    或者,可以使用    

    lspci -nnk | grep -iA2 amdgpu

    这些命令会显示与amdgpu相关的内核消息或者列出使用amdgpu驱动的设备。

请记住,以上步骤以及运行的命令可能随不同版本的驱动程序和Linux发行版而有所不同。另外,一些Linux发行版可能已经包括了适合常用AMD显卡的开源驱动程序,无需手动安装。因此,在执行上述步骤之前,请始终参照官方的安装文档和你所使用的Linux发行版的相关指南。

amdgpu-install --usecase=graphics,opencl --opencl=rocr,legacy --vulkan=amdvlk,pro

这一行命令是为了在基于AMD GPU的计算机系统上安装与图形,OpenCL和Vulkan相关的一些驱动和组件。命令中的参数和选项具体解释如下:

- amdgpu-install 是AMD官方提供的用于安装AMD GPU驱动及其相关软件组件的命令行工具。

- --usecase=graphics,opencl 是指定安装用例的选项,这里指定了两个用例:`graphics`(图形),`opencl`(用于计算的开放标准)。

- --opencl=rocr,legacy 是指定要安装的OpenCL实现的选项。`rocr` 是指ROCm-OpenCL(Radeon Open Compute),这是一套开源的用于高性能计算的GPU加速平台。`legacy` 表示也安装了传统(老版本)的OpenCL实现。

- --vulkan=amdvlk,pro 指定安装的Vulkan驱动。`amdvlk` 是AMD提供的一种开源的Vulkan驱动,而`pro` 很可能指的是AMD专业版本(Pro drivers)中的Vulkan驱动,它通常会提供一些为了专业软件优化的特性。

简而言之,该命令将会在你的计算机上安装用于AMD GPU的图形和计算驱动,包括AMD官方提供的不同类型的OpenCL和Vulkan实现。

amdgpu-install -y --usecase=workstation,rocm

命令 amdgpu-install -y --usecase=workstation,rocm 是用来安装 AMD GPU 驱动和 ROCm (Radeon Open Compute) 运行环境的。

这里的参数说明如下:

- -y:这个选项表示自动回答是(yes)来确认所有的提示,使得安装过程不需要用户交互。

- --usecase=workstation,rocm:指定了安装的用例。`workstation` 表示安装的是工作站级别的驱动和软件,适用于需要高性能计算和图形处理的场景。`rocm` 是 AMD 的开放计算平台(Radeon Open Compute Platform),用于 GPU 加速计算。

根据你的命令,由于包含了 workstation 这个用例,AMD 图形驱动也应该被安装了,因为工作站用例通常需要图形驱动来支持高端图形和可视化工作的需求。

要确保显卡驱动和必需的组件都被正确安装,你可以在系统安装完毕后检查显卡驱动的状态,或者通过一些图形化的工具(比如 AMD 自己的 Radeon Software)来查看驱动是否已经正常工作了。此外,在命令行下,你也可以使用类似 lspci -k 或者 inxi -G 这样的命令来查看驱动的安装状态。

pip3 install --force-reinstall torch-2.1.2+rocm6.0-cp310-cp310-linux_x86_64.whl torchvision-0.16.1+rocm6.0-cp310-cp310-linux_x86_64.whl

该命令中包含的`.whl`文件名实际上指定了所需的Python版本号。在给定的文件名`torch-2.1.2+rocm6.0-cp310-cp310-linux_x86_64.whl`中,`cp310`代表了CPython的3.10版本,这是Python官方解释器的版本缩写。

所以,这个命令需要匹配的Python版本是3.10。同样的,`torchvision-0.16.1+rocm6.0-cp310-cp310-linux_x86_64.whl`文件同样表明它适用于Python 3.10版本。如果你运行这个命令时没有对应版本的Python环境,那么安装可能会失败。确保你的系统中安装了Python 3.10版本,并且你正在使用与之兼容的pip版本。

python3 -m torch.utils.collect_env

Collecting environment information...

/home/yong/miniconda3/envs/w7900/lib/python3.10/site-packages/torch/cuda/__init__.py:611: UserWarning: Can't initialize NVML

  warnings.warn("Can't initialize NVML")

torch.cuda 模块用于PyTorch中的CUDA支持,而NVML(NVIDIA Management Library)为NVIDIA CUDA驱动程序的一部分,它允许开发人员和系统管理员管理和监控NVIDIA GPU设备。当你看到警告 "Can't initialize NVML" 时,这意味着Python的`torch`模块尝试初始化NVML来调用和管理NVIDIA GPU,但失败了。

可能的影响包括:

1. 无法检索有关GPU性能和使用状态的信息。

2. 无法细粒度地控制和监控GPU。

这个警告可能是由以下几个原因导致的:

- 当前环境中没有可用的NVIDIA GPU。

- NVIDIA GPU驱动程序没有正确安装,或者驱动程序版本与CUDA版本不兼容。

- 用户权限不足,无法访问GPU硬件或查询NVML相关信息。

- NVML库本身在系统中缺失或损坏。

对于深度学习或任何需要GPU加速的操作,你需要确保NVIDIA驱动程序安装正确,并且与你安装的CUDA版本兼容。如果你正在远程服务器上工作或者没有root权限,你可能需要联系系统管理员帮助解决这个问题。

如果你的系统中没有NVIDIA GPU或者你不打算使用GPU,你可以忽略这个警告。然而,如果你计划使用GPU加速,你应该解决这个问题以充分利用你的硬件资源。

如果您正在使用AMD GPU,则警告“Can't initialize NVML”是预期的,因为NVML 是NVIDIA专有的库,专门用于管理和监控NVIDIA GPU。由于您的系统中装有AMD GPU,而不是NVIDIA GPU,所以NVML库无法初始化或找到NVIDIA设备。

对于AMD GPU,您将无法使用PyTorch的CUDA功能,因为它只适用于与NVIDIA GPU配合工作。但是,您可以:

1. 使用PyTorch的CPU模式进行计算。

2. 如果您希望在AMD硬件上进行GPU加速,您可以考虑使用ROCm(Radeon Open Compute)平台,前提是您的AMD硬件支持ROCm。请注意,PyTorch与ROCm的兼容性可能不如与CUDA的兼容性成熟。在尝试之前,请确保您的系统配置支持ROCm,并查阅相关的文档。

在大多数情况下,对于具有AMD GPU的用户,`Can't initialize NVML`这个警告没有实际影响,因为他们无法使用PyTorch的CUDA特性。您可以继续在CPU上运行您的PyTorch代码,或者探索使用ROCm的选项(如果可行)。如果您不关心GPU加速或已有针对AMD硬件的其他计划,您可以忽略这个警告。

ROCm是AMD开发的一套开源软件平台,用于深度学习和高性能计算(HPC)领域,它支持包括TensorFlow和PyTorch在内的多种框架。NVML(NVIDIA Management Library)是NVIDIA提供的一组API,用于监控和管理NVIDIA GPU的状态,如温度、使用率、内存等。当你在使用支持NVML的框架,例如PyTorch时,如果你的设备是AMD GPU而非NVIDIA GPU,那么警告:

Can't initialize NVML

是正常的,因为NVML是专为NVIDIA GPU设计的,AMD GPU不支持NVML。这个警告不会影响到基于ROCm驱动AMD GPU的运行,但是意味着你无法使用那些专门为NVIDIA GPU设计的、依赖于NVML的监控和管理功能。如果你确实在使用AMD GPU并且已经正确地安装了ROCm,这个警告可以忽略。如果ROCm安装正确,AMD GPU应该可以正常工作。你可以使用一些基础的命令或者框架自带的工具来测试是否能够正确识别并使用你的AMD GPU,例如PyTorch的以下代码:

import torch # 检查是否有可用的GPU print("Is CUDA available: ", torch.cuda.is_available()) # 输出当前PyTorch使用的设备 print("Current device: ", torch.cuda.current_device()) # 输出AMD GPU的名称 print("Device name: ", torch.cuda.get_device_name(0))

为了确保ROCm是否正常工作,你也可以通过ROCm提供的工具进行测试,如`rocminfo`和`clinfo`命令。如果你遇到实际使用GPU时的问题,那么可能需要查看ROCm的安装以及兼容性列表,或者在ROCm的GitHub仓库或社区寻求帮助。 

为了测试ROCm是否已经正确安装并正常工作,你可以使用以下命令行工具:

1. rocminfo - rocminfo是ROCm提供的一个工具,它会列出系统上安装的ROCm组件和硬件信息。

要运行`rocminfo`,在命令行中输入以下命令:

rocminfo

如果ROCm安装成功并且配置正确,该命令会打印出AMD GPU和ROCm软件栈的详细信息,包括GPU的型号、内存信息、支持的特性等。如果它没有返回GPU的信息,或者报错,那可能意味着ROCm没有正确安装或存在配置问题。

2. clinfo - clinfo是一个OpenCL的工具,它会显示所有OpenCL兼容设备的信息。

运行`clinfo`命令:

clinfo

这将列出系统中所有OpenCL平台和设备的详细信息。如果你的AMD GPU支持OpenCL,并且ROCm正确安装,你会在设备列表中看到你的AMD GPU。如果没有显示,那可能意味着你的系统没有正确配置OpenCL支持。

通过这两个工具的输出信息,你可以验证ROCm是否能够识别和利用你的AMD GPU。如果出现问题,你需要检查ROCm的安装步骤或者寻求ROCm社区的帮助以解决问题。请确保你的操作系统和GPU型号与ROCm的兼容列表相匹配,并确保所有必要的依赖包都已经安装。

在Linux系统上,你可以使用几种工具来查看AMD GPU的内存使用情况,这取决于你是否已经安装了ROCm或者其它AMD驱动和工具。以下是一些常用方法:

1. rocm-smi:

   - ROCm提供了`rocm-smi`工具,这是一个类似于NVIDIA的`nvidia-smi`的命令行工具,用于显示AMD GPU的状态和使用情况。要查看内存使用情况,你可以在终端中运行下面的命令:    

     /opt/rocm/bin/rocm-smi    

   - 这将列出系统中的AMD GPU以及它们的状态,包括内存使用情况。

2. radeontop:

   - radeontop是另一个用于监视AMD GPU状态的工具。安装完后,你可以在终端中运行以下命令来查看实时GPU状态:    

     radeontop    

   - 注意,`radeontop`需要你有相应的权限来访问GPU设备。

3. glxinfo:

   - glxinfo是一个用于显示OpenGL环境的详细信息的工具。如果你使用的是AMD的开源驱动,你可以安装`mesa-utils`包然后运行`glxinfo`来获取一些GPU信息。不过它可能不会显示详细的内存使用情况。

确保你的用户有足够的权限来访问这些工具和硬件信息。如果你没有权限执行,可能需要在命令前加上`sudo`来获取管理员权限。

如果这些方法不适用于你的系统,你可能需要检查是否有适合AMD GPU PRO W7900的特定工具或者查阅AMD的官方文档来获得更多帮助。

nvidia GPU驱动安装过程

NVIDIA GPU驱动安装在Linux系统中通常涉及以下几个步骤,尤其是安装官方的闭源驱动(proprietary drivers)时。以下是基于命令行的安装过程,适用于多数Linux发行版:

1. 下载驱动程序:

   前往NVIDIA官方网站下载最新的适用于你的GPU的驱动。

2. 关闭图形用户界面:

   NVIDIA闭源驱动安装过程中通常需要关闭X服务器(图形界面)。这可以通过以下方法之一完成:

   - sudo systemctl isolate multi-user.target:这条命令将系统切换到多用户文本模式。

   - sudo systemctl stop lightdm 或 gdm 或 sddm:这取决于你使用的是哪个显示服务器。

3. 黑名单Nouveau驱动:

   Nouveau是NVIDIA硬件的开源驱动,通常默认启用。为了安装NVIDIA的官方驱动,你需要将nouveau添加到黑名单中。

   - 创建一个新的黑名单配置文件,例如 sudo nano /etc/modprobe.d/blacklist-nouveau.conf。

   - 加入以下内容:

     blacklist nouveau     options nouveau modeset=0

   - 之后,需要更新initramfs:`sudo update-initramfs -u`。

4. 退出桌面会话和关闭X服务器:

   如果前面的方法还没有关闭图形界面,你可以通过切换到tty(例如,通过Ctrl+Alt+F1到F6)并登录你的账户,然后运行 sudo service lightdm stop(或相应的`gdm`或`sddm`)。

5. 运行NVIDIA安装程序:

   进入包含下载驱动的目录,然后运行安装程序。例如:

   - chmod +x NVIDIA-Linux-x86_64-<version>.run:使其可执行。

   - sudo ./NVIDIA-Linux-x86_64-<version>.run:运行安装程序。

6. 遵循安装提示:

   跟随提示完成安装。安装程序可能会询问是否要自动配置Xorg配置文件,通常你可以选择让它自动配置。

7. 重启X服务器或计算机:

   重启X服务器或整个计算机以完成安装并加载新驱动。对于X服务器,可以使用`sudo systemctl start lightdm`(或`gdm`, sddm)来重启。或者,简单地重启计算机,`sudo reboot`。

请注意,这个过程可能会根据你的具体Linux发行版和系统配置有所不同。一些Linux发行版,如Ubuntu,提供了额外的驱动管理程序让用户更加容易地安装和管理驱动,且不需要关闭图形界面。此外,确保在进行这些步骤时具有必要的权限(通常需要root权限)。在尝试执行上述步骤时,务必参考适用于特定Linux版本的最新指导,以避免不必要的问题。

安装 NVIDIA GeForce RTX 4090 GPU 驱动程序到 Linux 系统,可以按照以下步骤进行:

1. 禁用nouveau驱动(如果已安装):Nouveau 是一个开源的 NVIDIA 驱动程序,通常在安装 Linux 时默认启用。要禁用它,打开 /etc/modprobe.d/blacklist.conf 文件,并添加以下行:   

   blacklist nouveau   options nouveau modeset=0

   然后重新生成内核initramfs:   

   sudo update-initramfs -u

   重启电脑生效。

2. 安装内核头文件和开发工具:确保系统安装了必要的编译工具和内核头文件。   

   sudo apt update   sudo apt install build-essential dkms linux-headers-$(uname -r)

   注意:以上命令适用于基于Debian的系统,例如Ubuntu。如果在使用其他发行版,请使用相对应的包管理命令。

3. 下载NVIDIA驱动:访问 NVIDIA 官方网站或通过 Linux 的命令行界面下载最新的驱动:   

   wget http://us.download.nvidia.com/XFree86/Linux-x86_64/[版本号]/NVIDIA-Linux-x86_64-[版本号].run

   请注意替换 [版本号] 为 GeForce RTX 4090 支持的实际驱动版本。

4. 关闭X服务器:为了安装 NVIDIA 驱动,你需要关闭图形界面。这可以通过切换到文本模式或直接停止显示管理器来完成。例如:   

   sudo systemctl isolate multi-user.target

   或者可以停止当前的显示管理器服务,如 gdm ,`sddm` 或 lightdm :   

   sudo systemctl stop gdm

5. 安装驱动:更改下载的驱动文件的权限使其可执行,然后运行安装程序。   

   chmod +x NVIDIA-Linux-x86_64-[版本号].run   sudo ./NVIDIA-Linux-x86_64-[版本号].run

   跟随安装脚本的指示来安装驱动程序。这可能包括接受许可协议,选择安装选项等。

6. 配置X服务器:安装完成后,可以运行 nvidia-xconfig 来创建或修改 /etc/X11/xorg.conf 配置文件,以便 X 服务器使用 NVIDIA 驱动。   

   sudo nvidia-xconfig

7. 重新启动X服务器或电脑:   

   sudo systemctl start gdm

   或者重启电脑:   

   sudo reboot

8. 验证安装:重启后,可以使用以下命令验证 NVIDIA 驱动程序是否已正确安装:   

   nvidia-smi

以上步骤是在文本模式下进行的,因为图形界面在安装显卡驱动时可能会导致冲突。也可以选择使用分发版的图形工具来安装驱动,比如 Ubuntu 的“附加驱动”功能。

请确保在执行这些步骤时,替换命令中的 [版本号] 为你实际下载的驱动版本号。如果不熟悉这些步骤或者遇到问题,请查看官方的 NVIDIA 安装指南或者使用的 Linux 发行版的社区论坛。 

相关链接

【GPU】安装nvidia驱动_nvidia ppa-CSDN博客

ubuntu16和ubuntu17安装nivida驱动_ubuntu中nivid-CSDN博客

ubuntu同时启动PCIe显卡和板卡集成显卡_乌班图强制集显输出-CSDN博客

其他ChatGPT

对于AMD Radeon™ PRO W7900等显卡, 安装驱动通常不需要关闭图形界面. AMD的官方驱动被设计为在大多数操作系统上能在图形界面运行时安装. 不过, 总是有可能根据你使用的操作系统或者特定的安装程序, 会有一些独特的步骤需要遵循.

总体来说,你可以按照以下步骤安装AMD Radeon™ PRO W7900的驱动(这是一个一般的流程,实际步骤可能会有所不同,必须参照官方的安装指南):

1. 访问AMD官方网站来下载适用于你的操作系统(如Windows或Linux)的最新驱动。

2. 运行下载的安装程序,该程序将指导你完成安装过程。

3. 根据屏幕上的提示进行操作,如果系统要求重启,请遵循该指示完成驱动安装。

对于Linux用户,AMD通常提供可执行的安装文件(比如`.run`或者`.sh`文件)或者用于各个发行版的包管理格式(例如Debian的`.deb`或者RedHat的`.rpm`)。你可以直接在图形界面中启动安装过程。

某些专业或者定制操作系统环境可能有不同需求。在复杂的环境中,或者是出于性能优化考虑,专业用户有时会采用命令行安装或者修改默认的配置文件。在这些特殊情况下, 如果需要在非图形模式下操作,可以参考以下步骤关闭图形界面:

对于Linux:

- 你可以通过切换到一个虚拟控制台(通常是通过按Ctrl+Alt+F1到F6)来退出图形界面。

- 另外一种方法是通过停止显示管理器服务(比如对于`gdm`,命令可能是`sudo systemctl stop gdm`)。

确认在你的特定情况下是否需要关闭图形界面来安装AMD的显卡驱动,你可以查阅显卡的用户手册或AMD的官方支持文档。对于大多数用户来说,在图形界面中直接安装显卡驱动是可行的,并且是最简便的方法。 

在Linux系统中,AMD和NVIDIA的GPU驱动安装的复杂性可能会有所不同,这在很大程度上取决于所使用的Linux发行版、内核版本以及相关工具的支持情况。

对于AMD GPU,特别是Radeon™ PRO W7900这样的专业系列,Linux通常具有较好的开源驱动支持。AMD官方对于开源驱动支持较为积极,许多Linux发行版(如Ubuntu)通常会预装开源驱动,例如amdgpu,这使得基本的驱动安装和使用相对简单。对于普通的桌面任务或者不需要高性能计算的场景,可能直接使用预安装的开源驱动就足够了。

而NVIDIA的情况则略有不同。虽然存在Nouveau这样的开源驱动项目,但是为了获取最佳性能以及支持最新的技术特性(如ray tracing,DLSS等),用户通常需要安装NVIDIA提供的官方专有驱动。NVIDIA的专有驱动通常不包含在开源仓库中,因此安装过程可能需要用户手动下载驱动安装包或使用特定的第三方仓库来进行安装。

NVIDIA驱动安装时,你可能需要关掉图形界面(即X server)或者使用一个特殊的模式启动操作系统,如recovery mode,来安装驱动。这是因为无法在X server运行时更新正在使用的显卡驱动。此外,NVIDIA的驱动有时候会要求禁用安全启动(Secure Boot),因为驱动模块需要加载到内核中,必须符合内核模块签名的要求。

综上,根据用户对性能和特性的需求以及所使用的Linux发行版,AMD GPU的驱动在安装上可以被认为相对简便,尤其是当满足于开源驱动提供的性能时。NVIDIA的情况则更复杂一些,特别是如果你需要最大程度发挥你的RTX 4090显卡的性能或者使用专业特性时。不过,许多Linux发行版也简化了NVIDIA专有驱动的安装过程,通过特定的软件包管理工具和驱动管理程序来帮助用户安装和更新NVIDIA驱动。

如果你需要从Radeon™ PRO W7900 GPU中获得高性能计算能力,你需要确保系统使用了AMD官方推荐的驱动,并且你的系统配置和软件环境都得到了优化。以下是一些步骤,用于在Linux系统中启用和优化AMD GPU的高性能计算:

1. 安装AMDGPU-PRO驱动:

   - 尽管AMD的开源驱动amdgpu提供了良好的基础性能,但为了获得最佳的工作站级别性能,你可能需要安装AMD的专有驱动,AMDGPU-PRO。

   - 访问AMD的官方网站以下载适合你的Linux发行版的最新AMDGPU-PRO驱动包。

   - 遵循官方指南完成驱动的安装,可能需运行相应的安装脚本。

2. 安装OpenCL:

   - 对于进行高性能计算,OpenCL(Open Computing Language)通常是必需的。确保安装了适用于你的AMD GPU的最新版本的OpenCL。

   - AMDGPU-PRO安装包通常会包含一个OpenCL实现,你可以在安装驱动时选择安装它。

3. 安装ROCm:

   - Radeon™ Open Compute platform (ROCm) 是AMD推出的开源高性能计算平台,为一些需要运行复杂计算任务的应用程序提供支撑。

   - 访问ROCm官方GitHub页面并按照说明来安装适用于你的系统的ROCm。

4. 更新BIOS/UEFI和固件:

   - 确保主板BIOS/UEFI和GPU固件都是最新版本,因为这可能会影响GPU性能和兼容性。

5. 系统优化:

   - 检查Linux内核版本是否支持你的显卡;更高版本的内核往往有更好的硬件支持。

   - 如有需要,调整Linux的内存和文件系统设置以获得更好的系统性能。

6. 确认GPU加速工作正常:

   - 使用`clinfo`等工具来验证OpenCL是否正确安装并识别GPU。

   - 针对特定的应用程序,你可能还需要安装或配置其他依赖或库。在完成这些步骤后,你的Radeon™ PRO W7900 GPU应该可以为高性能计算提供更强的支持。记住高性能计算场景可能涉及复杂的软件栈配置,所以根据特定的用途和环境的不同,你可能需要进一步的调整和配置。如果需要执行特定的科学计算或者深度学习任务,还要确保所用的框架和库支持你的AMD GPU,并且都已经正确配置。 

以Radeon™ PRO W7900为例的AMD GPU通常会更加容易在Linux中启用和优化,尤其是考虑到AMD对开源驱动程序的支持。AMD的显卡往往可以使用开源的amdgpu驱动,此驱动经常与Linux内核一起更新,提供良好的集成和兼容性。这意味着用户可以直接通过他们的Linux发行版软件仓库安装和更新这些驱动,而不需要关闭图形界面。

为了充分利用显卡的高性能计算(HPC)功能,可能需要安装AMDGPU-PRO驱动,这是AMD的官方专有驱动,它提供对OpenCL和其他专用计算框架的全面支持。尽管如此,AMD通常提供较为简单的安装指南和脚本,通常不需要关闭X server就可以完成安装。这使得在典型的Linux环境中配置和优化AMD GPU显卡相对更加直接。

AMD为其GPU提供的AMD ROCm平台(Radeon Open Compute Platform)也是面向科学和高性能计算的,它提供了一个开源的计算生态系统,支持包括OpenCL在内的各种编程和执行模型。

注意事项:

- 在安装专有驱动或优化特定计算工作负载时,始终遵循AMD官方的安装和配置说明。

- 对于某些特定场景(例如,深度学习或高性能计算应用程序),可能需要额外的步骤来配置系统环境以及安装适当的软件库和工具。

- Linux内核更新可能会影响到显卡驱动的兼容性,因此在升级系统时应该仔细考虑驱动和内核版本的匹配问题。

总结来说,频繁的驱动更新和需要额外注意系统与驱动配合的情况在AMD GPU上出现的可能性较小,但并非不存在。AMD在驱动安装和更新方面提供了较为方便的用户体验,这可能会让一些用户认为AMD在Linux上更为方便。然而,无论是AMD还是NVIDIA的GPU,获取最佳性能和兼容性都需要关注官方的指导和推荐的做法。

 



声明

本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。