目錄
安裝 CUDA
專業實務經驗
本篇教學是由 TAKI Cloud 技術團隊 根據實際協助客戶在 RTX 30/40 系列伺服器上安裝 CUDA 的經驗撰寫。我們曾協助 AI 新創、遊戲開發公司、科研機構快速部署 CUDA 環境,本文內容結合 NVIDIA 官方文件 與實戰操作,確保您能在 Linux 系統上順利完成安裝。
作者介紹
張亮|TAKI Cloud 系統架構師
多年 GPU 伺服器安裝、維運經驗,專長於 AI 計算環境與高效能叢集建置。
CUDA 是由 NVIDIA 開發的平行運算與程式模型可透過 GPU 大幅提升運算效能。CUDA 擴展標準語言讓平行演算法實作更直接。支援異質運算架構將應用程式串行交由 CPU 處理,平行部分則由 GPU 執行。若您想進行深度學習或 AI 訓練,建議先完成 CUDA 安裝,確保 GPU 完整發揮。
前言
CUDA 是 NVIDIA 發明的平行運算平台和程式設計模型。它透過利用圖形處理單元 (GPU) 的強大功能,大幅提高運算效能。
CUDA 在開發時考慮了幾個設計目標:
為標準程式語言(如 C)提供一小組擴展,使平行演算法的直接實現成為可能。使用 CUDA C/C++,程式設計師可以專注於演算法的平行化任務,而不是將時間花在實作上。
支援異質計算,其中應用程式同時使用 CPU 和 GPU。應用程式的串行部分在 CPU 上運行,並行部分卸載到 GPU。因此,CUDA 可以逐步應用於現有應用程式。 CPU 和 GPU 被視為具有自己的記憶體空間的獨立裝置。此配置還允許在 CPU 和 GPU 上同時進行運算,而不會爭用記憶體資源。
支援 CUDA 的 GPU 有數百個內核,可以共同運行數千個計算線程。這些核心具有共享資源,包括暫存器檔案和共享記憶體。片上共享記憶體允許在這些核心上運行的平行任務共享數據,而無需透過系統記憶體匯流排發送數據。
安裝 CUDA 系統需求
- 支援 CUDA 的 GPU
- 支援的 Linux 版本,帶有 gcc 編譯器和工具鏈
- NVIDIA CUDA 工具包https://developer.nvidia.com/cuda-downloads
CUDA 工具包有網路安裝和離線安裝兩個方式,網路版的會自動選擇適合本機的下載,適合網路環境好的時候使用,離線版包含了所有的內容,可以直接安裝。
安裝前準備
確認 GPU 型號與驅動
建議先執行:
nvidia-smi
檢查現有驅動與 GPU 型號。
確認作業系統
本教學以 Windows Server / AlmaLinux 8 為例。
安裝 CUDA
Windows 安裝
啟動下載的安裝程式包。
閱讀並接受 EULA。
選擇“下一步”下載並安裝所有組件。
下載完成後,安裝將自動開始。
安裝完成後,按一下「下一步」以確認 Nsight Visual Studio Edition 安裝摘要。
按一下“關閉”以關閉安裝程式。
至此已經安裝完畢,使用 win+R 輸入 cmd 開啟命令提示字元,輸入 nvcc -V 指令檢視版本。
python 安裝
NVIDIA 提供了 Python Wheels,用於透過 pip 安裝 CUDA,主要用於將 CUDA 與 Python 一起使用。這些套件旨在供運行時使用,目前不包括開發人員工具(這些工具可以單獨安裝)。
請注意,使用此安裝方法時,CUDA 安裝環境是透過 pip 管理的,在設定主機環境以在 pip 環境之外使用 CUDA 時必須格外小心。
- 首先升級 wheel
py -m pip install --upgrade setuptools pip wheel
- 安裝模組
py -m pip install nvidia-pyindex
如果在專案中使用檔案 requirements.txt ,則可以將下列行新增至檔案中,作為安裝套件的替代方法:
--extra-index-url https://pypi.ngc.nvidia.com
- 程式 – 安裝 CUDA 執行時間套件:
py -m pip install nvidia-cuda-runtime-cu12
(可選)使用以下命令安裝下面列出的其他套件:
py -m pip install nvidia-
元包
以下元包將在 Windows 上安裝指定 CUDA 版本的命名元件的最新版本。 “CU12”應讀作“CUDA12”。
nvidia-cuda-runtime-cu12
nvidia-cuda-cupti-cu12
nvidia-cuda-nvcc-cu12
nvidia-nvml-dev-cu12
nvidia-cuda-nvrtc-cu12
nvidia-nvtx-cu12
nvidia-cuda-sanitizer-api-cu12
nvidia-cublas-cu12
nvidia-cufft-cu12
nvidia-curand-cu12
nvidia-cusolver-cu12
nvidia-cusparse-cu12
nvidia-npp-cu12
nvidia-nvjpeg-cu12
這些元包安裝以下套件:
nvidia-nvml-dev-cu126
nvidia-cuda-nvcc-cu126
nvidia-cuda-runtime-cu126
nvidia-cuda-cupti-cu126
nvidia-cublas-cu126
nvidia-cuda-sanitizer-api-cu126
nvidia-nvtx-cu126
nvidia-cuda-nvrtc-cu126
nvidia-npp-cu126
nvidia-cusparse-cu126
nvidia-cusolver-cu126
nvidia-curand-cu126
nvidia-cufft-cu126
nvidia-nvjpeg-cu126
RTX - 3090 GPU 主機
視頻渲染、科學模擬和機器學習
支援 DeepSeek-R1 32B
實例
8卡 NVIDIA RTX-4090 24G
數量
1
全台唯一提供高階 AI / GPU 主機租用
價格殺很大 / 量大可談
RTX - 4090 GPU 主機
視頻渲染、科學模擬和機器學習
支援 DeepSeek-R1 70B
實例
8卡 NVIDIA RTX-4090 24G
數量 庫存緊張,欲租從速
1
全台唯一提供高階 AI / GPU 主機租用
價格殺很大 / 量大可談
HGX H100 GPU 主機
原價 499,999元/月 特惠價 450,000元/月
支援 DeepSeek-R1 671B 滿血版
實例
8顆 NVIDIA HGX H100 80G
數量
1
全台唯一提供高階 AI / GPU 主機租用
價格殺很大 / 量大可談
Linux 安裝
Linux 上的 CUDA 可以使用 RPM、Debian、Runfile 或 Conda 套件進行安裝,具體取決於安裝的平台。
Linux x86_64
用於在 x86_64 架構上進行開發。在某些情況下,x86_64系統可能充當面向其他體系結構的主機平台。
Redhat / CentOS
在 Redhat 或 CentOS 上安裝 CUDA 時,可以在 Runfile Installer 和 RPM Installer 之間進行選擇。 Runfile 安裝程式僅以本機安裝程式提供。 RPM 安裝程式既可作為本機安裝程式使用,也可作為網路安裝器使用。網路安裝程式可讓您僅下載所需的檔案。本地安裝程序是一個獨立的安裝程序,初始下載量很大。對於 RPM 安裝程序,本地和網路變體的說明是相同的。
RPM 安裝程式
請依照 EPEL 網站上的說明安裝 EPEL 以滿足DKMS 相依性。
啟用可選儲存庫:僅在 RHEL 8 Linux 上,執行下列步驟以啟用可選儲存庫。
subscription-manager repos --enable=rhel-8-for-x86_64-appstream-rpms
subscription-manager repos --enable=rhel-8-for-x86_64-baseos-rpms
subscription-manager repos --enable=codeready-builder-for-rhel-8-x86_64-rpms
安裝倉庫元數據,清理 yum 緩存,然後安裝 CUDA:
sudo rpm --install cuda-repo--..rpm
sudo rpm --erase gpg-pubkey-7fa2af80*
sudo yum clean expire-cache
sudo yum install cuda
重新啟動系統以載入 NVIDIA 驅動程式:
sudo reboot
透過修改和變數來設定開發環境:PATH LD_LIBRARY_PATH
export PATH=/usr/local/cuda-12.6/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-12.6/lib64\
${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
執行文件安裝程式
禁用 Nouveau 驅動程式:
在建立一個包含以下內容的檔案:/etc/modprobe.d/blacklist-nouveau.conf
blacklist nouveau
options nouveau modeset=0
重新產生核心 initramfs:
sudo dracut --force
透過暫時在系統核心啟動參數的末尾添加數字「3」和單字「nomodeset」來重新啟動到運行等級 3。
靜默運行安裝程式以使用預設選擇進行安裝(意味著接受 EULA):
sudo sh cuda__linux.run --silent
建立一個 xorg.conf 檔案以使用 NVIDIA GPU 進行顯示:
sudo nvidia-xconfig
重新啟動系統以載入圖形介面:
sudo reboot
透過修改 PATH 和 LD_LIBRARY_PATH 變數來設定開發環境:
export PATH=/usr/local/cuda-12.6/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-12.6/lib64\
${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
Fedora
在 Fedora 上安裝 CUDA 時,您可以在 Runfile Installer 和 RPM Installer 之間進行選擇。 Runfile 安裝程式僅以本機安裝程式提供。 RPM 安裝程式既可作為本機安裝程式使用,也可作為網路安裝器使用。網路安裝程式可讓您僅下載所需的檔案。本地安裝程序是一個獨立的安裝程序,初始下載量很大。對於 RPM 安裝程序,本地和網路變體的說明是相同的。
Fedora 使用 RPM 安裝程式
安裝 RPMFusion free 倉庫以滿足 Akmods 依賴項:
su -c 'dnf install --nogpgcheck http://download1.rpmfusion.org/free/fedora/rpmfusion-free-release-$(rpm -E %fedora).noarch.rpm'
安裝倉庫元數據,清理 dnf 緩存,然後安裝 CUDA:
sudo rpm --install cuda-repo--..rpm
sudo rpm --erase gpg-pubkey-7fa2af80*
sudo dnf clean expire-cache
sudo dnf install cuda
重新啟動系統以載入 NVIDIA 驅動程式:
sudo reboot
透過修改 PATH 和 LD_LIBRARY_PATH 變數來設定開發環境:
export PATH=/usr/local/cuda-12.6/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-12.6/lib64\
${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
Fedora 行文件安裝程式
禁用 Nouveau 驅動程式:
在建立一個包含以下內容的檔案:/usr/lib/modprobe.d/blacklist-nouveau.conf
blacklist nouveau
options nouveau modeset=0
重新產生核心 initramfs:
sudo dracut --force
執行以下命令:
sudo grub2-mkconfig -o /boot/grub2/grub.cfg
重新啟動系統:
sudo reboot
透過暫時在系統核心啟動參數的末尾添加數字「3」和單字「nomodeset」來重新啟動到運行等級 3。
靜默運行安裝程式以使用預設選擇進行安裝(意味著接受 EULA):
sudo sh cuda__linux.run --silent
建立一個 xorg.conf 檔案以使用 NVIDIA GPU 進行顯示:
sudo nvidia-xconfig
重新啟動系統以載入圖形介面。
透過修改 PATH 和 LD_LIBRARY_PATH 變數來設定開發環境:
export PATH=/usr/local/cuda-12.6/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-12.6/lib64\
${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
時間原因就先不寫其他的系統了,具體可以到官方文件去查看。
常見錯誤與排除
錯誤:CUDA 驅動與 GPU 不相容
出現「cuda driver not found」訊息時,先用 nvidia-smi 確認驅動是否啟用,再確認驅動版本與 GPU 支援的 CUDA 相符。
多版本 CUDA 衝突
#使用多版本時,安裝在不同路徑,並透過環境變數切換:
export PATH=/usr/local/cuda-11.8/bin:$PATH
常見問題 FAQ
可以,透過安裝不同路徑並手動切換環境變數即可實現多版本共存。
可以,官方提供 RHEL / CentOS 相容的安裝包,AlmaLinux 8/9 均可安裝。
RTX - 3090 GPU 主機
視頻渲染、科學模擬和機器學習
支援 DeepSeek-R1 32B
實例
8卡 NVIDIA RTX-4090 24G
數量
1
全台唯一提供高階 AI / GPU 主機租用
價格殺很大 / 量大可談
RTX - 4090 GPU 主機
視頻渲染、科學模擬和機器學習
支援 DeepSeek-R1 70B
實例
8卡 NVIDIA RTX-4090 24G
數量 庫存緊張,欲租從速
1
全台唯一提供高階 AI / GPU 主機租用
價格殺很大 / 量大可談
HGX H100 GPU 主機
原價 499,999元/月 特惠價 450,000元/月
支援 DeepSeek-R1 671B 滿血版
實例
8顆 NVIDIA HGX H100 80G
數量
1
全台唯一提供高階 AI / GPU 主機租用
價格殺很大 / 量大可談
