雖然已經是隔了兩代的舊產品,但是我因此勉強能負擔(除了 GPU 我還得連帶買一顆足瓦的 PSU);且 12GB VRAM 雖然比上不足,比下仍多了些餘裕。
原本我覺得租用 Google Colab 比較省事,但是以我的資料量,Google Colab 不但 GPU/TPU 額度消耗的快,那種在遠距操作下不夠順暢的體驗也不甚好,於是我還是想要回到自己的機器上設置一套機器學習的環境。
硬體裝好後,開機卻沒辦法進 display manager(我使用 SDDM),原本以為 nouveau 應該是至少基本能用。無奈只好重開機進 single user mode (aka recovery mode),然後參考 Debian Wiki 安裝 Nvidia 釋出、但由 Debian 打包 dpkg 的驅動程式。
裝好之後 SDDM 終於能正常顯示了,然而進 KDE Plasma Wayland session 會有嚴重的遲頓現象,唉,只好再退一步,捨 Wayland 回去使用 X11。
接著又發現 TensorFlow 與 PyTorch 找不到 GPU/CUDA 裝置,原本以為是 CUDA 版本過舊,但是折騰了一個晚上後,才發現是 nvidia_uvm kernel module 沒有載入的關係。
執行 nvidia-smi 查看 NVIDIA System Management Interface 資料後,會發現 nvidia_uvm 被載入了,TensorFlow 與 PyTorch 也因此能找到 GPU/CUDA 裝置。
但是每次都要手動執行 nvidia-smi 也太惱人,於是新增 /etc/modules-load.d/nvidia-uvm.conf 把 nvidia_uvm 列入,讓它能自動於開機時載入。
2025.11.23 更新:因為執行 apt upgrade 時更新了 kermel 版本 6.17.8+deb14-amd64,結果 linux-headers-amd64 與 nvidia-open-kernel-dkms 不知怎麼地爛了,DKMS 無法編出給這個版本的 kernel modules,乾脆改用 NVIDIA installer 安裝驅動程式 580.105.08。



