最常用的 GPU 状态查看工具,几乎每个 CUDA 程序员每天都会敲十几次。
基础信息
nvidia-smi # GPU 列表、利用率、显存、温度、驱动 / CUDA 版本
nvidia-smi -L # 只列 GPU 名称和 UUID
nvidia-smi -q # 全部属性(啰嗦但全)
实时监控
nvidia-smi -l 1 # 每 1 秒刷新一次(自带)
watch -n 1 nvidia-smi # 用 watch,屏幕不闪
nvidia-smi dmon # 单行多 GPU 实时数据(脚本友好)
显存与进程
# 只看显存
nvidia-smi --query-gpu=memory.used,memory.free,memory.total --format=csv
# 看哪些进程在占 GPU
nvidia-smi --query-compute-apps=pid,process_name,used_memory --format=csv
多 GPU 拓扑
nvidia-smi topo -m # GPU 之间的连接方式(PCIe / NVLink / NVSwitch)
持久化 & 功耗(需要 root)
sudo nvidia-smi -pm 1 # 开启持久化模式,降低冷启动延迟
sudo nvidia-smi -pl 250 # 设置 GPU 功耗上限为 250W
注:
-l循环不要在生产环境里挂着跑,会持续轮询影响调度。
评论区
评论功能即将上线, 敬请期待。