nvidia-smi

最常用的 GPU 状态查看工具,几乎每个 CUDA 程序员每天都会敲十几次。

基础信息

nvidia-smi                  # GPU 列表、利用率、显存、温度、驱动 / CUDA 版本
nvidia-smi -L               # 只列 GPU 名称和 UUID
nvidia-smi -q               # 全部属性(啰嗦但全)

实时监控

nvidia-smi -l 1             # 每 1 秒刷新一次(自带)
watch -n 1 nvidia-smi       # 用 watch,屏幕不闪
nvidia-smi dmon             # 单行多 GPU 实时数据(脚本友好)

显存与进程

# 只看显存
nvidia-smi --query-gpu=memory.used,memory.free,memory.total --format=csv

# 看哪些进程在占 GPU
nvidia-smi --query-compute-apps=pid,process_name,used_memory --format=csv

多 GPU 拓扑

nvidia-smi topo -m          # GPU 之间的连接方式(PCIe / NVLink / NVSwitch)

持久化 & 功耗(需要 root)

sudo nvidia-smi -pm 1       # 开启持久化模式,降低冷启动延迟
sudo nvidia-smi -pl 250     # 设置 GPU 功耗上限为 250W

注:-l 循环不要在生产环境里挂着跑,会持续轮询影响调度。

评论区
评论功能即将上线, 敬请期待。