zT
分享你的 CUDA 心得, 或者问一个 kernel 问题...
📝 写文章 💬 提问 🖼️ 图片 🔗 代码 📊 Benchmark

热聊LIVE

查看全部 →
LY
李彦 Lv.4 GPU 架构师
刚在 H100 上跑通 FP8 tensor core, 相对 FP16 大概 1.8× speedup, 比官方宣传的 2× 略低一点, 有大佬遇到过吗?
❤ 12 💬 5 20 分钟前
CH
陈昊 Lv.3 Rust GPU 布道师
cuda-oxide 0.5 发布, 现在支持了 async kernel launch, 写起来跟 tokio 一样爽 🦀
❤ 34 💬 8 1 小时前
WW
王薇 Lv.2 深度学习工程师
shared memory bank conflict, padding 和 swizzle 到底选哪个? 求推荐系列教程 🙏
❤ 8 💬 12 3 小时前