在 WSL 里把 llama.cpp CUDA 版编译起来:一次真实的本地部署记录
在 Ubuntu 26.04 LTS + RTX 4060 Laptop GPU 的 WSL 环境里,不改系统目录,用 micromamba 准备 CUDA 12.4、GCC 13 和 cuBLAS,编译 llama.cpp CUDA 后端,并用 Qwen3 4B 做 CPU 与 CUDA 的速度对比。
在 Ubuntu 26.04 LTS + RTX 4060 Laptop GPU 的 WSL 环境里,不改系统目录,用 micromamba 准备 CUDA 12.4、GCC 13 和 cuBLAS,编译 llama.cpp CUDA 后端,并用 Qwen3 4B 做 CPU 与 CUDA 的速度对比。
在 Ubuntu 26.04 LTS + RTX 4060 Laptop GPU 的 WSL 环境里,不改系统目录,用 micromamba 准备 CUDA 12.4、GCC 13 和 cuBLAS,编译 llama.cpp CUDA 后端,并用 Qwen3 4B 做 CPU 与 CUDA 的速度对比。
在一台 RTX 4060 Laptop 8GB 显存、WSL 分配 32GB 内存的本地开发机上,实测 Qwen3 4B、Qwen3 8B、Gemma 4 E4B、Gemma 4 12B 的加载时间、生成速度、显存占用、多模态能力和使用取舍。
本地开源模型真正有价值的地方,不是跑分,而是能否进入每天都会发生的任务。本文把 Qwen3 4B、Qwen3 8B、Gemma 4 E4B、Gemma 4 12B 放进开发辅助、图像理解、写作整理三个工作流里,整理一套能长期演进的本地模型用法。
这是一篇持续更新的本地开源模型安装记录。从一台 64GB 内存、WSL 分配 32GB、RTX 4060 Laptop 8GB 显存的 Windows + Ubuntu 26.04 LTS 开发机出发,先判断 Ollama 应该跑在 Windows 还是 WSL,再比较 llama.cpp、LM Studio、vLLM 等方案,最后整理适合本机长期使用的模型清单。
从吴恩达关于小团队和高上下文工程师的判断说起,聊聊为什么 AI 会把资深开发者推向真正的产品全栈:需求、原型、代码、文案、合规、上线和运营都要能先跑一遍。
从一台带 NVIDIA 显卡的 Windows 开发机出发,讲清楚 WSL 里验证 CUDA、跑 PyTorch、部署本地模型、管理模型缓存和排查 GPU 没被用上的方法。
用一次真实的项目迁移做主线:把放在 Windows 分区的混合 Python/Node 仓库搬进 WSL 的 Linux 文件系统,重新梳理文件、路径、进程互调和性能边界。
从一次 C 盘爆满开始,拆解 WSL2 的 ext4.vhdx 为什么只涨不降,如何定位 Docker、node_modules、模型缓存和包缓存,并给出安全清理与压缩流程。
用一个本地 API 服务的排障过程讲清楚 Docker Desktop WSL 后端、bind mount、named volume、热更新、日志和磁盘空间治理。
从一次团队开发环境迁移说起,解释 WSL1、WSL2、发行版、VHDX、Windows 集成、systemd、网络和文件系统的边界,帮你判断什么工作适合放进 WSL。
用一个图片批处理小工具贯穿全文,讲清楚 WSLg 下开发 Qt/GTK/OpenCV GUI 的环境、调试、文件边界、打包取舍和团队使用方式。
用一个本地 API 服务访问失败的案例,系统梳理 WSL NAT、mirrored networking、DNS tunneling、autoProxy、Windows 防火墙和 Docker 端口映射。
用一个排查线上日志和批量整理文件的真实流程,讲清楚如何在 WSL 里把 rg、jq、awk、fzf、make、cron/systemd timer 和 Windows 工具连成稳定工作流。
从 xeyes、gedit 和一个远程窗口的例子讲起,拆开 X11、Wayland、XWayland、Weston 和 RDP 在 WSLg 里的分工,顺便解释为什么旧教程里的 DISPLAY 配置现在经常是反效果。