本地 LLM 部署:硬件配置指南

张开发
2026/6/8 4:10:12 15 分钟阅读
本地 LLM 部署:硬件配置指南
今天这篇文章是搬运过来的发表于 2025 年 12 月 17 日那时候由 AI 引发的硬件通胀已经持续了几个月。到现在2026 年 3 月底消费级硬件的价格不仅没有回落反而在全面涨价的基础上看不到回调的希望。虽然内存价格出现了小幅回调但是相比 2025 年 9 月现在的内存价格依然处于历史极高水平2025 年 9 月份一根 16G 的 DDR5 台式机内存价格大概在 200 ~ 390 元现在大约需要 1100 ~ 1600 元。OpenClaw 的火爆进一步推动了本地部署 LLM 的需求对于“不想交数据、不想交钱或者不想等网络”的那群人本地部署 LLM 永远是一个绕不开的话题。为什么自托管 AI 是未来完全依赖云 API 才能使用 AI 的“苦”日子正在结束。以前每月需要 100 美元的 ChatGPT 或 Claude 订阅现在可以在你自己的硬件上运行。本地部署 LLM 可以带来更好的隐私保护、零持续成本和对模型的完全控制。现在开源的大语言模型特别是 Llama 3、DeepSeek R1 和 Mistral已经足够处理真实工作。问题在于你需要知道哪些硬件能把它们跑起来。这篇文章教大家怎么选择高性价比硬件不管你准备搭建预算有限的家庭实验室还是高性能的 Proxmox 服务器。译者注2025 年 12 月到现在硬件和 LLM 已经出现了很多变化文章部分内容稍显过时推荐的配置也是基于当时国外的行情不过对 LLM 硬件的讲解比较全面值得一读。本地部署 LLM 不仅仅能节省订阅成本还能改善数据隐私执行任务的时候不再需要把数据发送到其他服务器上。另外本地模型可以做到即时响应没有延迟也不会出现高峰期需要排队的情况。运行什么模型、哪个版本完全由自己决定。对于开发者、DevOps 工程师和 AI 爱好者这些好处值得在硬件上投资。译者注本文中LLM和模型表示相同的语义有的地方是 LLM有的地方是模型仅出于个人的表述习惯。与 AI 相关的硬件主要有哪些2.1 最重要的因素在本地部署 LLM 依赖于一些特定的组件其中最有决定性的是 GPU 的显存 VRAM。译者注本文中显存和VRAM表示相同的语义。每个 LLM 都是一个巨大的参数文件比如 Llama-3-7B 模型在全精度下大约有 3.5GB 大小。为了让推理速度够快LLM 必须完全加载到 VRAM 里。如果显存不够LLM 的推理工作就会用 CPU 和系统内存来处理这比在 GPU 上要慢数百倍。这一点也是文章中每个建议配置的出发点。2.2 GPU显卡GPU 是 LLM 推理的大脑一切主要取决于显存毫不夸张的说显存大约占到 LLM 推理性能的 9 成。为什么主要取决于显存当你加载 LLM 时整个参数文件需要放在 GPU 显存中。对于一个 7B 模型全 16 位精度时大约需要 14GB在 8-bit 量化下需要 7GB在 4-bit 量化时大约需要 3.5GB。如果你的显存容量不足模型会分散在 GPU 显存和系统内存之间然后每次参数查询都需要往返于系统内存假设本来每秒处理 10 ~ 15 个 token实际可能会降到 1 ~ 3 个。这不单单是速度变慢的问题真实情况甚至都没办法用。模型的量化非常重要现代 LLMs 几乎总是以量化形式部署降低了精度。4-bit 模型可以将 VRAM 占用减少到四分之一同时相比全精度版本的 LLM 还能保持不错的质量。8-bit 模型以翻倍的 VARM 占用换取更少的质量损失。对于消费级硬件4-bit 量化是任何大于 7B 模型的首选。2.3 根据 LLM 大小和量化级别估算 VRAM 需求4-bit 量化的 7B 模型大约需要 3.5 ~ 4GB 的 VRAM在 8-bit 量化下需要约 7GB在全 16 位精度下你需要 14GB这对很多消费级 GPU 来说有点超标。对于日常对话、推理和编码等任务在预算有限的情况下可以考虑 7B 模型。更大一些的 13B 参数模型4-bit 量化大约需要 7GB VRAM8-bit 需要 13GB全精度大约 26GB。16GB 版本的 RTX-4060-Ti 就可以轻松运行 13B 模型也有余地保存上下文和提示缓存。实测表明13B 模型在中等程度任务上表现良好文档摘要、更细致的推理和具有上下文感知的代码生成。30B 参数模型更大一些4-bit 量化时大约 16GB8-bit 量化时 30GB全精度情况下大约 60GB。只有高端消费级 GPU 如 RTX-4090 才能处理这个级别。不过即便是高端消费级 GPU仍然会受到 VRAM 容量的限制。70B 参数模型是对消费级硬件是一个真正的考验在 4-bit 量化后70B 模型消耗 35 ~ 40GB 的 VRAM。RTX-4090 最多 24GB这意味着没有办法将 70B 模型完全加载到 GPU 显存中除非采取极端措施CPU offloading、跨多个 GPU 对模型分片或者采用低于 4-bit 的量化这会显著降低质量。DeepSeek-R1 671B 参数模型则处在一个完全不同的级别全精度需要 1.3TB 的 VRAM。即使采用 4-bit 量化它也需要 335GB。通过激进的量化将其压缩到 1.58-bit可以将模型压缩到大约 131GB但代价是明显的质量下降准确率损失 15 ~ 25%。这是数据中心级别的规模如果不做极端的妥协对于消费级硬件来说是不可及的。2.4 2025 年的实用 GPU 选择RTX-3060-12GB 仍然是 2025 年最实惠的入门产品二手大约 200 ~ 250 美元。它可以运行完整的 7B 模型和重度量化的 13B 变体。这张显卡的上限也很明显12GB 显存限制你只能使用小模型或极端量化。如果你想尝试 7B 以上的模型这张卡就不太够用了。从技术角度来说RTX-3060 是 2020 年的产品在 GPU 里中已经算是比较老旧的了但对于小模型推理来说它表现不错。运行 Llama3-8B 模型原文中是 Llama3-7B时你可以看到每秒 7 ~ 10 个 token 的推理速度这对于 AI 爱好者和本地开发者来说完全够用。RTX-4060-Ti 16GB 版本全新售价 499 美元2025 年 7 月开始铺货发烧友和硬核爱好者的优选。16GB 显存可以轻松运行 13B 模型还有空间用于上下文和提示缓存。它的单 GPU 核心性能比 3060 快 1.7 倍功耗仅为 165W非常适合 7 * 24 小时持续运行。如果有的话可以花 250 ~ 300 美元淘个二手的。在 Llama-3-13B模型上它的性能大约能达到每秒 12 ~ 15 个 token比入门级更快并且足够流畅可以用于实际工作。RTX-4090-24GB 是发烧友级别的配置全新价格在 1200 ~ 1500 美元之间。它可以在 4-bit 量化下运行 Llama-3-70B 模型速度可接受大约每秒 7 ~ 9 个 token受限于 24GB 显存的限制需要模型管理。如果你想要同时运行多个模型或处理更大的上下文窗口这是最低要求。对于重要的工作24GB 显存没得商量。实际测试下来RTX-4090 运行 13B 模型时每秒可以处理 20 ~ 30 个 token可以支持并发任务或更大的 batch size。AMD 替代品比如 RX-7800-XT-16GB 和 RX-6800-XT-16GB 以更低成本提供相同的显存容量但 ROCmAMD 的 CUDA 等效物支持仍然不如 NVIDIA 的生态系统成熟。显卡驱动的生态系统正在改进像 KoboldCpp 和 MLC-LLM 这样的工具现在支持 AMD但 CUDA 的主导地位意味着 NVIDIA 显卡享有更广泛软件支持和更快的驱动更新。尽管 AMD 对于那些愿意解决 ROCm 怪问题和能祭出极端优化手段的人来说表现优异但是对于第一次配置NVIDIA 仍然是更安全的选择。2.5 RAM系统内存系统 RAM 在 GPU VRAM 填满时充当溢出缓存。16GB 确实是最低 RAM 要求它要处理操作系统、系统开销和基本的上下文。然而一旦你填满显存并且系统内存成为溢出缓冲区推理速度就会急剧退化。卸载到系统内存的模型运行速度大约只有在 GPU 时十分之一。性能损失并非微不足道它是灾难性的你将看到每秒只有 1 ~ 3 个 token而不是 10 ~ 15 个。对于任何重要的 LLM 工作你不能依赖系统内存作为模型缓存。译者注本文中内存和RAM表示相同的语义。实际建议任何认真的配置最低要求是 32GB 系统内存。在 Proxmox 环境中你需要在 LLM 推理引擎旁边运行虚拟机这时 32GB 系统内存变得更加关键。多个虚拟机需要内存你的 LLM 推理服务需要内存操作系统需要内存。如果在这里节省内存你会感觉每个 GB 都得精打细算着用。64GB 可以将您的配置转变为一个靠谱的多模型平台。两个虚拟机每个限制在 32GB加上主机系统的余量再加上基于内存的缓存来加速你的 LLM你仍然可以在没有严重资源争用的情况下运行多个服务。对于使用 CPU offloading 进行 70B 模型推理的情况64 ~ 128GB 是标准配置。一旦开始运行生产负载或并行测试多个模型额外的 RAM 投资就能迅速获得回报。2.6 CPU处理器和 SSD存储对于 LLM 推理你的 CPU 出人意料地并不重要。GPU 几乎承担了所有重活。只要 VRAM 容量匹配Intel-Core-i7 和像 N100 这样的低功耗处理器提供的推理速度基本上是一样的。CPU 重要的地方在于分词速度将文本转换为模型可读的标记和上下文长度。更快的核心能提供些许帮助但是 CPU 不算瓶颈不值得过度投资。即使是较旧的 Ryzen-5-5600X 或者 i5–12400 也足够了。GPU 加速完全压倒了 CPU 性能。除非你同时也在使用那台服务器处理其他工作负载否则避免将你的 LLM 配置与高端 CPU 搭配。3.5GHz 或更好的四核处理器足够完美地处理分词。你的钱应该投入到 GPU 和 RAM 上而不是 CPU。存储比 CPU 更重要。LLM 模型文件很大。一个以 4-bit 形式存在的 70B 模型是 35 ~ 40GB。多个模型很容易超过 200GB。NVMe SSD 加载这些文件比 SATA SSD 快 5 6 倍。差异非常明显NVMe 可以做到 10 ~ 20us 延迟和大约 3500 MB/s 的读取速度。SATA 最高延迟约为 100us读取速度大约 600MB/s。对于模型加载NVMe 减少了 30% 到 50% 的初始化时间。如果你在多个模型之间切换或频繁重启服务NVMe SSD 可以显著改善 SATA 硬盘的糟糕体验。存储建议预算够的话至少要配一个 512GB 的 NVMe 固态硬盘。如果打算用 Proxmox 做实际的多模型场景那 1TB 的 NVMe 才是比较实际的。具体用哪个型号关系不大容量更重要。西部数据黑盘 SN850X 和三星 990 Pro 都是比较可靠的选择。如果可以的话尽量避免 QLC 闪存每个存储单元存 4 个比特因为 TLC 闪存每个存储单元存 3 个比特在处理 LLM 工作时能提供更好的持续读写性能因为你需要反复读取很大的模型文件。建议配置从入门到发烧3.1 Ollama 入门套件初级300 ~ 400 美元这个配置可以让你在极低的预算下尝试 LLMs。目标显存 12GB二手 NVIDIA RTX-3060-12GB GPU200 ~ 250 美元B450/B550 AM4 芯片组主板二手 AMD Ryzen-5-5600X CPU100 ~ 120 美元或同等产品32GB DDR4 RAM80 ~ 100 美元512GB NVMe SSD50 ~ 70 美元650W 80 Bronze 电源60 ~ 80 美元总成本新的大约 550 ~ 700美元如果购买二手更便宜。适合业余使用学习 Ollama测试 7B 模型在不进行大量投资的情况下体验本地 AI。性能预期运行 Llama-3-8B 时每秒大概处理 7 ~ 10 个 token。量化 13B 模型可以运行但会比较卡顿。只支持单个模型加载和推理不支持多模型并发。这只是一个学习用的工具不是生产级系统。为什么这样配置RTX-3060-12GB 按 GPU 标准来说已经非常老旧2020 年发布但对于小模型来说仍然非常出色。32GB 系统内存足以应对单模型工作负载。没有花哨的功能没有 Proxmox没有虚拟机只是一个直接安装的 Ubuntu Server由 Ollama 掌控全局。你可以初步了解量化技术并体验不同大小的模型表现。体验上一个月或两个月你就会明白自己是否需要花钱搞一个更大的系统。3.2 DevOps 家庭实验室中档800 ~ 1200 美元可以运行 Proxmox16GB GPU 加上最少 64GB 系统内存。新 NVIDIA RTX-4060-Ti 16GB 版本499 美元或二手 RTX-3090700 ~ 800 美元二手市场Supermicro X12 系列主板或带有 VT-d/IOMMU 支持用于 GPU 直通的 ASUS ProArt B550二手 AMD Ryzen-7-5800X3D或 Intel i7–12700K CPU200 ~ 250 美元64GB DDR5 RAM200 ~ 250 美元1TB NVMe SSD80 ~ 120 美元850W 80 Gold 电源100 ~ 150 美元。总成本新的大约 1300 ~ 1800 美元购买中端二手 GPU 则约 900 ~ 1200 美元。适合在 Proxmox 上运行多个虚拟机同时托管 LLM 服务和其他工作负载测试基础设施与 CI/CD 流水线集成。性能预期在 4-bit 精度下Llama-3-13B 每秒处理 12 到 15 个 token。通过虚拟机实现资源隔离可以同时运行多个 7B 模型。对 30B 模型也能进行量化处理运行流畅。实际测试表明这一级别可以同时承载开发环境、监控堆栈和推理服务而且不会出现令人头疼的资源争用问题。为什么这样配置64GB 系统内存将此平台转变为多负载工作平台。Proxmox GPU 直通变得真正实用。你可以在一个虚拟机中运行 13B 模型在另一个虚拟机中运行开发环境同时仍能保持系统稳定性。RTX-4060-Ti 的能效165W意味着即使 7 * 24 小时运行电费也合理。这就是你停止捣鼓玩具并开始搭建实际生产工具的配置。你开始认真学习 Proxmox理解资源分配并体验生产级虚拟机隔离的工作方式。3.3 AI 训练中心专家2500 美元这是为了实际有产出的工作微调、大模型、生产级推理任务。24GB 显存128GB 系统内存考虑多 GPU。NVIDIA-RTX-4090 24GB1200 ~ 1500 美元或多 GPU 设置双 RTX-4090 或专业卡如 RTX-6000ASUS Pro WS Z790-SAGE UEFI 主板具有多 PCIe 插槽支持多 GPU 场景AMD Threadripper 5990WX或 Intel Xeon W5–3435X500 ~ 1000 美元128 到 256GB DDR5 RAM600 ~ 1200 美元4TB NVMe SSD多个驱动器RAID 0 用于吞吐量300 ~ 500 美元1600W 80 Platinum 电源300 ~ 500 美元总成本高端单 GPU 4000 ~ 7000 美元多 GPU 配置 8000 ~ 15000 美元以上。适合生产级 LLM 服务私有模型微调研究高吞吐量推理多模型并发服务。性能预期在 Llama-3-70B 模型上4-bit 精度下每秒可达 20 至 30 个 token。通过极端量化1.58-bit ~ 2-bit可实现 DeepSeek-R1-671B 推理但质量会明显下降。可在私有数据集上微调 13B ~ 70B 模型。通过多 GPU 并行和模型分片策略可同时推理多个 70B 等价模型。为什么这样配置RTX-4090 的 24GB 显存可运行 4-bit 量化的 70B 模型。128GB 系统内存支持模型并行化策略在多个 GPU 之间分片冗余加载以实现快速模型切换。高核数 CPU比如Threadripper 的 32 核以上能加速批量推理的预处理和分词。这套配置可以在消费级硬件上实现接近数据中心的性能。此时你不再是在实验而是正在运行一个推理服务可以为一个小团队提供服务或成为 API 接入点。需要用到的软件运行这些配置中的任何一个都需要特定的软件。Proxmox VE 成为你的虚拟化 hypervisor特别是在中端和专家配置中。它管理虚拟机资源的分配启用 GPU 透传在虚拟机中支持原生的 NVIDIA 驱动并隔离工作负载。裸金属 hypervisors 在 GPU 透传方面需要大量的故障排除Proxmox 处理得优雅。它是免费的、开源的并在生产环境中被广泛采用。Ubuntu Server 是你 Proxmox 虚拟机中的操作系统。它提供最佳的 NVIDIA 驱动程序兼容性、稳定的软件包仓库以及广泛的 Ollama 支持。CentOS/RHEL 可以工作但为业余爱好者引入了不必要的麻烦。Windows 虚拟机也可以工作不过会增加开销和许可成本除非你有特定的原因否则跳过它。截至 2025 年Ubuntu Server 22.04 LTS 是标准版本提供五年的安全更新。Ollama 简化了所有事情。它是一个单命令工具通过 REST API 下载、量化和提供大型语言模型。你不再需要与 llama.cpp、GPTQ 工具或量化框架“纠缠”你只需运行ollama pull llama3:13b-q4_K_M几秒钟后模型就在localhost:11434上可用。Ollama 隐藏了基础设施的复杂性。在幕后它正在优化 GPU offloading、管理上下文窗口和处理模型加载你永远不需要看到这种复杂性。它是裸硬件加速和用户友好推理之间的桥梁。Open WebUI 把 Ollama 用一个类似 ChatGPT 的界面包装起来。如果你不是用 REST API 编程Open WebUI 就能给你一个基于网络的聊天、图像理解和模型切换的前端。这个不是必须的但它能大大提高你网络上的非技术人员或者测试不同模型不用 API 调用时的可用性。CUDA Toolkit 和 cuDNN 必须在宿主 Proxmox 系统上安装版本必须匹配。Proxmox 会处理 GPU 驱动程序的安装但 CUDA 库才能让 GPU 真正用于计算。对于 NVIDIA RTX 显卡2025 年 CUDA 12.1 是标准配置。较旧的 GPURTX 2000/3000 系列可能需要 CUDA 11.8。版本不匹配是“GPU 未检测到”错误的一个常见原因安装前一定要确认兼容性。版本匹配很重要错误的组合会浪费大量排错时间。结论显存是配置关键显存VRAM是本地 LLM 部署的决定性因素。其他所有东西CPU、内存、存储、软件都是为了优化显存。12GB 显存的 GPU 将限制你使用 7B 模型以及高度量化的 13B 变体。16GB 显存的 GPU 可以流畅运行 13B ~ 30B 范围的模型。24GB 显存的 GPU 是 70B 模型的入门级。这并非随意而为而是神经网络工作的物理学原理。内存访问模式对推理延迟的影响远远大于硬件计算能力。你下一步要做的是选择哪些模型适合你然后根据模型确定显存大小。如果你想在本地运行 Llama-3-70B那 24GB 显存是少不了的。如果你觉得 7B 推理模型的性能就够用了那买个预算级的 RTX-3060总共花不到 700 美元就能搞定。如果你想要灵活性和未来扩展又不想超出预算那 2025 年显存性价比最高的就是 RTX-4060-Ti 16GB 版本。硬件确定后Proxmox 的设置就开始了。GPU 透传是裸硬件和生产化基础设施之间的桥梁。这就是这个系列第二天要要讲的内容——GPU 透传配置教程是实现真正本地 AI 独立性的最后一块拼图。你会从“我有带 GPU 的硬件”转变为“我有一个在隔离虚拟机中运行多个模型的生产级 LLM 服务器”。这里给大家精心整理了一份全面的AI大模型学习资源包括AI大模型全套学习路线图从入门到实战、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等资料免费分享扫码免费领取全部内容1. 成长路线图学习规划要学习一门新的技术作为新手一定要先学习成长路线图方向不对努力白费。这里我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。2. 大模型经典PDF书籍书籍和学习文档资料是学习大模型过程中必不可少的我们精选了一系列深入探讨大模型技术的书籍和学习文档它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。书籍含电子版PDF3. 大模型视频教程对于很多自学或者没有基础的同学来说书籍这些纯文字类的学习教材会觉得比较晦涩难以理解因此我们提供了丰富的大模型视频教程以动态、形象的方式展示技术概念帮助你更快、更轻松地掌握核心知识。4. 2026行业报告行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。5. 大模型项目实战学以致用当你的理论知识积累到一定程度就需要通过项目实战在实际操作中检验和巩固你所学到的知识同时为你找工作和职业发展打下坚实的基础。6. 大模型面试题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我们将提供精心整理的大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。7. 资料领取全套内容免费抱走学 AI 不用再找第二份不管你是 0 基础想入门 AI 大模型还是有基础想冲刺大厂、了解行业趋势这份资料都能满足你现在只需按照提示操作就能免费领取扫码免费领取全部内容

更多文章