私有部署大模型成本测算:从 4090 到 H100 真实账单
私有部署 LLM 真实成本拆解。RTX 4090 / A6000 / L40S / A100 / H100 五档配置,并发性能、电费、3 年 TCO 全部对比。
「我们公司想本地部署 LLM,大概要多少钱?」
这问题我们一年要被问 500 次。给的答案得分情况,因为「LLM 私有部署」本身是个范围极大的话题——可能是 8 万的桌面机,也可能是 800 万的机房。
这篇把 5 档典型配置的完整账单拆开给你看,包括硬件、电费、维护、机柜,3 年 TCO 一目了然。
一、为什么大多数人算成本算不清
误区 1:只算硬件价格 忽略了电费、散热、机柜、运维人力。电费 3 年累计可能超过硬件价。
误区 2:把模型大小当算力需求 72B 模型不是「72B 显存」,量化后可以塞进 48G。算力需求看的是目标并发数 + token 输出速度。
误区 3:用「能不能跑起来」判断够不够 跑起来是 1 秒/token 也叫跑起来。企业能用的标准是输出 30+ token/秒 + 支持你的并发。
二、5 档典型配置 + 适配场景
档位 1:1×4090 桌面工作站
整机预算:5-8 万
- 显存 24G,量化后能跑 Qwen2.5-7B / 14B、DeepSeek-Distill-7B
- 并发 1-5 人(团队内部试水)
- 适合:技术 PoC、小团队(< 10 人)内部知识库
- 典型场景:研发部门内部代码助手 + 文档问答
档位 2:1×A6000 Ada / 2×4090 工作站
整机预算:10-18 万
- A6000 显存 48G,能跑 Qwen2.5-32B 不量化、72B 量化
- 2×4090 通过张量并行也可以跑 32B
- 并发 5-15 人
- 适合:中小企业(10-100 人)日常 AI 助手
- 典型场景:100 人公司全员 AI 工具
档位 3:2×L40S 服务器
整机预算:30-45 万
- 96G 显存,原生跑 Qwen2.5-72B(量化)
- L40S 性能介于 A100 和 H100 之间,性价比之王
- 并发 15-50 人
- 适合:中型企业(100-500 人)主力 AI 服务
- 典型场景:律所 + 咨询公司知识库主机
档位 4:4×A100 80G 服务器
整机预算:80-120 万
- 320G 显存,原生跑 72B+ 不量化、多模型并行
- 支持 NVLink 高速互联
- 并发 50-200 人
- 适合:大企业(500-2000 人)多业务线 AI 平台
- 典型场景:金融机构合规审查 + 多场景 AI
档位 5:8×H100 80G 服务器
整机预算:200-400 万
- 640G 显存,可以做训练 / 推理双用
- 跑 DeepSeek V3(671B MoE)/ Llama 3.1 405B
- 并发 200+ 人
- 适合:集团客户、大厂、研究机构
- 典型场景:央企级 AI 中台
三、3 年 TCO 完整对比
按以下条件计算:
- 电价:1.0 元/度(商用平均)
- 满载功率取 GPU 标称 + 系统 ~30%
- 7×24 运行(实际企业 16h × 5 天可打 5 折)
- 散热 PUE = 1.4
- 维护人力:未单算
| 配置 | 硬件 | 3 年电费 | 3 年机柜 | 维护 | 3 年 TCO | |---|---|---|---|---|---| | 1×4090 | 7 万 | 1.8 万 | 0(放办公室)| 0 | 8.8 万 | | 1×A6000 / 2×4090 | 14 万 | 3.5 万 | 0 | 0 | 17.5 万 | | 2×L40S | 38 万 | 8 万 | 2 万 | 1 万 | 49 万 | | 4×A100 80G | 100 万 | 15 万 | 5 万 | 3 万 | 123 万 | | 8×H100 80G | 300 万 | 30 万 | 8 万 | 6 万 | 344 万 |
对比公有云 API 同等 QPS 月成本(DeepSeek V3,输入 1 元/百万 token):
| QPS | 月 token 用量 | 月 API 成本 | 3 年累计 | |---|---|---|---| | 1 | ~1 亿 | 200 元 | 7,200 元 | | 5 | ~5 亿 | 1,000 元 | 3.6 万 | | 20 | ~20 亿 | 4,000 元 | 14.4 万 | | 50 | ~50 亿 | 1 万 | 36 万 | | 100 | ~100 亿 | 2 万 | 72 万 |
四、什么时候自建划算?
把上面两表一对比,结论很清晰:
| 月 QPS | 推荐方案 | 原因 | |---|---|---| | < 5 | API(DeepSeek / 通义)| 自建机器闲着浪费 | | 5-20 | 看合规要求:能上云 → API;不能上云 → 4090 单机 | 经济成本接近 | | 20-50 | A6000 / L40S 自建或私有云 API | API 钱包开始疼了 | | > 50 | 必须自建| API 一年烧出一台机器钱 |
额外考虑:
- 合规强制本地 → 没得选
- 数据敏感 → 看安全等级
- 想做训练 / 微调 → 必须自建
五、采购建议
团队 < 10 人 / 想试水
👉 RTX 4090 单机 + Qwen2.5-7B / 14B
- 预算 5-8 万,3 个月就能验证 ROI
- 不行还能转岗成员工电脑,不浪费
团队 10-100 人 / 正式上线
👉 2×4090 或 A6000 工作站 + Qwen2.5-32B
- 10-18 万,3-6 周交付
- 配合 RAG 知识库,覆盖 90% 内部 AI 场景
团队 100-500 人 / 多场景
👉 2×L40S 服务器 + Qwen2.5-72B
- 30-45 万,1-2 个月交付
- 性价比最佳的中型方案
团队 500+ / 集团 / 合规
👉 4×A100 起步
- 100 万起,正式立项
- 找专业方案商,别自己拼
六、5 个绕不开的额外成本
很多企业第一次自建踩这几个坑:
- 机房空间 / 机柜租赁:1U 机柜年租约 5,000 元,4 卡服务器至少 3U
- 电力扩容:单台 8 卡服务器满载 3-5kW,普通办公楼空开扛不住
- 专线 / 网络:千兆远远不够,多机互联建议 100G InfiniBand
- 运维人力:一个能处理 NVIDIA 驱动 + vLLM + TensorRT-LLM 的工程师月薪 25-40k
- 意外维护:显卡保修 1-3 年,超过就是真金白银换卡
写在最后
要详细报价?我们 /hardware/ai-workstation 有 5 档配置全部现货,1-5 个工作日上门交付:
- 4090 / A6000 / L40S / A100 / H100 现货
- 含 Ubuntu / vLLM / TensorRT-LLM 预装
- 1 年原厂保 + 7×24 远程支持
- 集团客户支持租赁 / 融资租赁
下载《私有部署大模型成本测算:从 4090 到 H100 真实账单》PDF 完整版
留下邮箱,立刻获取本文 PDF + 后续企业 AI / 软件采购干货
- ✓ 含全部图表、检查清单、参考链接
- ✓ 可用于内部分享 / 招投标资料引用
- ✓ 后续更新自动推送 · 不发垃圾邮件
