Linkmetax
← 返回博客
·Linkmetax 解决方案团队·15 分钟阅读

私有部署大模型成本测算:从 4090 到 H100 真实账单

私有部署 LLM 真实成本拆解。RTX 4090 / A6000 / L40S / A100 / H100 五档配置,并发性能、电费、3 年 TCO 全部对比。

私有部署LLM 成本AI 工作站GPU 选型

「我们公司想本地部署 LLM,大概要多少钱?」

这问题我们一年要被问 500 次。给的答案得分情况,因为「LLM 私有部署」本身是个范围极大的话题——可能是 8 万的桌面机,也可能是 800 万的机房。

这篇把 5 档典型配置的完整账单拆开给你看,包括硬件、电费、维护、机柜,3 年 TCO 一目了然。


一、为什么大多数人算成本算不清

误区 1:只算硬件价格 忽略了电费、散热、机柜、运维人力。电费 3 年累计可能超过硬件价

误区 2:把模型大小当算力需求 72B 模型不是「72B 显存」,量化后可以塞进 48G。算力需求看的是目标并发数 + token 输出速度

误区 3:用「能不能跑起来」判断够不够 跑起来是 1 秒/token 也叫跑起来。企业能用的标准是输出 30+ token/秒 + 支持你的并发


二、5 档典型配置 + 适配场景

档位 1:1×4090 桌面工作站

整机预算:5-8 万

  • 显存 24G,量化后能跑 Qwen2.5-7B / 14B、DeepSeek-Distill-7B
  • 并发 1-5 人(团队内部试水)
  • 适合:技术 PoC、小团队(< 10 人)内部知识库
  • 典型场景:研发部门内部代码助手 + 文档问答

档位 2:1×A6000 Ada / 2×4090 工作站

整机预算:10-18 万

  • A6000 显存 48G,能跑 Qwen2.5-32B 不量化、72B 量化
  • 2×4090 通过张量并行也可以跑 32B
  • 并发 5-15 人
  • 适合:中小企业(10-100 人)日常 AI 助手
  • 典型场景:100 人公司全员 AI 工具

档位 3:2×L40S 服务器

整机预算:30-45 万

  • 96G 显存,原生跑 Qwen2.5-72B(量化)
  • L40S 性能介于 A100 和 H100 之间,性价比之王
  • 并发 15-50 人
  • 适合:中型企业(100-500 人)主力 AI 服务
  • 典型场景:律所 + 咨询公司知识库主机

档位 4:4×A100 80G 服务器

整机预算:80-120 万

  • 320G 显存,原生跑 72B+ 不量化、多模型并行
  • 支持 NVLink 高速互联
  • 并发 50-200 人
  • 适合:大企业(500-2000 人)多业务线 AI 平台
  • 典型场景:金融机构合规审查 + 多场景 AI

档位 5:8×H100 80G 服务器

整机预算:200-400 万

  • 640G 显存,可以做训练 / 推理双用
  • 跑 DeepSeek V3(671B MoE)/ Llama 3.1 405B
  • 并发 200+ 人
  • 适合:集团客户、大厂、研究机构
  • 典型场景:央企级 AI 中台

三、3 年 TCO 完整对比

按以下条件计算:

  • 电价:1.0 元/度(商用平均)
  • 满载功率取 GPU 标称 + 系统 ~30%
  • 7×24 运行(实际企业 16h × 5 天可打 5 折)
  • 散热 PUE = 1.4
  • 维护人力:未单算

| 配置 | 硬件 | 3 年电费 | 3 年机柜 | 维护 | 3 年 TCO | |---|---|---|---|---|---| | 1×4090 | 7 万 | 1.8 万 | 0(放办公室)| 0 | 8.8 万 | | 1×A6000 / 2×4090 | 14 万 | 3.5 万 | 0 | 0 | 17.5 万 | | 2×L40S | 38 万 | 8 万 | 2 万 | 1 万 | 49 万 | | 4×A100 80G | 100 万 | 15 万 | 5 万 | 3 万 | 123 万 | | 8×H100 80G | 300 万 | 30 万 | 8 万 | 6 万 | 344 万 |

对比公有云 API 同等 QPS 月成本(DeepSeek V3,输入 1 元/百万 token):

| QPS | 月 token 用量 | 月 API 成本 | 3 年累计 | |---|---|---|---| | 1 | ~1 亿 | 200 元 | 7,200 元 | | 5 | ~5 亿 | 1,000 元 | 3.6 万 | | 20 | ~20 亿 | 4,000 元 | 14.4 万 | | 50 | ~50 亿 | 1 万 | 36 万 | | 100 | ~100 亿 | 2 万 | 72 万 |


四、什么时候自建划算?

把上面两表一对比,结论很清晰:

| 月 QPS | 推荐方案 | 原因 | |---|---|---| | < 5 | API(DeepSeek / 通义)| 自建机器闲着浪费 | | 5-20 | 看合规要求:能上云 → API;不能上云 → 4090 单机 | 经济成本接近 | | 20-50 | A6000 / L40S 自建或私有云 API | API 钱包开始疼了 | | > 50 | 必须自建| API 一年烧出一台机器钱 |

额外考虑

  • 合规强制本地 → 没得选
  • 数据敏感 → 看安全等级
  • 想做训练 / 微调 → 必须自建

五、采购建议

团队 < 10 人 / 想试水

👉 RTX 4090 单机 + Qwen2.5-7B / 14B

  • 预算 5-8 万,3 个月就能验证 ROI
  • 不行还能转岗成员工电脑,不浪费

团队 10-100 人 / 正式上线

👉 2×4090 或 A6000 工作站 + Qwen2.5-32B

  • 10-18 万,3-6 周交付
  • 配合 RAG 知识库,覆盖 90% 内部 AI 场景

团队 100-500 人 / 多场景

👉 2×L40S 服务器 + Qwen2.5-72B

  • 30-45 万,1-2 个月交付
  • 性价比最佳的中型方案

团队 500+ / 集团 / 合规

👉 4×A100 起步

  • 100 万起,正式立项
  • 找专业方案商,别自己拼

六、5 个绕不开的额外成本

很多企业第一次自建踩这几个坑:

  1. 机房空间 / 机柜租赁:1U 机柜年租约 5,000 元,4 卡服务器至少 3U
  2. 电力扩容:单台 8 卡服务器满载 3-5kW,普通办公楼空开扛不住
  3. 专线 / 网络:千兆远远不够,多机互联建议 100G InfiniBand
  4. 运维人力:一个能处理 NVIDIA 驱动 + vLLM + TensorRT-LLM 的工程师月薪 25-40k
  5. 意外维护:显卡保修 1-3 年,超过就是真金白银换卡

写在最后

要详细报价?我们 /hardware/ai-workstation 有 5 档配置全部现货,1-5 个工作日上门交付:

  • 4090 / A6000 / L40S / A100 / H100 现货
  • 含 Ubuntu / vLLM / TensorRT-LLM 预装
  • 1 年原厂保 + 7×24 远程支持
  • 集团客户支持租赁 / 融资租赁

联系销售取报价 →

📥PDF 白皮书

下载《私有部署大模型成本测算:从 4090 到 H100 真实账单》PDF 完整版

留下邮箱,立刻获取本文 PDF + 后续企业 AI / 软件采购干货

  • ✓ 含全部图表、检查清单、参考链接
  • ✓ 可用于内部分享 / 招投标资料引用
  • ✓ 后续更新自动推送 · 不发垃圾邮件

提交即表示同意我们处理你的邮箱用于发送资料 · 不会用于第三方营销

想把这些经验落到你的企业?

1 个工作日内出方案 · 可签 NDA · 支持招投标

联系解决方案架构师 →