全面梳理大模型部署工具：从硬件到平台

08月 21

全面梳理大模型部署工具：从硬件到平台

2025-08-21

Transformer, 人工智能, LLM, vLLM 0 评论 0 浏览

引言：大模型部署工具的百花齐放

让一个大模型跑起来，远不止 pip install 和 model.generate() 那么简单。从底层计算框架到上层服务接口，整个技术栈错综复杂，包含各种各样百花齐放的工具。笔者在刚开始学习这方面的知识时被各种五花八门的工具搞的眼花缭乱，为此，特意进行了整理并写成了本文章。

本文将带你自底向上系统梳理当前主流的大模型部署工具链，这也是互联网上难得的对大模型部署工具进行系统梳理的文章。

一、硬件抽象层

在探讨大语言模型的部署时，我们首先需要关注的是底层的硬件支持。硬件抽象层是整个技术栈的基石，它提供了必要的计算资源和驱动支持，使得上层的应用能够高效运行。

一些主流的硬件平台如下：

NVIDIA GPU：通过CUDA提供对NVIDIA显卡的高度优化支持，包括张量核心加速等高级功能，非常适合深度学习训练与推理任务。
AMD GPU：ROCm是一个开源的GPU计算库，为AMD显卡提供类似CUDA的支持，适合那些对开源友好或使用AMD硬件的环境。
华为昇腾芯片：CANN是由华为开发的针对AI计算优化的架构，特别适用于大规模分布式训练的企业级应用。
Apple M系列芯片：利用Apple自研芯片的强大性能，通过Metal和MLX框架实现高效的机器学习任务处理，非常适合iOS/macOS设备上的本地部署。

硬件平台	驱动/计算库	主要特性	适用场景
NVIDIA GPU	CUDA	提供了对NVIDIA显卡的高度优化支持，包括张量核心加速等高级功能	深度学习训练与推理，尤其是需要高性能计算的任务
AMD GPU	ROCm	开源的GPU计算库，为AMD显卡提供类似CUDA的支持	对开源友好，或使用AMD硬件的环境
华为昇腾芯片	CANN	华为开发的针对AI计算优化的架构，特别适合大规模分布式训练	企业级应用，特别是华为生态系统内
Apple M系列芯片	Metal, MLX	利用Apple自研芯片的强大性能，通过Metal和MLX实现高效的机器学习任务处理	iOS/macOS设备上的本地部署，如mlc-llm

二、深度学习通用计算框架

深度学习通用计算框架提供张量计算与自动微分。这些框架是所有 AI 模型的基石，不仅服务于 LLM，也支撑着 CV、语音、推荐等任务。

一些主流的计算框架如下：

PyTorch：作为当前AI研究和开发的事实性标准，PyTorch提供了动态图机制，易于调试，并且拥有丰富的生态系统。
TensorFlow：以其生产部署成熟度著称，特别是在TF Serving方面表现突出，同时也有针对移动端的TFLite版本。
MindSpore：由华为开发，专为昇腾芯片优化，支持全场景AI计算，是国内替代方案的一个重要选择。
JAX：采用函数式编程风格，XLA编译优化使其在高性能计算领域表现出色，尤其是在TPU上。

框架	特点	适用场景
PyTorch	动态图、易调试、生态丰富	训练 & 推理，研究首选
TensorFlow	静态图、生产部署成熟（TF Serving）	工业级推理、移动端（TFLite）
MindSpore	华为自研，深度优化昇腾芯片，支持全场景	国产替代、信创项目
JAX	函数式编程、XLA 编译优化，适合高性能计算	研究前沿、TPU 优化

⚠️ 注意：PyTorch 是当前 LLM 生态的“事实标准”，绝大多数推理引擎都基于它构建。

三、专用推理引擎（性能导向）

当模型进入推理阶段，通用框架的性能往往不够。这时，就需要专门的推理引擎来优化吞吐、降低延迟、减少显存占用。它们通常不提供训练能力，但针对推理性能做了深度优化。

1. 通用推理加速引擎

引擎	基于	特点
ONNX Runtime	ONNX 模型格式	支持跨框架跨平台模型部署，适合中小模型和边缘设备
TensorRT	NVIDIA GPU	NVIDIA硬件专用格式，极致性能，需编译优化
MindIE	昇腾芯片	华为推理加速套件，支持多精度量化

2. LLM 专用推理引擎

llama.cpp 用纯 C/C++ 实现，支持在 MacBook、树莓派上运行 7B 模型，是个人用户的首选。
vLLM 是当前最流行的高性能推理引擎，其 PagedAttention 技术像操作系统管理内存一样管理显存，极大提升吞吐。
SGLang 是 vLLM 的强劲对手，采用 RadixAttention，在某些场景下性能更优。
TGI（text-generation-inference）由 Hugging Face 开发，用 Rust 编写，稳定性强，适合工业级部署。
TensorRT-LLM 是英伟达对大模型的“官方回答”，性能极致，但需编译，灵活性低。
TurboMind 由上海 AI Lab 开发，基于 TensorRT-LLM 进一步优化，据测试性能可达 vLLM 的 1.8 倍。

引擎	底层引擎	核心技术	是否支持部署HTTP接口
llama.cpp	C/C++ 自研	GGUF 格式、原生量化、CPU/GPU 混合推理	✅（简单）
vLLM	PyTorch + CUDA	PagedAttention、Continuous Batching	✅
SGLang	PyTorch + CUDA	RadixAttention、高吞吐	✅
TGI	Rust + PyTorch	FlashAttention、Paged Attention、Safetensors	✅
TensorRT-LLM	TensorRT	INT8/FP8 量化、Kernel 优化	❌
TurboMind	TensorRT-LLM	Persistent Batch、Blocked K/V Cache	❌

⚠️ 注意：尽管 vLLM、SGLang、TGI 支持 HTTP 接口，但它们通常不直接用于生产部署，因为缺乏模型管理、多实例调度等能力。

四、模型服务与部署工具（用户导向）

这一层的目标是简化部署流程，让用户能用一条命令或一个 UI 就启动模型服务。它们通常封装了下层推理引擎，并提供模型下载、管理、API 接口等功能。

一些主流的部署工具如下：

Ollama 是基于llama.cpp的部署工具，提供模型自动下载（貌似有自己的专用服务器），也是现在在个人玩家中最流行的大模型部署工具，但其不提供图形化管理界面，仅支持命令行操作
LM Studio 基于llama.cpp的部署工具，支持模型自动下载（从Huggingface等第三方服务器），提供图形化管理界面，无需命令行操作，专注桌面端用户体验
OpenLLM 是基于vLLM的部署工具，支持模型自动下载（从Huggingface等第三方服务器）、图形化管理界面
LMDeploy是上海人工智能实验室开发的基于Turbomind的命令行部署工具，支持下载模型（从Huggingface网站下载），但不提供图形化管理界面
Xinference 是支持多种推理引擎的LLM本地部署工具，包括llama.cpp，Transformers（本质上是对PyTorch的封装），vLLM和SGLang，支持模型自动下载（从Huggingface等第三方服务器）、图形化管理界面
LocalAI 是支持多种推理引擎的本地大模型部署工具，支持多模态模型，采用go语言编写，轻量化，支持模型自动下载、图形化管理界面
GPUStack 是一个用于运行 AI 模型的开源 GPU 集群管理器，支持 vLLM、 Ascend MindIE、llama-box（基于 llama.cpp 和 stable-diffusion.cpp）多种引擎，并提供广泛的模型支持，支持模型自动下载（从Huggingface等第三方服务器），提供强大的图形化工具用于GPU集群管理
NVIDIA Triton 是NVIDIA开发的推理服务器，可以支持TensorRT-LLM作为推理引擎来进行HTTP服务的部署，同时其也支持PyTorch等多种其他推理引擎，但其不支持模型自动下载，需要手动准备好模型再部署，同时也不提供图形化管理界面

工具名称	推理引擎基础	模型自动下载	图形化管理界面 (GUI)	主要特点与定位
Ollama	`llama.cpp`	✅（自有服务器）	❌	个人玩家中最流行的轻量级部署工具，简单易用，跨平台
LM Studio	`llama.cpp`	✅（Hugging Face等）	✅	专注桌面端用户体验，完全图形化操作，适合非技术用户
OpenLLM	`vLLM`	✅（Hugging Face等）	✅	支持多种后端，提供 API 和 Web UI，适合生产与开发环境
LMDeploy	`TurboMind`（上海AI Lab）	✅（Hugging Face）	❌	高性能推理部署工具，支持量化与转换，适合国产化优化
Xinference	多引擎支持： • `llama.cpp` • `Transformers` • `vLLM` • `SGLang`	✅（Hugging Face等）	✅	多后端兼容，功能全面，适合本地模型管理与推理服务部署
LocalAI	多引擎支持（类 Ollama 架构）	✅（Hugging Face等）	✅	轻量化，Go 语言编写，支持多模态模型，兼容 OpenAI API
GPUStack	多引擎支持： • `vLLM` • `Ascend MindIE` • `llama-box`（基于 llama.cpp / stable-diffusion.cpp）	✅（Hugging Face等）	✅	开源 GPU 集群管理器，支持分布式部署与集群监控
NVIDIA Triton	多引擎支持： • `TensorRT-LLM` • `PyTorch` • TensorFlow 等	❌（需手动准备模型）	❌	高性能企业级推理服务器，支持高并发、多框架，适合生产环境

事实上目前推理引擎和模型服务与部署工具这两层在网络上常常被混为一谈，都被称为大模型部署工具，我认为两者的区分主要在于其重点关注的角度，推理引擎是性能导向的，重点关注如何优化性能，模型服务与部署工具则是用户导向，重点关注用户启动和管理服务的易用性

五、模型分发与管理平台

没有模型权重，一切无从谈起。以下平台提供了模型的下载、版本管理和社区支持：

HuggingFace（抱抱脸🤗）：全球最大模型仓库，支持各种模型格式的下载，同时也支持数据集的下载，生态完善。同时拥有自己的自然语言处理工具库transformers，该库对底层通用计算框架（PyTorch等）进行了封装，使得执行NLP任务更加简单高效。
ModelScope（魔搭）：阿里主导的国产模型平台，HuggingFace的国产替代，同样也有类似于transformers的自己的工具库，名字就叫modelscope。

六、总结

从硬件驱动到模型平台，大模型部署已发展成一个层次清晰、分工明确的复杂生态系统。我们可以将其概括为一个 “五层架构”：

硬件抽象层：提供算力基础，决定了性能上限。
通用计算框架：构建模型的“操作系统”，PyTorch 仍是核心。
专用推理引擎：性能优化的“加速器”，针对 LLM 特性深度定制。
部署与服务工具：面向用户的“操作界面”，极大降低使用门槛。
模型分发平台：模型的“应用商店”，保障生态的开放与共享

大模型部署的门槛正在迅速降低。未来，我们或将看到更多“全栈一体化”的解决方案，进一步模糊各层边界，让“运行一个私有大模型”变得像安装一个普通软件一样简单。而作为开发者，理解这个生态的全景，将帮助你在纷繁的技术中做出更明智的选择。

标题：全面梳理大模型部署工具：从硬件到平台
作者：aopstudio
地址：https://neusoftware.top/articles/2025/08/21/1755735746268.html