在 Ubuntu 24.04.4 LTS 上部署通义千问(Qwen)大模型,不存在一个单一的“官方安装版本”,因为 Qwen 系列模型是以开源权重文件形式发布的,而非像传统软件那样提供 .deb 安装包。
你需要根据硬件配置(主要是显存大小)和使用场景(推理、微调、本地运行)来选择具体的模型架构和运行框架。以下是针对 Ubuntu 24.04.4 LTS 的完整选型指南:
1. 核心决策:选择哪个模型架构?
Qwen 提供了多个参数量级,请根据你的 GPU 显存(VRAM)选择:
| 模型版本 | 参数量 | 推荐显存 (FP16) | 推荐显存 (INT4/量化) | 适用场景 |
|---|---|---|---|---|
| Qwen2.5-0.5B / 1.5B | 极小 | > 4GB | > 2GB | 树莓派、老旧笔记本、嵌入式设备 |
| Qwen2.5-3B | 小 | > 8GB | > 4GB | 入门级独显 (RTX 3050/4060)、单卡推理 |
| Qwen2.5-7B | 中等 | > 16GB | > 6GB | 主流推荐 (RTX 3060/4070/4090),平衡速度与效果 |
| Qwen2.5-14B | 较大 | > 24GB | > 10GB | 高端单卡 (RTX 3090/4090) 或双卡 |
| Qwen2.5-32B | 大 | > 48GB | > 18GB | 多卡服务器 (如 2x A100/4090) |
| Qwen2.5-72B | 超大 | > 144GB | > 48GB | 企业级多卡集群 |
注意:目前最新且推荐使用的是 Qwen2.5 系列(比 Qwen2 性能更强,支持更长上下文)。如果你追求极致效率,请选择带有
int4或int8量化版本的模型。
2. 软件环境准备 (Ubuntu 24.04.4 LTS)
Ubuntu 24.04 基于较新的内核和 Python 版本,建议按以下步骤初始化环境:
A. 安装基础依赖
sudo apt update
sudo apt install -y python3-pip git cmake build-essential
B. 安装 NVIDIA 驱动与 CUDA (如果你有 NVIDIA 显卡)
Ubuntu 24.04 通常自带较新的驱动,但建议通过官方源确认:
# 查看推荐驱动
ubuntu-drivers devices
# 例如安装 nvidia-driver-550
sudo ubuntu-drivers autoinstall
sudo reboot
验证 CUDA 是否可用: nvidia-smi
C. 创建虚拟环境并安装框架
推荐使用 vLLM(高性能推理)或 Ollama(最简单部署),或者 Transformers + Llama.cpp(CPU/GPU 混合)。
方案一:使用 Ollama (最简单,适合快速上手)
Ollama 会自动处理量化和底层优化,非常适合个人用户。
# 安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh
# 拉取 Qwen2.5 模型 (以 7B 为例,默认自动下载 int4 量化版)
ollama pull qwen2.5:7b
# 启动服务
ollama serve
方案二:使用 vLLM (适合高并发 API 服务)
vLLM 是目前推理速度最快的框架之一。
pip install vllm
# 运行推理 (以 7B 为例)
python -m vllm.entrypoints.api_server
--model Qwen/Qwen2.5-7B-Instruct
--port 8000
注:如果显存不足,可添加 --quantization awq 或 --quantization fp8 参数。
方案三:使用 Hugging Face Transformers (适合开发/微调)
pip install transformers accelerate torch sentencepiece
然后在 Python 代码中加载模型(需配合 bitsandbytes 进行量化以降低显存占用)。
3. 具体操作建议
场景 A:只有一张消费级显卡 (如 RTX 4090, 24GB)
- 推荐模型:
Qwen2.5-14B-Instruct-AWQ或Qwen2.5-14B-Instruct-GGUF(量化版)。 - 工具:推荐使用 Ollama 或 LM Studio (带 GUI),它们能自动管理显存。
- 命令示例:
ollama run qwen2.5:14b
场景 B:显存较小 (如 RTX 3060 12GB 或仅 CPU)
- 推荐模型:
Qwen2.5-7B-Instruct(必须使用 INT4 量化)。 - 工具:推荐使用 Llama.cpp (通过
llama-cpp-python库调用) 或 Ollama。 - 优势:量化后 7B 模型仅需约 5-6GB 显存,剩余空间留给系统和其他应用。
场景 C:需要作为 API 服务部署给多人使用
- 推荐工具:vLLM 或 TGI (Text Generation Inference)。
- 理由:支持高并发、PagedAttention 技术,显存利用率极高。
4. 总结与最终答案
在 Ubuntu 24.04.4 LTS 上安装千问大模型,没有单一的安装包,请遵循以下路径:
- 首选工具:直接安装 Ollama (
curl -fsSL https://ollama.com/install.sh | sh)。它最兼容 Ubuntu 24.04,无需手动配置复杂的 CUDA 环境变量,且内置了 Qwen2.5 系列的量化版本。 - 首选模型:
- 如果你的显卡显存 ≥ 16GB:选择
qwen2.5:14b(平衡智能与速度)。 - 如果你的显卡显存 ≥ 8GB:选择
qwen2.5:7b(性价比最高)。 - 如果你的显存 < 8GB:选择
qwen2.5:3b或qwen2.5:0.5b。
- 如果你的显卡显存 ≥ 16GB:选择
-
执行命令:
# 启动 Ollama 服务 ollama serve & # 运行你选择的模型 ollama run qwen2.5:7b
这种方式既利用了 Ubuntu 24.04 的新特性,又避免了手动编译 CUDA 算子可能遇到的版本冲突问题。
轻量云Cloud