在阿里云的4核8G服务器上部署 Ollama 是完全可行的,尤其适合运行轻量级或中等规模的开源大模型(如 Llama3-8B、Phi-3、Mistral-7B 等)。以下是详细的部署步骤和优化建议。
✅ 一、环境准备(阿里云ECS)
-
选择实例
- 实例类型:通用型
ecs.c6.large或ecs.g6.large(4核8G) - 操作系统:推荐 Ubuntu 20.04 / 22.04 LTS
- 安全组:开放端口
11434(Ollama默认API端口)和22(SSH)
- 实例类型:通用型
-
连接到服务器
ssh root@your-server-ip
✅ 二、安装 Ollama
# 下载并安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh
# 启动 Ollama 服务
systemctl start ollama
# 设置开机自启
systemctl enable ollama
⚠️ 注意:Ollama 官方支持 Linux x86_64,阿里云ECS默认满足。
✅ 三、配置 Ollama(可选优化)
-
修改监听地址(允许外部访问)
默认只监听
127.0.0.1,若需远程调用 API:sudo nano /etc/systemd/system/ollama.service在
ExecStart后添加环境变量:Environment="OLLAMA_HOST=0.0.0.0:11434"保存后重启服务:
systemctl daemon-reexec systemctl restart ollama -
设置用户权限(推荐)
usermod -aG ollama $USER
✅ 四、拉取并运行模型
示例:运行 Llama3-8B
ollama run llama3
或后台运行:
nohup ollama run llama3 > ollama.log 2>&1 &
💡 首次运行会自动下载模型(约 4-5GB),耗时取决于网络速度(阿里云国内带宽较快)。
✅ 五、通过 API 调用(Python 示例)
import requests
response = requests.post(
"http://your-server-ip:11434/api/generate",
json={
"model": "llama3",
"prompt": "你好,请介绍一下你自己。"
}
)
print(response.json()['response'])
✅ 六、性能与资源建议
| 模型 | 显存需求(GPU) | 内存需求(CPU) | 是否适合 4核8G |
|---|---|---|---|
Phi-3-mini (3.8B) |
– | ~6GB | ✅ 推荐 |
Llama3-8B |
– | ~7-8GB | ✅ 可运行(关闭其他程序) |
Mistral-7B |
– | ~7GB | ✅ 可运行 |
Llama3-70B |
– | >32GB | ❌ 不适合 |
📌 建议:
- 使用量化版本(如
llama3:8b-instruct-q4_K_M)减少内存占用。- 示例:
ollama run llama3:8b-instruct-q4_K_M
✅ 七、安全建议
- 防火墙限制 API 访问
- 仅允许可信 IP 访问
11434端口
- 仅允许可信 IP 访问
- 使用 Nginx + Basic Auth 做反向X_X(生产环境)
- 避免暴露在公网无保护状态
✅ 八、常见问题排查
-
内存不足?
- 关闭不必要的服务
- 添加 Swap(临时缓解):
sudo fallocate -l 4G /swapfile sudo chmod 600 /swapfile sudo mkswap /swapfile sudo swapon /swapfile
-
无法X_X访问?
- 检查安全组规则是否放行
11434 - 检查
OLLAMA_HOST=0.0.0.0:11434
- 检查安全组规则是否放行
-
下载慢?
- 使用阿里云内网或搭配X_X(如有)
✅ 总结
✅ 4核8G阿里云服务器可以顺利运行 Ollama + 中小模型(如 Llama3-8B 量化版)
🔧 适合个人学习、测试、轻量级聊天机器人等场景
⚠️ 不适合高并发或多人大模型推理
如果你有具体想跑的模型(比如 qwen、baichuan 等),也可以告诉我,我可以提供对应的 Modelfile 或部署建议。
轻量云Cloud