开源项目与方案 2026/6/1
开源 LLM 本地部署指南
开源LLM本地部署指南:Ollama、vLLM、Llama.cpp等框架的部署方案与性能优化实践。
A
AGISeed Team
AGISeed 作者
开源 LLM 精选:本地部署完全指南
编者按:不想把数据上传到云端?想在自己的电脑上跑 AI?2026 年,本地部署开源 LLM 的成本已经低到”免费 + 一台普通电脑”。本文基于 Ollama 官方文档、CSDN 部署指南、Red Hat 性能测试,带你从零搭建本地 AI 环境。
一、为什么要本地部署?
| 优势 | 说明 |
|---|---|
| 隐私安全 | 数据完全在本地,不上传云端 |
| 零成本 | 开源模型免费,没有 API 调用费用 |
| 无限制 | 没有 Token 配额、速率限制 |
| 离线可用 | 断网也能用 |
| 可定制 | 可以 Fine-tuning 你自己的模型 |
二、核心工具:Ollama
Ollama 是目前最简单、最流行的本地 LLM 运行工具。
GitHub Stars: 165k+
支持平台: macOS / Windows / Linux
支持模型: 150+ 个开源模型
安装(3 步)
macOS:
brew install ollama
Windows:
# 从 https://ollama.com/download 下载安装包
Linux:
curl -fsSL https://ollama.com/install.sh | sh
三、推荐模型
| 模型 | 参数量 | 中文 | 代码 | 最低配置 | 适合场景 |
|---|---|---|---|---|---|
| DeepSeek-R1 | 7B | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | 16GB 内存 | 编程、推理、日常 |
| Qwen3 | 7B | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | 16GB 内存 | 中文写作、翻译 |
| Llama 3.2 | 3B | ⭐⭐ | ⭐⭐⭐ | 8GB 内存 | 低配机器、轻量任务 |
| Mistral | 7B | ⭐⭐⭐ | ⭐⭐⭐⭐ | 16GB 内存 | 英文文档、代码补全 |
| Phi-3 | 3.8B | ⭐⭐ | ⭐⭐⭐ | 8GB 内存 | 超低配设备 |
三条下载命令搞定:
# 编程首选
ollama pull deepseek-r1:7b
# 中文首选
ollama pull qwen3:7b
# 低配设备
ollama pull llama3.2:3b
四、运行模型
# 命令行对话
ollama run deepseek-r1:7b
# API 服务(端口 11434)
ollama serve
API 调用示例:
import requests
response = requests.post(
"http://localhost:11434/api/generate",
json={
"model": "deepseek-r1:7b",
"prompt": "用 Python 写一个冒泡排序",
"stream": False
}
)
print(response.json()["response"])
五、Ollama vs vLLM:选哪个?
| 维度 | Ollama | vLLM |
|---|---|---|
| 定位 | 本地开发/个人使用 | 生产环境/高并发 |
| 安装 | 30 秒一条命令 | 15 分钟 Docker + 配置 |
| 并发能力 | 单用户(约 240 tokens/s) | 多用户(约 1200 tokens/s) |
| 支持 GPU | ✅ 自动检测 | ✅ 原生多 GPU |
| 适用场景 | 个人助手、本地开发 | API 服务、企业部署 |
结论:
- 个人使用 → Ollama(简单、免费、够用)
- 生产环境/高并发 → vLLM(吞吐量高 5-10 倍)
六、硬件配置建议
| 你的设备 | 推荐模型 | 预期速度 |
|---|---|---|
| 集成显卡/轻薄本 | Phi-3 (3.8B) / Qwen-1.5B | 5-10 tokens/s |
| RTX 3060/4060 (8G) | DeepSeek-R1-7B / Qwen3-7B | 15-20 tokens/s |
| RTX 4090/5090 (24G) | DeepSeek-R1-32B | 30-50 tokens/s |
| Apple M2/M3 (16G) | Qwen3-7B | 15-25 tokens/s |
DeepSeek-R1-7B 在 16GB 内存的普通电脑上,日常对话完全流畅。代码生成首 Token 延迟约 2-3 秒。
七、进阶:搭建本地 AI 编程环境
Ollama(本地模型) + Continue(VS Code 插件) = 本地 AI 编程
安装 Continue
VS Code 插件市场搜索 “Continue”,安装后在 config.json 中配置:
{
"models": [{
"title": "DeepSeek R1 7B",
"provider": "ollama",
"model": "deepseek-r1:7b"
}]
}
这样你就在 VS Code 中有了一个完全本地的 AI 编程助手,不依赖任何云服务。
八、避坑指南
| 坑 | 解法 |
|---|---|
| 下载速度慢 | 使用国内镜像或代理 |
| 显存不足 | 选更小的模型(如 3B 版本) |
| 中文回答质量差 | 换 Qwen 系列(中文最强) |
| Ollama 服务占用端口 | ollama serve 默认 11434,可配置 |
| Windows 卡在安装 | 以管理员权限运行 |
九、总结
2026 年,本地部署 AI 的门槛已经降到一台 16GB 内存的电脑 + 一条命令。开源模型(DeepSeek、Qwen)的能力已接近闭源模型 80-90% 的水平,但完全免费、隐私可控。
推荐组合:
Ollama + DeepSeek-R1:7b(编程主力)
+ Qwen3:7b(中文创作)
+ Continue(VS Code AI 编程)
= 零成本本地 AI 工作站
参考来源: