开源 LLM 本地部署指南

开源LLM本地部署指南:Ollama、vLLM、Llama.cpp等框架的部署方案与性能优化实践。

A
AGISeed Team
AGISeed 作者

开源 LLM 精选:本地部署完全指南

编者按:不想把数据上传到云端?想在自己的电脑上跑 AI?2026 年,本地部署开源 LLM 的成本已经低到”免费 + 一台普通电脑”。本文基于 Ollama 官方文档、CSDN 部署指南、Red Hat 性能测试,带你从零搭建本地 AI 环境。


一、为什么要本地部署?

优势说明
隐私安全数据完全在本地,不上传云端
零成本开源模型免费,没有 API 调用费用
无限制没有 Token 配额、速率限制
离线可用断网也能用
可定制可以 Fine-tuning 你自己的模型

二、核心工具:Ollama

Ollama 是目前最简单、最流行的本地 LLM 运行工具。

GitHub Stars: 165k+
支持平台: macOS / Windows / Linux
支持模型: 150+ 个开源模型

安装(3 步)

macOS

brew install ollama

Windows

# 从 https://ollama.com/download 下载安装包

Linux

curl -fsSL https://ollama.com/install.sh | sh

三、推荐模型

模型参数量中文代码最低配置适合场景
DeepSeek-R17B⭐⭐⭐⭐⭐⭐⭐⭐⭐16GB 内存编程、推理、日常
Qwen37B⭐⭐⭐⭐⭐⭐⭐⭐⭐16GB 内存中文写作、翻译
Llama 3.23B⭐⭐⭐⭐⭐8GB 内存低配机器、轻量任务
Mistral7B⭐⭐⭐⭐⭐⭐⭐16GB 内存英文文档、代码补全
Phi-33.8B⭐⭐⭐⭐⭐8GB 内存超低配设备

三条下载命令搞定

# 编程首选
ollama pull deepseek-r1:7b

# 中文首选
ollama pull qwen3:7b

# 低配设备
ollama pull llama3.2:3b

四、运行模型

# 命令行对话
ollama run deepseek-r1:7b

# API 服务(端口 11434)
ollama serve

API 调用示例

import requests

response = requests.post(
    "http://localhost:11434/api/generate",
    json={
        "model": "deepseek-r1:7b",
        "prompt": "用 Python 写一个冒泡排序",
        "stream": False
    }
)
print(response.json()["response"])

五、Ollama vs vLLM:选哪个?

维度OllamavLLM
定位本地开发/个人使用生产环境/高并发
安装30 秒一条命令15 分钟 Docker + 配置
并发能力单用户(约 240 tokens/s)多用户(约 1200 tokens/s)
支持 GPU✅ 自动检测✅ 原生多 GPU
适用场景个人助手、本地开发API 服务、企业部署

结论

  • 个人使用 → Ollama(简单、免费、够用)
  • 生产环境/高并发 → vLLM(吞吐量高 5-10 倍)

六、硬件配置建议

你的设备推荐模型预期速度
集成显卡/轻薄本Phi-3 (3.8B) / Qwen-1.5B5-10 tokens/s
RTX 3060/4060 (8G)DeepSeek-R1-7B / Qwen3-7B15-20 tokens/s
RTX 4090/5090 (24G)DeepSeek-R1-32B30-50 tokens/s
Apple M2/M3 (16G)Qwen3-7B15-25 tokens/s

DeepSeek-R1-7B 在 16GB 内存的普通电脑上,日常对话完全流畅。代码生成首 Token 延迟约 2-3 秒。


七、进阶:搭建本地 AI 编程环境

Ollama(本地模型) + Continue(VS Code 插件) = 本地 AI 编程

安装 Continue

VS Code 插件市场搜索 “Continue”,安装后在 config.json 中配置:

{
  "models": [{
    "title": "DeepSeek R1 7B",
    "provider": "ollama",
    "model": "deepseek-r1:7b"
  }]
}

这样你就在 VS Code 中有了一个完全本地的 AI 编程助手,不依赖任何云服务。


八、避坑指南

解法
下载速度慢使用国内镜像或代理
显存不足选更小的模型(如 3B 版本)
中文回答质量差换 Qwen 系列(中文最强)
Ollama 服务占用端口ollama serve 默认 11434,可配置
Windows 卡在安装以管理员权限运行

九、总结

2026 年,本地部署 AI 的门槛已经降到一台 16GB 内存的电脑 + 一条命令。开源模型(DeepSeek、Qwen)的能力已接近闭源模型 80-90% 的水平,但完全免费、隐私可控。

推荐组合:
Ollama + DeepSeek-R1:7b(编程主力)
+ Qwen3:7b(中文创作)
+ Continue(VS Code AI 编程)
= 零成本本地 AI 工作站

参考来源