开源 LLM 精选：本地部署完全指南

编者按：不想把数据上传到云端？想在自己的电脑上跑 AI？2026 年，本地部署开源 LLM 的成本已经低到”免费 + 一台普通电脑”。本文基于 Ollama 官方文档、CSDN 部署指南、Red Hat 性能测试，带你从零搭建本地 AI 环境。

一、为什么要本地部署？

优势	说明
隐私安全	数据完全在本地，不上传云端
零成本	开源模型免费，没有 API 调用费用
无限制	没有 Token 配额、速率限制
离线可用	断网也能用
可定制	可以 Fine-tuning 你自己的模型

二、核心工具：Ollama

Ollama 是目前最简单、最流行的本地 LLM 运行工具。

GitHub Stars: 165k+
支持平台: macOS / Windows / Linux
支持模型: 150+ 个开源模型

安装（3 步）

macOS：

brew install ollama

Windows：

# 从 https://ollama.com/download 下载安装包

Linux：

curl -fsSL https://ollama.com/install.sh | sh

三、推荐模型

模型	参数量	中文	代码	最低配置	适合场景
DeepSeek-R1	7B	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	16GB 内存	编程、推理、日常
Qwen3	7B	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	16GB 内存	中文写作、翻译
Llama 3.2	3B	⭐⭐	⭐⭐⭐	8GB 内存	低配机器、轻量任务
Mistral	7B	⭐⭐⭐	⭐⭐⭐⭐	16GB 内存	英文文档、代码补全
Phi-3	3.8B	⭐⭐	⭐⭐⭐	8GB 内存	超低配设备

三条下载命令搞定：

# 编程首选
ollama pull deepseek-r1:7b

# 中文首选
ollama pull qwen3:7b

# 低配设备
ollama pull llama3.2:3b

四、运行模型

# 命令行对话
ollama run deepseek-r1:7b

# API 服务（端口 11434）
ollama serve

API 调用示例：

import requests

response = requests.post(
    "http://localhost:11434/api/generate",
    json={
        "model": "deepseek-r1:7b",
        "prompt": "用 Python 写一个冒泡排序",
        "stream": False
    }
)
print(response.json()["response"])

五、Ollama vs vLLM：选哪个？

维度	Ollama	vLLM
定位	本地开发/个人使用	生产环境/高并发
安装	30 秒一条命令	15 分钟 Docker + 配置
并发能力	单用户（约 240 tokens/s）	多用户（约 1200 tokens/s）
支持 GPU	✅ 自动检测	✅ 原生多 GPU
适用场景	个人助手、本地开发	API 服务、企业部署

结论：

个人使用 → Ollama（简单、免费、够用）
生产环境/高并发 → vLLM（吞吐量高 5-10 倍）

六、硬件配置建议

你的设备	推荐模型	预期速度
集成显卡/轻薄本	Phi-3 (3.8B) / Qwen-1.5B	5-10 tokens/s
RTX 3060/4060 (8G)	DeepSeek-R1-7B / Qwen3-7B	15-20 tokens/s
RTX 4090/5090 (24G)	DeepSeek-R1-32B	30-50 tokens/s
Apple M2/M3 (16G)	Qwen3-7B	15-25 tokens/s

DeepSeek-R1-7B 在 16GB 内存的普通电脑上，日常对话完全流畅。代码生成首 Token 延迟约 2-3 秒。

七、进阶：搭建本地 AI 编程环境

Ollama（本地模型） + Continue（VS Code 插件） = 本地 AI 编程

安装 Continue

VS Code 插件市场搜索 “Continue”，安装后在 config.json 中配置：

{
  "models": [{
    "title": "DeepSeek R1 7B",
    "provider": "ollama",
    "model": "deepseek-r1:7b"
  }]
}

这样你就在 VS Code 中有了一个完全本地的 AI 编程助手，不依赖任何云服务。

八、避坑指南

坑	解法
下载速度慢	使用国内镜像或代理
显存不足	选更小的模型（如 3B 版本）
中文回答质量差	换 Qwen 系列（中文最强）
Ollama 服务占用端口	`ollama serve` 默认 11434，可配置
Windows 卡在安装	以管理员权限运行

九、总结

2026 年，本地部署 AI 的门槛已经降到一台 16GB 内存的电脑 + 一条命令。开源模型（DeepSeek、Qwen）的能力已接近闭源模型 80-90% 的水平，但完全免费、隐私可控。

推荐组合：
Ollama + DeepSeek-R1:7b（编程主力）
+ Qwen3:7b（中文创作）
+ Continue（VS Code AI 编程）
= 零成本本地 AI 工作站

参考来源：

Ollama 选型指南 - SegmentFault

Ollama vs vLLM 性能对比 - Red Hat

Ollama 本地部署完全指南 - AJie

DeepSeek/Qwen 本地部署步骤 - 腾讯云

vLLM vs Ollama - Markaicode