大模型小白推荐一下本地模型

jiezou · 2026-06-22T02:31:39Z

https://i.imgur.com/lsS0QHT.jpeg 有台闲置的小主机，换个 2080ti 魔改显卡，可能偏向于知识库的用途,能跑哪些本地模型呢？

本地模型

知识库

显卡

25 replies • 2026-06-22 20:27:25 +08:00

1

aptupdate

12h 32m ago via iPhone

这个性能和显存的卡好像也跑不了什么模型……
试试 Gemma4 吧，4B 应该能跑得起来。

2

jiezou

OP

12h 24m ago

@aptupdate 入门学习为主,跑业务肯定差得远

3

tool2dx

12h 2m ago

1

22G 显存基本上大部分本地模型都能跑了.

4

TwilightCool

11h 59m ago

2

https://www.canirun.ai/

5

NUT00

11h 25m ago

qwen3.6 27B 吧，上下文拉低一点，Q4 应该能跑

6

Ryanzlab

11h 12m ago

一点用都没有，8G 显存，打游戏都够呛，跑 AI 别想了

7

magic1187

11h 8m ago

至少 16G 显存吧，不然部署起来也没用。

8

unusualcat

11h 2m ago

1

你直接问 gpt 就行，让它给你推荐，你拉下来试用，看哪个满足你的需求。
我局域网里有一个 gtx1060 6gb 显卡的笔记本，装了 ollama ，合盖运行，映射端口给局域网另一台 Mac 电脑用。拿来翻译字幕，给视频做总结都可以的。写代码不行。
MacBook-Pro ~ % ollama list
NAME ID SIZE MODIFIED
demonbyron/HY-MT1.5-1.8B:latest f2ab05e35468 1.1 GB 15 hours ago
qwen3:4b 359d7dd4bcda 2.5 GB 17 hours ago
deepseek-r1:8b 6995872bfe4c 5.2 GB 20 hours ago
qwen3.5:2b-q4_K_M 124a03c34777 1.9 GB 20 hours ago
qwen3:4b-instruct-2507-q4_K_M 0edcdef34593 2.5 GB 20 hours ago
qwen2.5-coder:3b f72c60cabf62 1.9 GB 20 hours ago

8b 模型会溢出，变成内存➕显存混合跑，速度低很多。

9

ovtfkw

10h 57m ago

可以 @站长

10

rimworld

10h 57m ago

1

让 gpt 帮你配置内存推理的方案就行了，可以跑 26b 量化版本的模型。内存就是速度慢一点。只用显卡的话，那就是 4b ，6b 。

11

unknow1

10h 53m ago

1

重排模型：接入 bge-rerank 重排模型(ollama 不支持重排模型，需 docker 运行)或 qwen 重排模型
向量模型：modelscope.cn/Qwen/Qwen3-Embedding-4B-GGUF:latest
文本模型：modelscope.cn/Qwen/Qwen3-8B-GGUF:latest

12

unknow1

10h 52m ago

这三个测试用，要想好用，你这个配置不够

13

grimbedroom

10h 35m ago

1

https://www.canirun.ai/ 或许可以试试这个

14

jiezou

OP

10h 12m ago

感谢 v 友帮助，已购等到货上机测试。

15

Lin137

9h 31m ago

https://github.com/pewdiepie-archdaemon/odysseus
可以看下这个项目，里面有个 cookbook 的小功能，可以自动推荐自己机器最适合运行的本地大模型

16

opeth

9h 17m ago

2080ti 22G 可以跑 qwen3.6-35B-A3B ，也可以试一下 Gemma4 系列的模型

17

h4ckm310n

8h 46m ago

22G 显存，qwen3.6 35b 或者 gemma4 26b 吧

18

abel533

7h 49m ago

使用 llama-server ，可以试试 https://huggingface.co/unsloth/gemma-4-26B-A4B-it-qat-GGUF

我在 sd-webui 刚出的时候买了个 2080ti 11G ，用了几年后换了 22G ，现在跑这种小模型都没问题。你这主机配置太高了，我还用的 2015 年的至强+16G 内存，现在的 CPU 和内存成了瓶颈。

19

abel533

7h 44m ago

@abel533 还可以学学 comfyui ，试试 zimageturbo 生图（和 gptimage2 一样的效果（除去文字布局外）） 1K 的图基本上 10 秒左右出图。还可以试试 FLUX.2-klein-9B 的 image edit ，速度也很快。

20

Shielber

7h 20m ago

玩本地 AI 起步是 16G 显存，大部分人卡在这

21

jhytxy

6h 55m ago via iPhone

gemma4 31b qat
训练就针对 q4 量化

22

coefu

6h 14m ago

@Shielber 起步是 96G ，你打错数字了。

23

cowcomic

5h 47m ago

2080ti 的魔改版印象是 22G 显存
上 qwen3.5-9b 的 int4 量化版，上下文缩小点儿
还要留一部分显存跑 embedding 和 rerank 模型
embedding 推荐 gte-qwen2-1.5b ，能支持长上下文，RAG 神器，找个 int4 量化版本
rerank 推荐 bge-rerank-m2 ，能支持长上下文，RAG 神器
上面三个模型应该能勉勉强强装下，不够的话，就把 LLM 的上下文再缩一些，量化的话 int4 一下就不建议了

要是不非得追求私有化部署的话，买显卡的钱不如用线上模型了，现在都挺便宜的

24

PbCopy111

5h 42m ago

我也想跑本地来着，后来觉得还不如用免费模型呢。。。比如硅基的 qwen3-8b 起码免费的，我觉得用着跟本地大模型的速度差不多。

25

yh7gdiaYW

2h 40m ago

qwen3.6-35b-a3b-fp4 ，qwen3-embedding-0.6b-fp8,qwen3-rerank-0.6b-fp8 ，基本塞满显存