1
aptupdate 12h 32m ago via iPhone
这个性能和显存的卡好像也跑不了什么模型……
试试 Gemma4 吧,4B 应该能跑得起来。 |
3
tool2dx 12h 2m ago 22G 显存基本上大部分本地模型都能跑了.
|
4
TwilightCool 11h 59m ago |
5
NUT00 11h 25m ago
qwen3.6 27B 吧,上下文拉低一点,Q4 应该能跑
|
6
Ryanzlab 11h 12m ago
一点用都没有,8G 显存,打游戏都够呛,跑 AI 别想了
|
7
magic1187 11h 8m ago
至少 16G 显存吧,不然部署起来也没用。
|
8
unusualcat 11h 2m ago 你直接问 gpt 就行,让它给你推荐,你拉下来试用,看哪个满足你的需求。
我局域网里有一个 gtx1060 6gb 显卡的笔记本,装了 ollama ,合盖运行,映射端口给局域网另一台 Mac 电脑用。拿来翻译字幕,给视频做总结都可以的。写代码不行。 MacBook-Pro ~ % ollama list NAME ID SIZE MODIFIED demonbyron/HY-MT1.5-1.8B:latest f2ab05e35468 1.1 GB 15 hours ago qwen3:4b 359d7dd4bcda 2.5 GB 17 hours ago deepseek-r1:8b 6995872bfe4c 5.2 GB 20 hours ago qwen3.5:2b-q4_K_M 124a03c34777 1.9 GB 20 hours ago qwen3:4b-instruct-2507-q4_K_M 0edcdef34593 2.5 GB 20 hours ago qwen2.5-coder:3b f72c60cabf62 1.9 GB 20 hours ago 8b 模型会溢出,变成内存➕显存混合跑,速度低很多。 |
9
ovtfkw 10h 57m ago
可以 @站长
|
10
rimworld 10h 57m ago 让 gpt 帮你配置内存推理的方案就行了,可以跑 26b 量化版本的模型。内存就是速度慢一点。只用显卡的话,那就是 4b ,6b 。
|
11
unknow1 10h 53m ago 重排模型:接入 bge-rerank 重排模型(ollama 不支持重排模型,需 docker 运行)或 qwen 重排模型
向量模型:modelscope.cn/Qwen/Qwen3-Embedding-4B-GGUF:latest 文本模型:modelscope.cn/Qwen/Qwen3-8B-GGUF:latest |
12
unknow1 10h 52m ago
这三个测试用,要想好用,你这个配置不够
|
13
grimbedroom 10h 35m ago https://www.canirun.ai/ 或许可以试试这个
|
14
jiezou OP 感谢 v 友帮助,已购等到货上机测试。
|
15
Lin137 9h 31m ago
https://github.com/pewdiepie-archdaemon/odysseus
可以看下这个项目,里面有个 cookbook 的小功能,可以自动推荐自己机器最适合运行的本地大模型 |
16
opeth 9h 17m ago
2080ti 22G 可以跑 qwen3.6-35B-A3B ,也可以试一下 Gemma4 系列的模型
|
17
h4ckm310n 8h 46m ago
22G 显存,qwen3.6 35b 或者 gemma4 26b 吧
|
18
abel533 7h 49m ago
使用 llama-server ,可以试试 https://huggingface.co/unsloth/gemma-4-26B-A4B-it-qat-GGUF
我在 sd-webui 刚出的时候买了个 2080ti 11G ,用了几年后换了 22G ,现在跑这种小模型都没问题。你这主机配置太高了,我还用的 2015 年的至强+16G 内存,现在的 CPU 和内存成了瓶颈。 |
19
abel533 7h 44m ago
@abel533 还可以学学 comfyui ,试试 zimageturbo 生图(和 gptimage2 一样的效果(除去文字布局外)) 1K 的图基本上 10 秒左右出图。还可以试试 FLUX.2-klein-9B 的 image edit ,速度也很快。
|
20
Shielber 7h 20m ago
玩本地 AI 起步是 16G 显存,大部分人卡在这
|
21
jhytxy 6h 55m ago via iPhone
gemma4 31b qat
训练就针对 q4 量化 |
23
cowcomic 5h 47m ago
2080ti 的魔改版印象是 22G 显存
上 qwen3.5-9b 的 int4 量化版,上下文缩小点儿 还要留一部分显存跑 embedding 和 rerank 模型 embedding 推荐 gte-qwen2-1.5b ,能支持长上下文,RAG 神器,找个 int4 量化版本 rerank 推荐 bge-rerank-m2 ,能支持长上下文,RAG 神器 上面三个模型应该能勉勉强强装下,不够的话,就把 LLM 的上下文再缩一些,量化的话 int4 一下就不建议了 要是不非得追求私有化部署的话,买显卡的钱不如用线上模型了,现在都挺便宜的 |
24
PbCopy111 5h 42m ago
我也想跑本地来着,后来觉得还不如用免费模型呢。。。比如硅基的 qwen3-8b 起码免费的,我觉得用着跟本地大模型的速度差不多。
|
25
yh7gdiaYW 2h 40m ago
qwen3.6-35b-a3b-fp4 ,qwen3-embedding-0.6b-fp8,qwen3-rerank-0.6b-fp8 ,基本塞满显存
|