jiezou
V2EX  ›  Local LLM

大模型小白推荐一下本地模型

  •  
  •   jiezou · 12h 36m ago · 2438 views

    有台闲置的小主机,换个 2080ti 魔改显卡,可能偏向于知识库的用途,能跑哪些本地模型呢?
    25 replies    2026-06-22 20:27:25 +08:00
    aptupdate
        1
    aptupdate  
       12h 32m ago via iPhone
    这个性能和显存的卡好像也跑不了什么模型……
    试试 Gemma4 吧,4B 应该能跑得起来。
    jiezou
        2
    jiezou  
    OP
       12h 24m ago
    @aptupdate 入门学习为主,跑业务肯定差得远
    tool2dx
        3
    tool2dx  
       12h 2m ago   ❤️ 1
    22G 显存基本上大部分本地模型都能跑了.
    TwilightCool
        4
    TwilightCool  
       11h 59m ago   ❤️ 2
    NUT00
        5
    NUT00  
       11h 25m ago
    qwen3.6 27B 吧,上下文拉低一点,Q4 应该能跑
    Ryanzlab
        6
    Ryanzlab  
       11h 12m ago
    一点用都没有,8G 显存,打游戏都够呛,跑 AI 别想了
    magic1187
        7
    magic1187  
       11h 8m ago
    至少 16G 显存吧,不然部署起来也没用。
    unusualcat
        8
    unusualcat  
       11h 2m ago   ❤️ 1
    你直接问 gpt 就行,让它给你推荐,你拉下来试用,看哪个满足你的需求。
    我局域网里有一个 gtx1060 6gb 显卡的笔记本,装了 ollama ,合盖运行,映射端口给局域网另一台 Mac 电脑用。拿来翻译字幕,给视频做总结都可以的。写代码不行。
    MacBook-Pro ~ % ollama list
    NAME ID SIZE MODIFIED
    demonbyron/HY-MT1.5-1.8B:latest f2ab05e35468 1.1 GB 15 hours ago
    qwen3:4b 359d7dd4bcda 2.5 GB 17 hours ago
    deepseek-r1:8b 6995872bfe4c 5.2 GB 20 hours ago
    qwen3.5:2b-q4_K_M 124a03c34777 1.9 GB 20 hours ago
    qwen3:4b-instruct-2507-q4_K_M 0edcdef34593 2.5 GB 20 hours ago
    qwen2.5-coder:3b f72c60cabf62 1.9 GB 20 hours ago

    8b 模型会溢出,变成内存➕显存混合跑,速度低很多。
    ovtfkw
        9
    ovtfkw  
       10h 57m ago
    可以 @站长
    rimworld
        10
    rimworld  
       10h 57m ago   ❤️ 1
    让 gpt 帮你配置内存推理的方案就行了,可以跑 26b 量化版本的模型。内存就是速度慢一点。只用显卡的话,那就是 4b ,6b 。
    unknow1
        11
    unknow1  
       10h 53m ago   ❤️ 1
    重排模型:接入 bge-rerank 重排模型(ollama 不支持重排模型,需 docker 运行)或 qwen 重排模型
    向量模型:modelscope.cn/Qwen/Qwen3-Embedding-4B-GGUF:latest
    文本模型:modelscope.cn/Qwen/Qwen3-8B-GGUF:latest
    unknow1
        12
    unknow1  
       10h 52m ago
    这三个测试用,要想好用,你这个配置不够
    grimbedroom
        13
    grimbedroom  
       10h 35m ago   ❤️ 1
    https://www.canirun.ai/ 或许可以试试这个
    jiezou
        14
    jiezou  
    OP
       10h 12m ago
    感谢 v 友帮助,已购等到货上机测试。
    Lin137
        15
    Lin137  
       9h 31m ago
    https://github.com/pewdiepie-archdaemon/odysseus
    可以看下这个项目,里面有个 cookbook 的小功能,可以自动推荐自己机器最适合运行的本地大模型
    opeth
        16
    opeth  
       9h 17m ago
    2080ti 22G 可以跑 qwen3.6-35B-A3B ,也可以试一下 Gemma4 系列的模型
    h4ckm310n
        17
    h4ckm310n  
       8h 46m ago
    22G 显存,qwen3.6 35b 或者 gemma4 26b 吧
    abel533
        18
    abel533  
       7h 49m ago
    使用 llama-server ,可以试试 https://huggingface.co/unsloth/gemma-4-26B-A4B-it-qat-GGUF

    我在 sd-webui 刚出的时候买了个 2080ti 11G ,用了几年后换了 22G ,现在跑这种小模型都没问题。你这主机配置太高了,我还用的 2015 年的至强+16G 内存,现在的 CPU 和内存成了瓶颈。
    abel533
        19
    abel533  
       7h 44m ago
    @abel533 还可以学学 comfyui ,试试 zimageturbo 生图(和 gptimage2 一样的效果(除去文字布局外)) 1K 的图基本上 10 秒左右出图。还可以试试 FLUX.2-klein-9B 的 image edit ,速度也很快。
    Shielber
        20
    Shielber  
       7h 20m ago
    玩本地 AI 起步是 16G 显存,大部分人卡在这
    jhytxy
        21
    jhytxy  
       6h 55m ago via iPhone
    gemma4 31b qat
    训练就针对 q4 量化
    coefu
        22
    coefu  
       6h 14m ago
    @Shielber 起步是 96G ,你打错数字了。
    cowcomic
        23
    cowcomic  
       5h 47m ago
    2080ti 的魔改版印象是 22G 显存
    上 qwen3.5-9b 的 int4 量化版,上下文缩小点儿
    还要留一部分显存跑 embedding 和 rerank 模型
    embedding 推荐 gte-qwen2-1.5b ,能支持长上下文,RAG 神器,找个 int4 量化版本
    rerank 推荐 bge-rerank-m2 ,能支持长上下文,RAG 神器
    上面三个模型应该能勉勉强强装下,不够的话,就把 LLM 的上下文再缩一些,量化的话 int4 一下就不建议了

    要是不非得追求私有化部署的话,买显卡的钱不如用线上模型了,现在都挺便宜的
    PbCopy111
        24
    PbCopy111  
       5h 42m ago
    我也想跑本地来着,后来觉得还不如用免费模型呢。。。比如硅基的 qwen3-8b 起码免费的,我觉得用着跟本地大模型的速度差不多。
    yh7gdiaYW
        25
    yh7gdiaYW  
       2h 40m ago
    qwen3.6-35b-a3b-fp4 ,qwen3-embedding-0.6b-fp8,qwen3-rerank-0.6b-fp8 ,基本塞满显存
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2893 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 104ms · UTC 15:07 · PVG 23:07 · LAX 08:07 · JFK 11:07
    ♥ Do have faith in what you're doing.