sjmcefc2
V2EX  ›  Local LLM

买 macbook pro 笔记本,跑本地模型,怎么配置性价比比较高?

  •  
  •   sjmcefc2 · 6 days ago · 3636 views

    macbook pro 跑本地模型,64g 内存够用吗? 64g 可以跑哪些模型呢? 等 9 月新品还是现在呢? 不懂 mac 的商品啊

    41 replies    2026-06-15 16:45:56 +08:00
    NASK
        1
    NASK  
       6 days ago
    macbook Pro 跑本地模型没有意义,如果真想本地跑的话,可以用 mac mini 来跑.
    ssack9
        2
    ssack9  
       6 days ago
    MacMini 需要什么样的配置来跑本地模型
    wuxilaoshiren
        3
    wuxilaoshiren  
       6 days ago
    伪需求
    et5494
        4
    et5494  
       6 days ago
    25 年购入了一台 MAC MINI M4 PRO 64G 版
    实际测试下来,跑模型的 token/S 很慢,GPU 全程 102°,完全等不及的那种(我忘记上的多大模型了,反正 64 是低不成高不就)
    这钱直接花在订阅上,这不香吗?
    sjmcefc2
        5
    sjmcefc2  
    OP
       6 days ago
    @et5494 多大的配置才能比较顺利的跑呢?
    mbooyn
        6
    mbooyn  
       6 days ago
    一般推荐显存几百 G 的才跑本地模型,否则一律走云端 api
    YanSeven
        7
    YanSeven  
       6 days ago via Android
    就算能顺利跑了,堆到顶级了。那个智力可能都不如现在有些厂商发善心给你免费用的 API ,都不必花钱。
    sjmcefc2
        8
    sjmcefc2  
    OP
       6 days ago
    @YanSeven 那就剩下一个苹果开发了。对吧。只是想着顺带跑跑本地模型,有个高中生水平就可以简单执行任务了。
    ntedshen
        9
    ntedshen  
       6 days ago
    9 月不涨价就不错了。。。618 的货还是年初的价
    ysn2233
        10
    ysn2233  
       6 days ago
    伪需求,不跑最好
    foxio2
        11
    foxio2  
       6 days ago via Android
    这个好办。选内存带宽超过 800G/s 的。
    foxio2
        12
    foxio2  
       6 days ago via Android
    4 万以下根本不用看。4 万以上的那种。本地跑的,主要是是为了保护宝贵的私有数据。所以。这点钱也值得。
    409164
        13
    409164  
       6 days ago
    你能跑的都是弱智模型
    Mandelo
        14
    Mandelo  
       6 days ago
    本地模型要好用,卖 token plan 的早倒闭了
    onetown
        15
    onetown  
       6 days ago
    我现在很多代码是用 m5 max + 128g 内存跑的 qwen3.6 35b 的模型跑的。65k 上下文, 模型本身支持 128k , 但是我为了可以并发, 限制到 65k 。
    sjmcefc2
        16
    sjmcefc2  
    OP
       6 days ago
    @foxio2 能列一下配置吗
    sjmcefc2
        17
    sjmcefc2  
    OP
       6 days ago
    @onetown 也就是 128g 就可以跑目前的新模型了?
    coefu
        18
    coefu  
       6 days ago
    mac 系列只有 ultra 能用,别的都不用试了。
    sjmcefc2
        19
    sjmcefc2  
    OP
       6 days ago
    @coefu 能具体说说吗?
    coefu
        20
    coefu  
       6 days ago   ❤️ 1
    @sjmcefc2

    推理第一要素,gmem/umem 的带宽,越大越好。
    第二要素才是算力本身,prefill 阶段,context 太长,Nvidia 的 cuda 擅长的地方。

    mac 系列只有 ultra 的带宽>= 800GB/s ,这是第一个要素。 至于 apple metal gpu 的 core 数量,讲真,再多一倍也无济于事。算力对于 mac 系列来说,聊胜于无。
    felixcode
        21
    felixcode  
    PRO
       6 days ago
    建议拔网线,关网卡,再也不联网,然后再跑本地模型。
    这样就能发挥本地模型保护隐私数据的优势了。
    wsbqdyhm
        22
    wsbqdyhm  
       6 days ago via iPhone
    目前 m1max64g ,能跑 qwen3.6-27b ,10 多 token/s 吧,仅供参考。架构 omlx 。没有什么实际意义。
    CakeJu
        23
    CakeJu  
       6 days ago
    有什么本地模型的需求吗,不如把买笔记本的钱拿来订阅
    decemberpei
        24
    decemberpei  
       6 days ago
    投入大几万,跑个垃圾模型,在 token 比自来水还便宜的时代,意义在哪里?
    RW233
        25
    RW233  
       6 days ago
    本地 LLM 本身就不是一件有性价比的事情
    cnrting
        26
    cnrting  
       6 days ago via iPhone
    你直接问 ai 吧
    XieBoCai
        27
    XieBoCai  
       6 days ago via Android
    @onetown 大佬,您都是用在哪些场景?这个效果怎么用?
    sn0wdr1am
        28
    sn0wdr1am  
       6 days ago
    我感觉,就目前来说,消费端本地部署大模型,毫无性价比。

    属于:

    花大价钱,部署弱智模型
    homonym
        29
    homonym  
       6 days ago
    现在感觉本地跑一个不大的模型除了折腾的乐趣,没有太大的意义了
    kergee
        30
    kergee  
       6 days ago
    看着多多每天降 100 来诱惑我,现在 64G+1T 的都 21000 多了
    onetown
        31
    onetown  
       5 days ago
    @sjmcefc2 也不是, 但是 128g 内存可以在中小模型的选择上, 范围更广, 另外 agent 配合本地的模型, 可以并发同时跑。

    @XieBoCai 我不是大佬, 我主要是做 agent platform, 和业余游戏开发, 所以会用来跑类似 wan 2.2 这种生视频的模型。 我自己做了个 coding agent, plan 的时候用的 opus 或者 gpt-5.5, 其他都用本地的 qwen 3.6 35b 的模型, 比 haiku 好用
    EvanQu
        32
    EvanQu  
       5 days ago
    买 m5 ultra 除了 ultra 基本其他的都不行。内存大没用带宽太小了
    m5 120GB/s |
    m5pro 翻倍 240 左右
    m5max 5-600 百左右
    m5ultra 翻倍 1000-1200 左右

    参考 5090 1970gb/s
    songco
        33
    songco  
       5 days ago via Android
    见过的都是 mbp 基础款加 mac studio
    XieBoCai
        34
    XieBoCai  
       5 days ago
    @onetown 谦虚了,谢谢分享
    CoderLife
        35
    CoderLife  
       5 days ago
    刚用 m5 pro 64G 在 comfyui 跑了一下, 卡到爆, 还报错
    walkon
        36
    walkon  
       4 days ago
    m4max 64G 可以跑 qwen3.6 35b a3b 4bit 模型,做做日常批量任务没问题( 30k tokens )
    sjmcefc2
        37
    sjmcefc2  
    OP
       4 days ago
    @walkon 足够了。
    diudiuu
        38
    diudiuu  
       4 days ago
    @coefu #20 苹果比较诡异,只要 cpu 能加载完成,token 都要在 20token/s ,带宽算法搞不明白。 我这个是 m4 试验出来的结果
    sjmcefc2
        39
    sjmcefc2  
    OP
       4 days ago
    @diudiuu 好事儿?坏事儿?
    diudiuu
        40
    diudiuu  
       4 days ago
    @sjmcefc2 #39 有好有坏,好的就是能跑,坏的就是跑不快
    coefu
        41
    coefu  
       3 days ago
    @diudiuu 没懂你在说什么,ultra 的机型下,我用 llama.cpp 都能把 模型全部层加载进 apple metal gpu ,cpu 都没有加载任何层。

    我彻底没用 omlx ,它限制了 context 长度,我用 llama.cpp 跑 263k context 能一直跑。只是 llama.cpp 对于 混合 attention 的支持目前有问题。不过大概率要几个月才能 fix 这个问题,或者根本无解,跑的满点罢了。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2637 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 97ms · UTC 08:22 · PVG 16:22 · LAX 01:22 · JFK 04:22
    ♥ Do have faith in what you're doing.