• 请不要在回答技术问题时复制粘贴 AI 生成的内容
ryougifujino
V2EX  ›  程序员

高估了 GPT5.5 ehigh 的能力

  •  
  •   ryougifujino ·
    ryougifujino · 15h 24m ago · 2391 views
    周末用 GPT5.5 ehigh (全程官方订阅+Codex )写了一个 AI 小说 App 。

    PRD 是和 AI 讨论后再 Review 实现的,然后 5.5 根据 PRD 生成实现计划。主要涉及到上下文管理和多 Agent 协作,还是有一点复杂。

    用 goal 跑了接近 2 个小时,用的 TDD 的流程开发的,代码看起来像模像样的,测试也很全。结果最后的成品让我大吃一惊,不但点按钮没有任何反应,在把可见 Bug 通过把报错信息丢给 AI 修复后发现很多地方还是用不了,直接用的模拟数据。而且有很多地方设计也很不合理。

    之前在修复某一个 Bug 或者解决某一个单一需求时 GPT 给我的感觉良好,结果这种长程任务没想到完成的这么糟糕,也不知道是模型降智了还是能力上限就在这了。
    22 replies    2026-06-22 20:29:08 +08:00
    musi
        1
    musi  
       15h 20m ago via iPhone   ❤️ 2
    可能是降智了
    我让它拆分重构一个 8k+的 ts 文件
    它先帮我 copy 了一份然后 rename
    在原始文件中导入这个新的文件
    然后和我说重构完成,现在只有一行代码
    JasonYip
        2
    JasonYip  
       15h 4m ago via Android
    感觉现在 ai coding 长程任务还是避免 只能人工拆解需求一点点丰富实现到 后面上下文腐化太明显
    deepbytes
        3
    deepbytes  
       14h 58m ago via iPhone
    配合 superpower 或者 ponytail 试试
    willm
        4
    willm  
       14h 54m ago via Android
    @musi 完美
    maolon
        5
    maolon  
       14h 49m ago
    不光削了 thinking effort ,还肯定量化了模型,现在 5.5 蠢的没法用,
    我觉得单纯写代码还不如 composer2.5, 和两个月前比根本不是一个模型。
    Dream4U
        6
    Dream4U  
       14h 47m ago
    准备上 5.6 了
    lujiaosama
        7
    lujiaosama  
       14h 43m ago
    @deepbytes 一样的。SUPERPOWER+GOAL+5.5 EXTRA HIGH 仍然不能避免最后端了陀大的出来。只能阶段性人工确认有没有问题才往下。
    wuyiccc
        8
    wuyiccc  
       14h 43m ago
    是的,昨晚用 5.5 xhigh 写代码,我说让他直接抄我前面的代码就可以了,结果写出来的代码差点给我快气死,
    andrew2558
        9
    andrew2558  
       14h 43m ago
    @musi 这么离谱?
    jmliang
        10
    jmliang  
       14h 41m ago
    Android APP 吗?可以这样,让它写完之后启动本机的安卓模拟器进行功能测试。这样就有闭环。
    qazwsxkevin
        11
    qazwsxkevin  
       14h 16m ago
    @musi 100% 用了掺水中转,要么就是写 AGENTS.md 和任务表达上出问题了;
    deepbytes
        12
    deepbytes  
       14h 12m ago via iPhone
    @lujiaosama ……属实难顶
    musi
        13
    musi  
       14h 5m ago via iPhone
    @qazwsxkevin #11 用的是官方订阅 200 刀的套餐,没有经过任何中转,直接登录的账号,另外也没有用任何 agents.md
    nc
        14
    nc  
       13h 56m ago
    https://marginlab.ai/trackers/codex/

    这个监测没有表明明显降智,我也没有感受到明显的降智。OpenAI 难不成对不同用户选择性降智,不过这永远是个黑箱
    ryougifujino
        15
    ryougifujino  
    OP
       13h 51m ago
    @maolon 还真是,我后面还用 composer2.5 重搞了一次,虽然设计要简单一些,UI 要丑一些,但至少能跑起来。
    ryougifujino
        16
    ryougifujino  
    OP
       13h 48m ago
    @nc 也有可能是我们高估了 5.5 的能力。
    honjow
        17
    honjow  
       12h 0m ago
    @musi #1 笑死了
    yu180
        18
    yu180  
       11h 41m ago
    一直压缩压缩压缩,多次压缩可能就忘了最开始要做什么了,可能就是中间某一步分支的流程接着往下走了
    lizhenda
        19
    lizhenda  
       10h 37m ago via iPhone
    还有 ehigh 模式?
    wangbawangba
        20
    wangbawangba  
       7h 8m ago
    是因为现在史诗级大降智。

    不知道 openai 在搞啥。 如图
    asuraa
        21
    asuraa  
       2h 43m ago
    xhigh 不适合写代码。会过分思考 要么用 5.5 high 或者 5.4 xhigh
    ryougifujino
        22
    ryougifujino  
    OP
       2h 43m ago
    @wangbawangba 这是什么网站?
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2881 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 66ms · UTC 15:12 · PVG 23:12 · LAX 08:12 · JFK 11:12
    ♥ Do have faith in what you're doing.