invdan
V2EX  ›  Local LLM

开源了一个 LLM 推理服务监控面板

  •  
  •   invdan · 12h 30m ago · 403 views

    开源了一个 LLM 推理服务监控面板 项目地址https://github.com/coolwolfqs/llm-inference-monitor


    为什么做这个

    最近在用 llama.cpp 跑推理服务,一直缺一个好用的监控面板。

    网上方案无非两条路:

    1. Prometheus + Grafana → 太重了,为了看个 GPU 温度搭一套监控体系
    2. nvidia-smi 刷屏 → 原始,但就看个 GPU ,CPU/内存/推理指标全没有

    于是自己搓了一个面板,现在整理成开源项目放出来了。不会编程,全程就由 hermes 待开发,不成熟之处各位看官多包涵。

    长什么样

    一个页面搞定所有监控信息,分成几个区域:

    服务概览区

    • 当前运行的模型、上下文长度、量化精度
    • 引擎版本号( llama.cpp / vllm )
    • 健康评分(硬件分 + 系统分 + 推理分)

    GPU 区

    • 利用率 / 显存 / 温度 / 功耗 实时曲线图
    • 每张卡的详细信息(频率、PCIe 链路、编码器负载)
    • 带 GPU 进程列表(看一眼就知道谁在吃显存)

    系统区

    • CPU 每核利用率热力图
    • 内存 / Swap / 缓存
    • 磁盘读写速度 + 分区使用率
    • 网络实时吞吐量

    推理区

    • TPS 实时心电图
    • KV Cache 占用 + 剩余可用 Token 估算
    • TTFT / TPOT / KV 命中率 / MTP 投机解码加速比
    • IP 级 Token 消耗统计

    技术栈

    后端:Python FastAPI + psutil + nvidia-smi
    前端:纯 HTML + CSS + JS (无框架,无需构建)
    图表:Canvas 原生绘制(贝塞尔曲线,防抖重绘)
    实时:SSE 推送( 2 秒间隔) + HTTP 轮询( 30 秒兜底)
    部署:pip install -r requirements.txt 就行
    

    整个项目 30 多个文件,前端零依赖,后端只依赖 FastAPI 、psutil 、aiohttp 三个库。


    快速体验

    git clone GitHub - coolwolfqs/llm-inference-monitor: Real-time monitoring dashboard for LLM inference services
    cd llm-inference-monitor
    pip install -r requirements.txt
    python -m backend.server
    

    打开 http://localhost:8081 就能看到面板了。

    如果需要采集推理指标,旁边跑一个 llama.cpp server (默认 8080 端口)就行,自动对接。


    项目地址

    https://github.com/coolwolfqs/llm-inference-monitor

    欢迎 Star 、Fork 、PR ,觉得有用的话也欢迎转发。


    补充说明:项目从生产环境的内部面板整理而来,核心逻辑和 UI 布局都保留了原样,只是把后端从单体改成了模块化采集器架构,方便大家按需增删监控指标。中英文双语文档都有。

    有什么问题或者建议可以直接回帖,也可以 GitHub 提 Issue 。

    No Comments Yet
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2758 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 36ms · UTC 15:22 · PVG 23:22 · LAX 08:22 · JFK 11:22
    ♥ Do have faith in what you're doing.