V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
wencan
V2EX  ›  Local LLM

有什么高性价比的开源大模型体验和生产部署服务?

  •  
  •   wencan · 199 天前 · 1708 次点击
    这是一个创建于 199 天前的主题,其中的信息可能已经有所发展或是发生改变。
    之前玩 8b 左右的,在电脑上用 llama.cpp 跑,还流畅。
    然后越玩越大,35b 、70b 、120b
    要么直接跑不起来,要么几十分钟生成

    要求除了能跑各个知名的开源大模型,比如 qwen2 ,还要能跑 cohere 之类稍冷门的
    因为后面可能要生产部署,最好得是国内的。
    体验和生产部署分开也行。
    目前看,微调的可能行不大。不需要支持微调或者自定义。简单地说:有 api 调就行。

    不知道 huggingface space pro 、colab(pro)、openrouter 之类能否满足需求?
    还是说需要 vps 型的?
    7 条回复    2024-06-11 10:40:44 +08:00
    wencan
        1
    wencan  
    OP
       199 天前
    另外有时生产环境可能有信息安全的要求。考虑到信息安全,估计得自己部署了,有什么高性价比的解决方案?
    bkdlee
        2
    bkdlee  
       199 天前
    模型越来越大,只能通过硬件解决。
    我用的是 ollama 加 AnythingLLM
    wencan
        3
    wencan  
    OP
       199 天前
    @bkdlee 那么,有什么高性价比的硬件?
    paopjian
        4
    paopjian  
       199 天前
    最实惠的是 2080ti 22g,不过没有保修,再好点是 4090,但是游戏卡可能不太适合长期运行. A100 40g 的 3.7 万, 80g 的 14 万不值得了, L40 48g 4.2 万, L40s 48g 5.6 万感觉不错. 其他的 H100 什么的就别想了.
    yiios
        5
    yiios  
       199 天前
    @wencan 显卡 2080ti 22g * 4 ,准系统超微 7048 。一万五以内搞定,可以高上下文跑 72b 量化模型,token 20 个每秒。
    Springmvc
        6
    Springmvc  
       199 天前
    4 卡 amd mi100 可以一战 32*4 GB 显存 + epyc4000
    bkdlee
        7
    bkdlee  
       199 天前
    @wencan 目前性价比高的全新配置是 Mac Studio 的 M2 Ultra ,64GB 。再往上就看财力了。统一内存架构适合跑大模型。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4828 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 09:45 · PVG 17:45 · LAX 01:45 · JFK 04:45
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.