使用 3090 显卡本地部署 baichuan2-13b-chat 非量化版，有人成功过没？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 338 天前的主题，其中的信息可能已经有所发展或是发生改变。

看了下，它用的应该是个 kde 的 linux ，比如 kubuntu ，竟然跑起来了 13b

5 条回复 • 2024-05-01 11:51:35 +08:00

ElsaGranger

338 天前 via iPhone

不想量化可以试试 powerinfer

zhlenmao

338 天前

zhlenmao

327 天前

已经试成了。用的 linux mint ，就是不能问太长，长了就直接 cuda 溢出报错。然后换成了 int4 量化版，这样输入就能长的多了。至于"ElsaGranger "说的方法还没空试

shm7

302 天前

显存太小，随便 2k 可能都爆了，都是无效尝试。

smalltong02

239 天前

在 windows 平台下可以，前提是内存够大，不怕推理慢。