在下目前有个蜗牛黑群辉,j1900 ,搞一些小东西还是够用的; 新年伊始,想着整个小主机玩玩,配置稍微高一点,主要是想 ALL IN ONE ,大佬们有啥配置建议没;预算 1000 到 2000 左右。 还有一点是想在小主机上跑个低配的那种大模型,只要输入一段文字能检索出关键信息、关键字等等这些功能就行,不需要复杂功能。 求兄弟们支招哇。
1
jonty 315 天前
AIO 的话,没啥拓展需求,12 代 i3 将将够组一套吧
|
2
paopjian 315 天前
现在 LLM 门槛也没有那么低吧, mistral 7b 也不小, 真需要就找在线服务吧
|
3
winson030 315 天前 via iPhone
好奇,一两千的预算,不上独显怎么跑模型?
|
4
hahiru 315 天前
从你的描述中看得出来,你似乎并没有明确的大模型需求。
因为大部分小模型预设的并不好用,得针对性微调。 微调比加载需要更多显存。如果不想微调也得有显卡,不然 CPU 那速度真不如不用。 建议先主力机跑通流程,然后选符合门槛的小型机配置。 |
5
opengps 315 天前
建议先用你自己电脑跑一套,满足需要后再去考虑配置硬件
|
6
nealot 315 天前 via Android
据说有些 APU 能把显存魔改到 16G 然后跑大模型
J1900 还是算了吧 |
7
ychost 315 天前
小主跑 LLM 几乎不可能,也不要想着 ALL IN ONE 了 BOOM 就不好了,我的小主机只装了个 Ubuntu ,其余的靠 docker 来安装
|
8
wxd21020 OP |
10
JensenQian 315 天前
主机卖掉
冲个 chatgpt plus 完毕 |
11
hahiru 315 天前
主力机跑模型,小主机跑 API 可以,其他不要想了。人工智能本地化就是资源堆砌,和小主机的初衷相悖。
|
12
makerbi 315 天前
如果只是关键字提取、文本摘要这种的需求的话用 1~2B 的模型就可以了,llama.cpp 量化部署,纯 CPU 跑就行,内存不要太小都没问题。
|
13
ShadowPower 315 天前
@nealot APU 的方案不如直接用 CPU 快,我试过……
|
14
nealot 315 天前 via Android
@wxd21020 搜 Reddit 帖子
I turned a $95 AMD APU into a 16GB VRAM GPU and it can run stable diffusion |
15
wxd21020 OP @JensenQian 我现在就用 3.5 ,plus 感觉没那么大需求
@hahiru 可以先拿主力机试试 @makerbi 感谢老哥,现在需求也就搞点文字,提取文本啥的这些需求,我研究一下整个模型。 @nealot 安排 |
16
ShadowPower 315 天前
我之前用 Intel N100 跑过。实际上速度还能接受,这玩意的内存还只是单通道(或者算 32bit 位宽双通道)的。
再过一段时间也许会有更好的方案,苹果提出的那个还是手机内存+手机闪存的组合。 找个 DDR5 双通道(在 CPU-Z 里应该显示 32bit 四通道)的主机就好了。不建议选 AMD 平台,因为有内存带宽上限 50GB/s 的限制,只有 APU 能用得上更高的带宽。然而我用 6800H 试了,真实表现不如 CPU 推理。 |
17
ShadowPower 315 天前
@nealot Stable Diffusion 和 LLM 的性能表现不一样,我都试过……
Stable Diffusion 的话,我的 7840HS 比 M2 Pro 都快(用 Olive ONNX ),但是 LLM 则反过来了。 |
18
reeco 315 天前
纯 cpu 跑买一块支持 avx512 的 cpu 加 32G 内存,跑跑量化 7b 的也还行。用 gpu 你那块 3060ti 跑 7b 也完全够了,单独配其实也可以考虑 amd rocm ,便宜大碗。但目前这块需求其实没那么强,跑起来新鲜劲一过,容易吃灰。
|
19
network127001 315 天前
跑大模型的都是电老虎啊,魔搭社区好像可以白嫖资源
|
20
ShadowPower 315 天前
@reeco AVX512 对这个场景没有提升。
目前的情况,CPU 的运算速度不是瓶颈,瓶颈都在从内存到 CPU 的带宽上。 |
21
wxd21020 OP @ShadowPower 那是不是可以等等,感觉也就是热乎劲儿,主要还是没有持续的需求
|
22
ShadowPower 315 天前
@wxd21020 可以先玩玩线上的服务,或者用目前的主力机来跑。如果确实没有需求,其实很快就玩腻了,还能省一笔钱。
其实我也觉得等将来手机本地运行的方案成熟了以后再买会更好。很可能到那个时候,就算是非常低端的处理器,也有这方面的硬件加速,或者根据这种场景做专门的优化了。 |
23
Puteulanus 315 天前
|
24
reeco 315 天前
@ShadowPower 在我的 7950x 上面,llama.cpp avx512 有大约 10%到 20%的提升
|
25
wclebb 315 天前
|
27
Greendays 315 天前
这预算只能捡垃圾吧,看看二手的 P106 和 P40 一类的显卡,这些显卡必须要配合核显是用,坑不少,可靠性也不保障。
|
28
chaos93 315 天前
https://gptcs.chaos.mba/
试试 |
29
skye 315 天前
小主机的话,应该只有 mac mini 符合你要求了
|
30
elegantwolf 315 天前
确实,16g 甚至 24g 的 Mac mini 大概可以满足你的需求,但是需要额外配置非 cuda 的环境,以及没法用 docker ,我买了一台 16g 的 Mac mini 想试着跑跑,但是因为很难环境隔离,一直没下定决心去污染整个环境,。。。
|
31
thedog 315 天前
mac studio 应该是能跑大模型的最佳小设备
|
34
Jiajin 315 天前
新鲜劲会很快过去了,因为现在开源本地大模型肯定是比不过 chatgpt 的,除非有明确需求
|
35
Revenant 315 天前
树莓派 4B 跑量化 llm ,1 tokens/s ,这速度谁受得了啊😂😂
|
37
ShadowPower 315 天前
@elegantwolf 也许可以试试 LM Studio ,玩腻了能删得比较干净
|
38
zagfai 314 天前
AMD 5600G
|
39
Ayahuasec 314 天前 via Android
我在用 N100 的小主机跑 q4km 量化的 14b 的 qwen ,机器装了根 32G 的内存,效果还可以,就是速度大概只有 2-3 tokens/s ,而且跑的时候风扇狂转
|
40
laminux29 314 天前 1
1.有信息保护的场景,才需要自己买服务器跑大模型,其他场景完全没必要。
2.现在 OpenAI 的 GPT4 (离线版)、MS Copilot (联网版) 和 Google Gemini (联网版)之外,其他的各种 AI ,质量真的是差,完全没私有化部署意义。 |
41
kneo 314 天前 via Android
除非你有自觉倾向,否则不建议你尝试小主机大模型的吐豆速度。
|
42
lrigi 314 天前 via iPhone
@elegantwolf ollama 和那些 webui 都是当前目录下配置环境,何来污染一说😧
|
44
blackmirror 314 天前
2000 的机器能跑模型吗
|
45
findex 314 天前 via iPhone
建议放弃。我有个 n100 配上 32G ddr5 内存,无独显无法跑大模型或者小一点的模型。建议换高功率 cpu 加独显。主要看现存和流处理器。
|
46
dayeye2006199 314 天前
感觉还不如 colab 。
一个月 10 块美元 |
47
shm7 314 天前
wo tmd laugh de desk dou yao xuan diao le
|
48
lchynn 314 天前
@laminux29 自己部署,多数都是找基线大模型微调或者做 RAG 场景的。 并不太依赖模型本身逻辑推理能力,所以一般 30B 的模型微调后能做一个凑合用的企业知识库就满足很多场景了。
|
49
obfuscator 312 天前
你这个预算,显卡那块就压的死死的
只能选择 P106 或者是它的难兄难弟 P104 、P102 那些了 至于 P4 ,想必你预算是不够的 |
50
mkdirmushroom 311 天前
@ShadowPower 还好大佬说了 AMD 平台的内存带宽限制,我也准备入手小主机跑大模型,本来想买 8845hs 的,看到内存带宽限制劝退了。
|
51
mkdirmushroom 311 天前
@ShadowPower 大佬还是有点疑问,我看了下 AMD 新的移动端处理器 8845hs 的介绍,双通道 DDR5 5600 理论上是有大约 90GB/s 的带宽的,是芯片内部做了限制吗?
|
52
ShadowPower 311 天前
@mkdirmushroom AMD 的 IF 总线带宽有限……
台式机处理器还好,限制没有那么大,基本上什么内存都可以正常发挥。 移动端就不一样了。我刚刚测出来的数据: 这是 6400MHz 的内存,可以看到核显的读写带宽基本上都砍了对半,但是同时读+写( Copy )接近两者的总和。 而 CPU 的读取带宽只有约 50GB/s ,写入则可以达到 86GB/s ,但是同时读写倒不是两者的总和。 对于跑 LLM 推理的场景,对内存读取带宽要求挺高,瓶颈几乎都在这里,而写比读少很多。 虽然内存带宽真的有将近 90GB/s ,但跑 LLM 时,实际上可以视为只有 50GB/s…… GPU 会更慢,也是因为读取带宽更低。 |
53
mkdirmushroom 311 天前
@ShadowPower 感谢大佬的解惑,感觉 8845hs 这个马甲 U 应该也差不多。那如果是小主机的话大佬推荐哪个 U 呢,目前在观望的小主机的 U 有 i9 13900h 、i9 12900h 、i5 12450h 还有 AMD 家的 8845hs ,价格应该是依次递减的,不过巨硬家的内存频率最多到 5200 。
|
54
mkdirmushroom 311 天前
@ShadowPower 还有 Intel Core Ultra 5 125H ,它的定位和 8845hs 差不多,但是稍微贵一点。
刚刚看了些评测,在双通道 DDR5 5600 32GB ,PCIE4.0 SSD 2TB 环境下: Ultra5 的内存带宽的 CPU 读写及延迟分别是 71058 MB/s 、70765 MB/s 、150.4ns 8845hs 则为 61887 MB/S 、86688 MB/s 、90.5 ns AMD 的写入和延迟好一点,Intel 的读取高了大概 10GB/s |
55
ShadowPower 311 天前
@mkdirmushroom 如果内存频率一样的话,它们应该没什么明显的差别。内存延迟的影响不大,GPU 和显存之间的延迟要更高。
|
56
renyi1986 311 天前
现在 8700 不就可以跑大模型,对应的小主机也有了
|
57
wxd21020 OP @mkdirmushroom 老哥,你要是配好了,甩配置给我一下,我学习学习;其实里面有些东西我还是盲区,现在还在摸索。
|
58
mkdirmushroom 310 天前
@wxd21020 准备等的天钡的 Gem12 了( 8845hs ),还没出,大概 3 月初上架,准系统价格估计在 2600 左右。
|
59
lchynn 309 天前
@mkdirmushroom 8845HS 就是多了 NPU 的 7840 吧, 这个多出来的 NPU 对 AI 推理真的有帮助么? 它支持 CUDA ?
|
60
mkdirmushroom 307 天前
|
61
mkdirmushroom 300 天前
@wxd21020 买了 gem12 了,8845 主机,准系统 2699 ,两个 m.2 ,一个 oculink ,两个 usb4 ,2 个 2.5G 网口,带副屏幕和指纹。感觉性价比蛮高,就是到手会有点晚,要 4 月初
|
62
uniqueman 280 天前
@mkdirmushroom 这个能跑多大规模的模型?
|
63
mkdirmushroom 279 天前
@uniqueman 看你内存大小了,内存大一点带宽高一点,理论上 72B 都能跑,不过速度比较慢。
|
64
lchynn 236 天前
@mkdirmushroom 买了 GEM12 了么? OLLAMA 或者 LM-STUDIO 推理 7B 的 gguf 模型咋样? 有测试结果么?
|
66
lchynn 236 天前
@wxd21020 8848HS 的 NPU 好像说 FP16 是 TFLOPS ; 估计是瞎吹吧。
3060 12G 的 FP16 (half) 才 12.74 TFLOPS |
67
lchynn 236 天前
8845HS 的 NPU 好像说 FP16 (half) 的算力是 16 TFLOPS ; 估计是瞎吹吧。
3060 12G 的 FP16 (half) 才 12.74 TFLOPS |
68
mkdirmushroom 236 天前
@lchynn 买了啊,目前是我的主力家庭服务器,ollama 7b 推理肯定没问题啊,大部分电脑都随便跑的,主要还是看内存带宽的。我还试了 qwen 的 72B 4bit ,大概 2 ,3Token/s 吧。
我目前是 PVE 分了一个 32GB 内存的 ubuntu 跑 ollama ,基本上都用的 14B ,大概能有 10 几 token/s 吧。 |
69
mkdirmushroom 236 天前
|
70
lchynn 236 天前
@mkdirmushroom 有没有试一下 Code-Qwen 或者 Deepseek Code ? 谢谢, 如果速度可以, 感觉可以代替 Copilot 了
|
71
tclm 232 天前
@mkdirmushroom
老哥,配的多少内存,我准备搞一台 8845HS (或 Utral5 125H )+ 96G ( 48G 5800Hz * 2 ) 来跑 70B 的模型,只做本地推理,按你的经验,有搞头吗? |
72
tclm 232 天前
|
73
tclm 232 天前
|
74
mkdirmushroom 228 天前
@tclm 有点慢的,我试过,大概就 2.3token/s 吧
|
75
tclm 228 天前
|
76
AndyWang666 226 天前
@mkdirmushroom GEM12 散热怎么样,我最近也在看。另外 oculink 能直接外接显卡跑模型吧?就是不知道 pve 里能不能直通 oculink
|
77
mkdirmushroom 222 天前
@AndyWang666 散热非常好,但是我的机器低负载有电流或者电报的声音,换了一台还是更严重了,只好忍了。pve 直通 oculink 没试过,手里没有显卡坞。
|
78
AndyWang666 221 天前
@mkdirmushroom 你是带副屏指纹的?听说带这玩意的有这毛病,这两天准备也入了,618 便宜了 100
|
79
wxd21020 OP @AndyWang666 我想入个极摩客 M6 ,GEM12 有点略贵,预算跟不上了
|
80
hootigger 218 天前 via iPhone
@mkdirmushroom gem12 也有电流声吗?滋滋的,我买的火影 a8 8845hs 也是,然后今天刚换货。不会也换个更严重的吧。。
|
81
AndyWang666 216 天前 via Android
@wxd21020 我已经入了 gem12 了,ssd 只能上单面颗粒,买的 850x 4t 都退了,上了 96g 内存,今天刚装完系统。win server 2025 打驱动太麻烦了,被我直接换 win11 了
|
82
mkdirmushroom 216 天前
@hootigger 应该是电感啸叫声,我刚开始有点介意,现在无所谓了,反正正常也听不到。
|
83
hootigger 213 天前 via iPhone
@mkdirmushroom 经历差不多,我换货后。这个刚开始我听着声音很小。今天发现又出来了,我也只能接受了。就是低负载有。也就晚上能听到点。凑上去,也还好。玩游戏起来就没有了。整体还行主要火影价格还是香
|