希望用于给用户回答问题,检索出信息,类似回答下答案,给他下来源哪儿篇指导手册之类的,要私有化,不依赖外部 api 。
目前已知的基于 Embedding+RAG+LLM 的类似工作流的系统有 Dify Langchain fastgpt 之类的,但是这些下游 LLM 服务消耗的资源太大了,看起来简单的 LLM 模型都得一个 16G 显卡,这个成本有点高
现在有这些问题
可以找到的相关帖子 https://cn.v2ex.com/t/999563
1
fredweili 189 天前
llama3 8b 资源要求不高,m1 pro 16g 就能跑了,效果也还行
|
4
MoYi123 189 天前 1
B 站前几天开源的这个 https://github.com/bilibili/Index-1.9B
配置要求应该挺低的. |
5
shengkai 189 天前
可以用 Coze 搭一个试试: https://www.coze.cn/docs/guides/product_knowledge_bot
|
6
shengkai 189 天前
对不起粗心没注意要私有化,上面回答的请忽略…
|
7
jianchang512 189 天前 1
|
8
jianchang512 189 天前
api 可使用本地部署大模型
|
9
RandomJoke 189 天前
目前这些工作流系统都大差不差,可选择的也挺多的,LZ 想要的是低成本的 LLM ,这个目前来说就没有,meta 开源的 llama3 已经算是消费级显卡上能玩了,本质上 LLM 目前来说就是得靠 GPU 。现阶段比较好的方案就是如果轻量使用,则调用大厂的 API ,不然想要低成本玩转还是很困难的
|
10
wheat0r 189 天前
等浏览器内置模型普及了,在客户端跑
|
11
MrDarnell 158 天前
@jianchang512 你这个不是还要接第三方么?
|