自己学习遇到了一些问题,想问一下大家一些关于 nlp 的问题。 我正在做文本情感分类的模型,用的双向 lstm ,损失率一直在 0.7 左右震荡。 数据大小:5w 多条(第一列标签 0 1 ,第二列文字) batsize:32 lr:0.001 hidden dim: 64
1
murmur 12 天前
情感分类对于国内没任何意义,因为审核机制导致人已经不能好好说话了
比如下面的话 活全家 祝你全家富贵 祝你以后玩的每个游戏都有来自星尘的品质 表达的是正面还是负面的情感呢? |
2
murmur 12 天前
常上网的人都知道,骂人不带脏字,讨论敏感话题不漏敏感词,是基本技巧
一周不上网梗就不知道,还想依靠陈旧的语料库的算法判断情感 |
7
cd605426287 12 天前
竟然看到了 我的游戏常用语
@murmur |
8
ryougifujino 12 天前
LLM 出来后,传统 NLP 不是意义不大了么
|
9
jeddida OP @ryougifujino 感觉学习意义还是有的
|
10
wh1sper 12 天前 1
要不就是数据质量不高,要不就是模型拟合能力不够,总之都没啥意义,有兴趣就搞搞大模型吧
顺便打个广告: 腾讯地图平台招牌:NLP 算法工程师-大模型方向 大平台福利好,老板人超 nice ,P9 大佬亲自带队,算力充足 |
11
kaneg 12 天前 via iPhone
之前一个专业团队的事,现在大模型实现 NLP 就是一个 prompt 的事,而且自动支持多语言。现在还研究传统 NLP ,就像有机械化不用,还用牛耕地一样。
|
12
kaidong21 12 天前
数据很重要,不清楚你这个数据集质量如何,还有超参多调一调,另外可以换别的 model 试试你的数据集,比如 bert, 最后多和 chatgpt 聊一聊,提供的一些建议挺适合初学者的
|
13
murmur 12 天前
@ryougifujino 我还真测了一下,AI 完美过关
这句话“祝你玩的每个游戏都有来自星尘一样的品质”可以被解读为一种讽刺或负面的情感,尤其是对于那些对《来自星尘》评价不高的玩家来说。从一些玩家和评论者的反馈来看,《来自星尘》在发布初期受到了批评,主要集中在游戏性不足、战斗系统设计问题、剧情文案质量低以及翻译问题等方面。因此,如果某人用这句话来祝福别人,可能是以一种反话的方式来表达,意指希望对方不要遇到像《来自星尘》这样被认为品质不佳的游戏。 这个是通义千问的结果 |
16
murmur 12 天前
@jeddida 懂,但是想学习一样可以学大语言模型,大语言模型也是基于老架构迭代上的,比如简单的神经网络,先以这个方向学习,至少不会落后于时代
而且学习不可能不考虑商业应用或者落地 等到商业的时候就知道,还是 tire 树+敏感词库管事 |
17
Volekingsg 12 天前
先取少量训练数据确认是否能够过拟合
|
18
xz410236056 12 天前
|
19
xz410236056 12 天前
|
20
WallenHan 12 天前 via Android
还搞过时的技术呢,上面的大佬都指名方向了。该淘汰得让他淘汰。
|
23
jeddida OP 感谢大家的宝贵意见!我的问题已经解决了,数据预处理的时候我自己写的词表有问题,导致 loss 一直下不去,我换用了 word2vec 就好了。对于有些 v 友说的“过时”,没有人能一口气吃一口胖子,大家都是搞开发的,都明白要一步一个脚印。
|
24
jeddida OP @Volekingsg 谢谢大佬!问题已经解决!我自己写的词表有问题。
|
25
murmur 12 天前
@xz410236056 gpt 错了,来自星尘是鹰角的游戏,当时被骂是赤石游戏(谐音吃 shi ,还有游戏里有一张地图全是红色的石头)
|