V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Irilsy
V2EX  ›  中州韻

感觉 Rime 的分词和搭配很成问题啊

  •  
  •   Irilsy · 11 天前 · 1639 次点击

    如题,用的白霜词库,已经快一年了。虽然一直在用,以前就遇到过这些问题但还能忍受,不过最近经常要写一些东西,这方面的困扰明显严重了很多。


    比如下面这些句子:

    渐渐地就不在意了: jmjmdejqbuzdyile (「不/在意/了」被理解成了「不再/一乐」)

    以前就会这样: yiqmjqhvveyh (「以前/就会」被理解成了「一千九/会」)

    不管怎么使劲都不行: bugrzfmeuijbdzbuxk (「不管怎么/使劲/都/不行」 => 「不管怎么/是/筋斗/不行」)

    无论如何你都不可能再离开这里了: wulyruhenidzbukengzdlikdvelile (「离开/这里/了」 => 「离开/这/离了」)


    还有一些可能有些强求的例子,因为即使是别的输入法也可能处理不好。

    这不是你该管的事情: vebuuinigdgrdeuiqk

    这种方法会更加有用: image.png 之所以会出现「游泳」这个搭配可能跟我之前有一阵子经常打「游泳」有关,但是我觉得连词性都判断不出来也不太正常吧……


    想问问大家有没有什么好的解决办法?

    37 条回复    2024-12-20 21:05:28 +08:00
    noisay
        1
    noisay  
       11 天前
    同感,这个好像几个词库的效果都不是很好
    omz
        2
    omz  
       11 天前 via iPhone
    你之所以用不联网的输入法,不就是因为你能接受这些缺陷吗
    yukino
        3
    yukino  
       11 天前
    Irilsy
        4
    Irilsy  
    OP
       11 天前
    @yukino #3 谢谢老哥,我研究研究。
    NoOneNoBody
        5
    NoOneNoBody  
       11 天前
    好像并没有分词,只是匹配越长优先级越高而已
    我这里(养了多年)可以打出“不在意了”,因为词库中有“不在意”
    billlee
        6
    billlee  
       11 天前   ❤️ 1
    RIME 没有语言模型,根本没有分词的能力
    docx
        7
    docx  
       11 天前 via iPhone
    个人觉得词库从自己用了多年的搜狗之类导出,再适应一段时间,就很可以了。大可不必去用什么所谓的三方库。
    TrembleBeforeMe
        8
    TrembleBeforeMe  
       10 天前
    试试带语言模型的万象拼音 https://github.com/amzxyz/rime_wanxiang_pro
    kimizen
        9
    kimizen  
       10 天前   ❤️ 2
    你挂个云输入法就好了 https://github.com/hchunhui/librime-cloud
    kimizen
        10
    kimizen  
       10 天前
    @TrembleBeforeMe 这个和雾凇比起来如何?
    sinzhishuibie
        11
    sinzhishuibie  
       10 天前 via Android
    用全拼打长句有点给自己找麻烦,我自己打字习惯都是两三个字一打两三个字一打,不管用什么输入法都这样打字
    jiaoyidongxi
        12
    jiaoyidongxi  
       10 天前
    搭车问一下,我在 windows 上的每夜版小狼毫,每次更改配置文件后,手动重启完全没反应,只有重新进入 gui 设置界面,换一下自带默认皮肤才会自己重启生效配置。各位有碰到这种情况吗?
    Irilsy
        13
    Irilsy  
    OP
       10 天前
    @TrembleBeforeMe #8
    @kimizen #9
    感谢两位老哥的推荐,我去尝试一下。

    @docx #7 谢谢哥提醒,突然想到可以把之前用了很久的搜狗个人词库导入进 Rime 。


    @sinzhishuibie #11 只打短语不打句子确实会好一点,但是有时候即使打短语也会有类似的问题(因为即便只有一两个词也可能出现分词错误),而且 Rime 似乎是存在根据词语搭配来调频的策略,打句子都一些时候比打短语会更方便。

    @NoOneNoBody #5 我的词库里面也有「不在意」这个词,不过还是会有问题,感觉可能还是「不再」这个词频太高了。
    TrembleBeforeMe
        14
    TrembleBeforeMe  
       9 天前   ❤️ 5
    kimizen
        16
    kimizen  
       9 天前
    @TrembleBeforeMe 如果想加入到覆写里怎么改格式呢?不想直接改动原本的方案,我都用的 custom.yaml
    TrembleBeforeMe
        17
    TrembleBeforeMe  
       9 天前
    @kimizen #14 那就按 patch 格式加到*.schema.custom.yaml 里
    kimizen
        18
    kimizen  
       9 天前
    @TrembleBeforeMe 的确,连空格都不用修改直接都 custom 里都可以……现在长句子都非常智能完全不用调整词频……
    Irilsy
        19
    Irilsy  
    OP
       9 天前
    @TrembleBeforeMe #14 谢谢大佬,这个太强了,我试了很多容易分词错误的或者搭配错误的句子,有一大半加了模型之后表现都好了很多。

    而且感觉 100M 的模型和 300M 的模型之间有用差距,比如「能约上吗」在 100M 会被误解析成「能月上马」,300M 就不会有这个问题。

    不过感觉模型会受到用户词库词频的干扰,比如我刚刚打了个「上马」,现在不管用哪个模型都会被解析成「(月/约)得上马」了。
    TrembleBeforeMe
        20
    TrembleBeforeMe  
       9 天前
    @Irilsy #17 我先试着打了「能约上吗」,确实首位候选是「能月上马」;但是当我单独打了一次「约上」之后,100M 的模型首位候选也变成了「能约上吗」。如果电脑性能不错,用 300M 也许更好吧,但 100M 对于日用已经足够了。
    yumenaka
        21
    yumenaka  
       9 天前
    非常好用。只要不是很罕有的句子,都能很容易地匹配到。
    Volekingsg
        22
    Volekingsg  
       8 天前 via iPhone
    请教下启动了 grammar 也没有那个正无穷符号,这个是咋开的
    Irilsy
        23
    Irilsy  
    OP
       8 天前   ❤️ 2
    @Volekingsg 那个正无穷符号不是语言模型的,是白霜词库( rime-frost )自带的,正无穷符号表示不是挂载的词库和个人词库中的词,而是根据已有词库拼接的;还有星号表示是个人词库中的词(就是之前打过的),没有符号表示是挂载词库中的。参见 https://github.com/gaboolic/rime-frost/issues/12
    GabrielS
        24
    GabrielS  
       8 天前
    1 渐渐地就不在意了
    渐渐的 就不再 一乐
    是因为词库里有“就不再”,这种可以考虑后续删掉

    2 以前就会这样
    一千九 会这样
    这个无解 rime 会把你的输入分割尽量短。如果打”以前就会“是没有问题的, 以前+就会的词频大于一千九+会的词频。但是”以前 就会 这样“ 会分割成 3 段,"一千九 会这样”只有两段。 即使 "以前 + 就会 + 这样"的词频大于"一千九 会这样“的词频也不行,rime 有限分割成 2 段。

    3 不管怎么使劲都不行
    这个是正常的,可能是你的用户词频影响了。

    4 无论如何你都不可能再离开这里了
    这个是正常的,可能是你的用户词频影响了。

    5 这不是你该管的事情
    这不是你改观的事情
    这是因为”改观“的词频大于”该管“,除非上语言模型 不然无解

    6 这种方法会更加有用
    这个是正常的,可能是你的用户词频影响了。

    如果你写东西多,其实可以关闭用户词库。或者试试双拼加形,墨奇音形,也是白霜作者做的
    kimizen
        25
    kimizen  
       7 天前
    用了好几天
    反馈一下,万象大模型配合云输入纠错,完全可以和那些在线输入法掰手腕了……
    ly1878
        26
    ly1878  
       6 天前
    请教各位大佬,小白折腾了一天,看了好几个 git 文档,之前的几处翻页、自定义短语修改都是迷迷糊糊设置,最后测试有效,现在还是没启用成功万象大模型,虽然这个帖子讲了比较明白,https://www.saraba1st.com/2b/thread-2210738-1-1.html ,我还是不懂到底要修改哪个 yaml ,好几个修改了,重新部署还是无效,可以麻烦大佬手把手的指点一下吗?万分感谢,差点要放弃了。我用的是凇鹤拼音,
    模糊音设置,试了好几处修改,也没成功,麻烦大佬看下我的帖子,感谢。https://www.v2ex.com/t/1098582#reply0
    @GabrielS @Irilsy @NoOneNoBody @TrembleBeforeMe @Volekingsg @billlee @docx @jiaoyidongxi @kimizen @noisay
    kimizen
        27
    kimizen  
       6 天前
    @ly1878 把万象模型的代码复制到 xhup.schema.yaml 这个文件里或者新建一个 xhup.schema.custom.yaml 覆写
    Volekingsg
        28
    Volekingsg  
       6 天前
    @ly1878 #26 新建 double_pinyin_flypy.custom.yaml 填入以下内容
    patch:
    grammar:
    language: amz-v3n2m1-zh-hans
    collocation_max_length: 5
    collocation_min_length: 2

    translator/contextual_suggestions: true
    translator/max_homophones: 7
    translator/max_homographs: 7
    ly1878
        29
    ly1878  
       6 天前
    感谢两位帮助, @kimizen 不管是加入还是新建都没有效果。 @Volekingsg 还是没有效果。
    重新部署还是不行。
    kimizen
        30
    kimizen  
       6 天前
    @ly1878 你复制的哪里的代码?直接复制作者自己的,别用那个楼主修改的
    __include: octagram #启用语言模型
    #语言模型
    octagram:
    __patch:
    grammar:
    language: amz-v2n3m1-zh-hans
    collocation_max_length: 5
    collocation_min_length: 2
    translator/contextual_suggestions: true
    translator/max_homophones: 7
    translator/max_homographs: 7
    kimizen
        31
    kimizen  
       6 天前
    @ly1878 yaml 要注意空格……https://github.com/amzxyz/RIME-LMDG/wiki/%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E5%8F%82%E6%95%B0%E9%85%8D%E7%BD%AE%E8%AF%B4%E6%98%8E
    没生效基本大概率是这原因 custom 要注意的坑太多了,你直接复制到 xhup.schema.yaml 里
    ly1878
        32
    ly1878  
       6 天前
    @kimizen 感谢你的帮助。麻烦你看下我的另一个帖子,https://v2ex.com/t/1098582#reply13 我自认为配置的都正确,会不会是我用的凇鹤拼音输入法,自身配置的问题? https://github.com/kchen0x/rime-crane
    Volekingsg
        33
    Volekingsg  
       6 天前
    @ly1878 #29 自行检查 build 目录下的输入方案是否符合预期
    ly1878
        34
    ly1878  
       6 天前
    @Volekingsg build 目录怎样是符合预期呢?一直没手动修改这里的文件,一直都是根目录修改的。我看了这么多教程没提到要修改 build 里面的文件啊
    Volekingsg
        35
    Volekingsg  
       6 天前
    @ly1878 #34 没说要改,build 是聚合了你 custom 和原始文件生成的,你这样折腾不如去把文档认真读两篇( https://rime.im/docs/),虽然确实不好理解
    ly1878
        36
    ly1878  
       5 天前
    请教各位,删除自造词 Shift+Fn+Delete ,没有 fn 键,如何修改成其他的键?
    1073
        37
    1073  
       5 天前
    有没有大佬帮忙看下生效没
    https://github.com/amzxyz/RIME-LMDG/issues/7
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1061 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 19:16 · PVG 03:16 · LAX 11:16 · JFK 14:16
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.