V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
satoru
V2EX  ›  问与答

训练类 ChatGPT 模型时如何避免模型自己生成的样本?

  •  
  •   satoru · 2023-02-16 08:07:15 +08:00 · 1516 次点击
    这是一个创建于 680 天前的主题,其中的信息可能已经有所发展或是发生改变。
    随着越来越多的人在网上部分或全部使用这类模型生成的文本,用爬虫抓训练数据时可能得到大量模型自己生成的文本影响训练的效果。怎样可以避免这类“自产自销”的样本?
    7 条回复    2023-02-16 11:54:59 +08:00
    gogorush
        1
    gogorush  
       2023-02-16 08:28:25 +08:00
    大概率 chatgpt 会把自己的问题和答案全存着的 用户协议里面就有
    jstony
        2
    jstony  
       2023-02-16 08:54:37 +08:00
    @gogorush 没必要存答案吧,同一个模型同一个问题,出来的答案可能是一致的。
    jamosLi
        3
    jamosLi  
       2023-02-16 09:22:52 +08:00
    首先啊,我是说首先啊。bing 本身就是一个标签系统,你胡子眉毛一把抓的爬虫数据,本身就是垃圾样本。
    satoru
        4
    satoru  
    OP
       2023-02-16 09:25:03 +08:00
    @jstony 有一个 temperature 参数可以控制有多大概率随机选择概率不是最高的下一个“词”,所以没有缓存的话多次运行很可能看到不一样的结果。
    ersic
        5
    ersic  
       2023-02-16 09:32:48 +08:00
    chatgpt 可以基于一个模型训练属于自己模型,这个新模型应该是私有的。
    h272377502
        6
    h272377502  
       2023-02-16 10:31:18 +08:00   ❤️ 1
    到了 chatgpt 这种级别的数量级,肯定不能完全避免,openai 自己有训练模型区分对话是否有 ai 生成,也只能分辨很长的那类的句子,短的无法区分出差异。训练 chatgpt 的第一部是训练 gpt ,简单的讲,gpt 就是学习通顺的上下句,那些模型产的数据,只要上下文通顺,影响不大。chatgpt 的下一步,通过 rlhf 方式去训练模型的(这部分需要人类去标注回答的好坏),可以理解成,有个模型在给 gpt 生成的结果打分,并指导 gpt 生成符合人类倾向的回答,如果那些自产的数据质量不高的话,可以在这阶段消除。
    otakustay
        7
    otakustay  
       2023-02-16 11:54:59 +08:00
    GPT 的优势就是能自产自销进化,你把这个干掉还玩啥 GPT
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5386 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 08:22 · PVG 16:22 · LAX 00:22 · JFK 03:22
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.