刚才玩别人训练好的模型有感

五级用户 panndora 2023-5-31 1617

一次又一次,我们在别人后面追赶,追不上……

文化生产传播和思想碰撞,按理来说文明载体基数越大,效果就越明显越突出。

这也是为什么这个世界上成规模的互联网只有两个的原因。

之前看过B站一个大佬的视频也在说这个事情,我们为什么不能诞生类chatgpt这种,主要的原因就是可供训练的,可靠的,有用的数据太少了的原因。现在的国内互联网上,每天产生的文本量是接近国外的总量的,但是太多太多,有误导性的内容,撕逼的内容,打拳的内容,需要付费的内容。

现在国外的训练数据已经成了天文单位,chatgpt的训练数据里面,中文只有很少很少的一部分。总的来说就是,现有的模型里面,就算你用中文提问,回答你的也是中文,但数据来源也是英文的,也是海外的。

那会有什么后果呢?

那就是,如果中国人不用自己的语料库来训练自己的模型,而是直接把别人的模型拿来用的话,而且长此以往的话,那历史虚无这个词将会消失。


我修改了几次参数,妄图让它减少思维发散度,出现符合正确资料的答案,但我好像发现,它的训练数据本身就是错误的。无论如何修正也没用,它依然先给你道歉,然后坚持错误的观点。

4.png



然而,在bing这个模型中,就算选创造力模式,都能获得相对正确的答案。 为什么呢?你看看bing的资料来源。中文的资料优先从中文区域获取,中文区域没有才从其他地方获取。



5.png


上一篇:2023年世界无烟日
下一篇:米娜桑,怎么看麦当劳俄罗斯方块机
最新回复 (10)
  • 六级用户 qqllo 2023-5-31
    0 2
    我就点个赞?吧,因为我完全不懂。

    但是我抑郁了
  • 六级用户 进站劣人 2023-5-31
    0 3
    被毒杀的?不知道哎。
  • 四级用户 mmatthew 2023-5-31
    1 4
    打个比方,chatGPT是资料馆,国内做的应用是老师。如果资料馆的资料有政治倾向性,老师教出来的东西会怎样?太可怕了,这要从根本上毁掉我们的思想教育体系。


  • 六级用户 一条大辉狼 2023-5-31
    0 5
    不是Chatgpt那也是这样,国外的那些教科书也都是有ZZ倾向的吧 很正常啊
    所以有好些国家就封掉它了,比如咱们大中华
  • 三级用户 jianzihao777 2023-5-31
    1 6

    哎,是但不完全是。
    为什么国内没有chatGPT?最核心的问题是缺风险投资。
    chatGPT一开始成立,是靠开源组织的名头拿到了10亿美元以上的投资的(这也是后来马斯克指责它转闭源是一次背叛的原因)。后面真开始训练,随随便便就要烧千万美元,而且没有稳定的盈利模式(想想小黄车),所以国内厂家在确定稳定之前不敢投钱进去。美国为啥有人做呢?是因为美国融资成本低。你看chatGPT成为话题之后,国内各家厂商就开始明确跟进了。

    补充一下,大家觉得很厉害的很多玩意是没有稳定盈利模式的,比如波士顿动力的机器狗。这种是靠低成本融资烧一波钱,然后就等收购的。现在波士顿动力就在谷歌、软银、现代各家企业抛来抛去。

    至于训练数据的问题,确实是有这个问题,就是高质量中文数据库太少了。chatGPT真正高质量的训练语料来自:英文论文库、stackoverflow(英文问答社区,可以理解为百度知道,但质量高很多很多,里面的人都在高效讨论)、wikipedia(质量其实不咋地但比百度百科高很多)。可以看出前两者最重要,但问答社区的质量就不说了,高质量中文论文并不多,绝大多数的科学研究成果都发在英文论文了,尽管这几年也逐渐出现高质量的中文期刊,但还是远远不够。国内几家科技企业里面大语言模型科学家都在头疼语料来源的问题。

    至于会不会落后,其实不用太担心。首先chatGPT不是什么颠覆性的东西。它会改变很多行业,但不是蒸汽机和电力那种直接颠覆世界的玩意。其次,AI三要素:算力、数据、算法。算法方面中美就是世界两巨头,远远超过其他国家,中美之间有差距但没有想象的那么大。算力其实跟钱有很大关系。算力和数据前面都说过了。

    新玩意玩玩就完事了,看看AIGC接下来怎么应用。这方面涌现的具体产品反而影响更大。

  • 四级用户 龙神 2023-5-31
    0 7
    你下面这个很厉害唉。  我现在用的GPT只能搞理工,问历史文学问题,就是一不懂装懂大忽悠。
  • 四级用户 龙神 2023-5-31
    0 8
    进站劣人 被毒杀的?不知道哎。
    当然不知道, 因为所有回答都是胡编乱造的
  • 五级用户 btdio 2023-5-31
    0 9
    别玩了,都在免费给外国训练人工智能,这玩意狠危险。
  • 三级用户 makimakima 2023-6-1
    0 10
    可能是我的历史知识不足够?把万历援朝写成万历援日会更符合日本人的利益吗?我怎么觉得这样说我们看着难受,日本人也看着难受。
  • 三级用户 pz2000 2023-6-1
    0 11
    这不是训练材料的问题,chatgpt只是个概率模型而已,你用英文问它韩国入侵日本,它也会瞎jb扯
    • 老男人游戏网配套论坛
      12
        立即登录 立即注册
发新帖
本论坛禁止发布SWITCH和PS4相关资源,若有其他侵权内容,请致邮3360342659#qq.com(#替换成@)删除。