刚才玩别人训练好的模型有感-灌水聊天-老男人游戏网配套论坛

刚才玩别人训练好的模型有感

panndora 2023-5-31 2253

一次又一次，我们在别人后面追赶，追不上……

文化生产传播和思想碰撞，按理来说文明载体基数越大，效果就越明显越突出。

这也是为什么这个世界上成规模的互联网只有两个的原因。

之前看过B站一个大佬的视频也在说这个事情，我们为什么不能诞生类chatgpt这种，主要的原因就是可供训练的，可靠的，有用的数据太少了的原因。现在的国内互联网上，每天产生的文本量是接近国外的总量的，但是太多太多，有误导性的内容，撕逼的内容，打拳的内容，需要付费的内容。

现在国外的训练数据已经成了天文单位，chatgpt的训练数据里面，中文只有很少很少的一部分。总的来说就是，现有的模型里面，就算你用中文提问，回答你的也是中文，但数据来源也是英文的，也是海外的。

那会有什么后果呢？

那就是，如果中国人不用自己的语料库来训练自己的模型，而是直接把别人的模型拿来用的话，而且长此以往的话，那历史虚无这个词将会消失。

我修改了几次参数，妄图让它减少思维发散度，出现符合正确资料的答案，但我好像发现，它的训练数据本身就是错误的。无论如何修正也没用，它依然先给你道歉，然后坚持错误的观点。

然而，在bing这个模型中，就算选创造力模式，都能获得相对正确的答案。为什么呢？你看看bing的资料来源。中文的资料优先从中文区域获取，中文区域没有才从其他地方获取。

上一篇：2023年世界无烟日
下一篇：米娜桑，怎么看麦当劳俄罗斯方块机

最新回复 (10)

qqllo 2023-5-31

0 2楼

我就点个赞?吧，因为我完全不懂。

但是我抑郁了
进站劣人 2023-5-31

0 3楼

被毒杀的？不知道哎。
mmatthew 2023-5-31

1 4楼

打个比方，chatGPT是资料馆，国内做的应用是老师。如果资料馆的资料有政治倾向性，老师教出来的东西会怎样？太可怕了，这要从根本上毁掉我们的思想教育体系。
一条大辉狼 2023-5-31

0 5楼

不是Chatgpt那也是这样，国外的那些教科书也都是有ZZ倾向的吧很正常啊
所以有好些国家就封掉它了，比如咱们大中华
jianzihao777 2023-5-31

1 6楼

哎，是但不完全是。
为什么国内没有chatGPT？最核心的问题是缺风险投资。
chatGPT一开始成立，是靠开源组织的名头拿到了10亿美元以上的投资的（这也是后来马斯克指责它转闭源是一次背叛的原因）。后面真开始训练，随随便便就要烧千万美元，而且没有稳定的盈利模式（想想小黄车），所以国内厂家在确定稳定之前不敢投钱进去。美国为啥有人做呢？是因为美国融资成本低。你看chatGPT成为话题之后，国内各家厂商就开始明确跟进了。
补充一下，大家觉得很厉害的很多玩意是没有稳定盈利模式的，比如波士顿动力的机器狗。这种是靠低成本融资烧一波钱，然后就等收购的。现在波士顿动力就在谷歌、软银、现代各家企业抛来抛去。
至于训练数据的问题，确实是有这个问题，就是高质量中文数据库太少了。chatGPT真正高质量的训练语料来自：英文论文库、stackoverflow（英文问答社区，可以理解为百度知道，但质量高很多很多，里面的人都在高效讨论）、wikipedia（质量其实不咋地但比百度百科高很多）。可以看出前两者最重要，但问答社区的质量就不说了，高质量中文论文并不多，绝大多数的科学研究成果都发在英文论文了，尽管这几年也逐渐出现高质量的中文期刊，但还是远远不够。国内几家科技企业里面大语言模型科学家都在头疼语料来源的问题。
至于会不会落后，其实不用太担心。首先chatGPT不是什么颠覆性的东西。它会改变很多行业，但不是蒸汽机和电力那种直接颠覆世界的玩意。其次，AI三要素：算力、数据、算法。算法方面中美就是世界两巨头，远远超过其他国家，中美之间有差距但没有想象的那么大。算力其实跟钱有很大关系。算力和数据前面都说过了。
新玩意玩玩就完事了，看看AIGC接下来怎么应用。这方面涌现的具体产品反而影响更大。
龙神 2023-5-31

0 7楼

你下面这个很厉害唉。我现在用的GPT只能搞理工，问历史文学问题，就是一不懂装懂大忽悠。
龙神 2023-5-31

0 8楼

进站劣人被毒杀的？不知道哎。
当然不知道，因为所有回答都是胡编乱造的
btdio 2023-5-31

0 9楼

别玩了，都在免费给外国训练人工智能，这玩意狠危险。
makimakima 2023-6-1

0 10楼

可能是我的历史知识不足够？把万历援朝写成万历援日会更符合日本人的利益吗？我怎么觉得这样说我们看着难受，日本人也看着难受。
pz2000 2023-6-1

0 11楼

这不是训练材料的问题，chatgpt只是个概率模型而已，你用英文问它韩国入侵日本，它也会瞎jb扯