主题:【原创】深入谈一下chatGPT对我们我国的重大影响 -- 东东山
赞同
比如:有没有处处连续,却处处不可导的函数? 看能不能回答正确。如果可以,并且给出例子,应该是个顺手的工具。
确实如你所说,中文资源和英文资源比较起来,欠缺不少。象论文之类的,也许可以政策鼓励同时发中文论文(印象中有版权问题但后来有不少网刊似乎无版权问题),内容也许会多些。
我是很佩服wikipedia, GitHub, stake overflow 这类东西的,很好的提纯了不少有价值的内容。
Stake overflow 的方式确实不错。西西河的回复和补充多少有些借鉴,但也暂时没达到我想要的效果。习惯问题,不过,不久也许会有类似的实现,来做得回复讨论的内容充实,其他内容则归到补充。
“它南岸地的太晚了。老子在锦州被共军俘虏了,你们也拿下塔山了。“
-----------
不过,AI的作用目前来看有夸大的迹象。
对普通人的冲击,远大于对国际实力变化的影响。
国家竞争的角度,这个的先发优势不大。
非常感谢您与东东山楼主分享经过对ChatGPT的亲身实践而产生的深刻思考,受益良多。
也顺便谈谈我的初试及感受,抛砖引玉。
第一个问题:市场问题。微软的ChatGPT也好,Google的类似产品也罢,出发点首先不会是技术,而是市场 ---- 因为大家都要生存。Google之所以对ChatGPT如临大敌,倒不是完全出于拿不出对应水平的技术或者产品。我相信以Google的实力,发发狠,短则3个月长则半年,就能拿出可以一拼的产品(不只是技术)。问题是:拿出来了,又如何?
搜索行业有一个悖论:公司给用户的答案质量越好,用户越快能找到想要的答案----意味着公司的利润率下滑得越厉害。搜索公司靠广告点击生存。
第二个问题:ChatGPT的训练过程。
我也是做了一个小实验,就3个问题(用英语,不用中文欺负它)
1、Who will generate training data for ChatGPT?(ChatGPT 靠谁生成正负训练数据?)
ChatGPT这次很老实,说还是靠人
the training data for ChatGPT and other language models is typically generated and curated by teams of data scientists and engineers at the company that developed the model
ChatGPT 和其他语言模型的训练数据通常由开发该模型的公司的数据科学家和工程师团队生成和管理
2、我接着从三个方面套ChatGPT:
How much training data has been used to train ChatGPT?
How much is cost to train ChatGPT?
How many computational resources (GPU or TPU) are used to train ChatGPT?
使用了多少训练数据来训练 ChatGPT?
训练ChatGPT 的费用是多少?
使用了多少计算资源(GPU 或 TPU)来训练 ChatGPT?
ChatGPT这次却很不老实,很不合作,拒不回答真相
while the exact amount of training data used to train ChatGPT is not publicly disclosed, it is known that language models like ChatGPT require large amounts of training data in order to perform effectively.
the cost of training a language model like ChatGPT can vary widely depending on a number of factors, but it can be a computationally intensive and expensive process that requires access to large amounts of data and significant computational resources.
In summary, the exact number of GPUs or TPUs used to train ChatGPT is not publicly disclosed, but it is known that training large language models like ChatGPT requires significant computational resources, including many GPUs or TPUs working in parallel, as well as large amounts of memory and storage.
虽然用于训练 ChatGPT 的确切训练数据量并未公开披露,但众所周知,像 ChatGPT 这样的语言模型需要大量训练数据才能有效运行。
训练像 ChatGPT 这样的语言模型的成本可能因多种因素而有很大差异,但它可能是一个计算密集型且昂贵的过程,需要访问大量数据和大量计算资源。
总之,用于训练 ChatGPT 的 GPU 或 TPU 的确切数量并未公开披露,但众所周知,训练像 ChatGPT 这样的大型语言模型需要大量的计算资源,包括并行工作的许多 GPU 或 TPU,以及大量的 内存和存储。
以上两个问题,是互为因果的现实问题,是每一个有真正大规模运用前景的技术产品必须解决的问题。
基于以上两点,我个人认为:
1、ChatGPT当然是个划时代的技术产品(尤其是自然语言理解,比之前有了很大进步----这也不奇怪,微软在语言及语音识别方面投入了几十年功夫了)
2、ChatGPT的训练数据尤其是关键的正负数据标记,还是基于人工----这就意味着它的训练成本仍然极其高昂,这也是为什么它拒不透露真相的原因----当然不是ChatGPT本身拒不透露,它没有这个智商更没有这个必要,而是它背后的人仍然有这个智商更有这个必要拒不透露---- 为什么呢?这就很值得寻味了。
总而言之,ChatGPT应当值得高度关注。但是它是否已经离大规模真正成熟很近了----尤其是何时能实现真正的训练自我迭代自我循环(即无需费用极其昂贵的人工训练数据标记),仍需观察。
要求别人为爱发电是搞不久的。
他回答的内容都来自他的数据库几十TB的数据。但只是从数据库整合提炼成简要文字也是另一种创造了。
现在他看得懂你的问题,回答也有一定的逻辑,但不一定是正确的。比如让他列出世界上人口大于1亿的国家,他列出的国家不一定人口过亿。基本睁着眼胡说八道。
中国真正的力量,不在大学校园,不在写字楼,不在政府大厦,不在这些能让chatGPT水漫金山的舞台;
中国真正的力量在哪里?在车间,在工地,在码头,在田野,在矿山,在实验室,在一切劳动者挥洒汗水,发扬智慧的地方。
这的确是一个很好的应用场景。记忆力强,24小时在线
同时,使用者需要有质检的能力。
比如这是一个显然的语病和冗余信息。
搜索行业分一般搜索(General Search)与垂直领域搜索(Vertical search ),而后者又得继续分化为若干更细化的子类别。
比如多年前,我从事的相关工作中,对图片搜索就得考虑专门为孩童做的数据(过滤掉色情、暴力),或者对某一项专门的经营行业准备的数据(如美国NASCAR比赛)。
又比如仅就新闻搜索而言,德语搜索就得专为雇请懂徳语的人手工标识(Label)大量德语训练正负相关性训练数据。
这就是我上文提到的问题:训练量极大,人工昂贵。
非如此,就只能是行业那句话:Garbage in Garbage out—— 垃圾数据进,垃圾结果出。用中文说就是不能“不教而责”———你不花工夫去教它,它当然不会懂。
从这个意义上来说,ChatGPT仍然是离不开人工调教的工具。
往更深一层说:人既然能训练好它,也自然有的是办法“折腾”它。
沒有任何工具是超然的不受仍何制约的。
AI能不能本质超越训练它的人。
能的话,它对得起 I 这个字母。