五千年(敝帚自珍)

主题:河里程序员不少,应该知道对人工智能而言数据的重要性远高于模型 -- 亮子

共:💬58 🌺257 🌵2
全看分页树展 · 主题
家园 河里程序员不少,应该知道对人工智能而言数据的重要性远高于模型 -- 有补充

数据就是人工智能的粮食。人工智能的四大要素,数据,模型,算力,应用场景。中国在数据跟算力上都有短板,算力上所幸现在半导体奋起直追,且看成效。模型上希望有专业人士聊聊,应用场景现在中国下了吃奶的劲推数字化,估计这个不会差到哪去。

可以有空找两篇人工智能的论文读一读,很多都是模型和代码给你讲的明明白白的。但数据集就往往语焉不详。不同模型可能尺有所短寸有所长,但是不同数据量训练出来的效果太大了。

大公司自带数据,做人工智能自然是近水楼台,但是不同部门为了数据打架也不是啥新鲜事,你用我们部门的数据进行训练做出成绩了,KPI算谁的。小公司尤其是做tob的公司,求数据做训练都得求爷爷告奶奶的,尤其碰见对接银行政府之类的要求数据保密的公司,出差是少不了的,基本得去人家的地方做训练。虽然现在也有小数据学习,但是效果嘛...

数据上美国掌握全球互联网,每天的数据量要远远大于中国,而且是不同种族,不同文化,不同语言的优质数据。这就是全球收割的好处。中国只有本土互联网,最多加上一些东南亚国家的数据,虽然体量也不小,但是跟全球互联网的数据自然无法对比,而且基本都是汉语文化圈的数据,很容易就过拟合了。现在百度也要出鳖版的chatGPT,个人猜测很可能是中国人用的很顺手,但是外国人用的就抓瞎。

至于欧洲印度之流,现在基本是美国的数据农场,不谈也罢。当初中国建墙的初衷是隔绝外部反华信息的渗透,但是却意外的保护了中国没沦为美国的数据农场,应该说是无心插柳柳成荫吧,老欧洲貌似也要学中国开始建墙了。

通宝推:方平,广宽,
作者 对本帖的 补充(3)
家园 前几年默许大公司过度收集个人信息,也是发展人工智能的考虑 -- 补充帖

但也就近两年数据出境才提到国家安全的高度。也不知道滴滴事件最后到底如何了。

也别说政府对chatGPT不重视,也许民间有轻视的情绪,但是相信高层政府绝对是重视的。上大学的时候教数值计算的老师提过,90年代初的时候就搞过计算机建模辅助政府决策。高层对新技术的敏感性绝对超过一般人的想象

家园 其实引申开来讲制约现在中国发展的是市场大小而不是技术 -- 补充帖

中美贸易战也是因为市场,凭什么苹果能在中国卖华为不能在美国卖,我用一句国家安全把你苹果禁了可以吗?没了苹果中国就回到通信靠吼的时代了?

市场是技术的粮食。市场大——收益丰厚——能拿出更多的资源投入技术迭代——迭代出先进技术进一步抢占和巩固市场。形成正向循环。

资本主义野蛮生长的时代列强们为了抢市场大建海军人脑子都能打出狗脑子,哪一个惨烈程度都不下于军阀混战。现在中美才哪到哪,还在wto框架内吵架已经很文明了。

相比之下俄罗斯还在执着于土地实在有点一言难尽,那个地方真没有发展市场经济的基因。

家园 人工智能的基础是数据标注,这可是标准的劳动密集型行业 -- 补充帖

以后中国的第二产业容纳不了那么多人之后可能就指着这个行业容纳了。这个行业要求不高,眼睛不瞎能识字会用电脑就行。主要还是要求心细。数据标注的如何直接决定人工智能训练的效果咋样

全看分页树展 · 主题


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河