五千年(敝帚自珍)

主题:【商榷】杨世光说,我们已经掉入中等收入陷阱了 -- 哎哟

共:💬127 🌺986 🌵28
全看分页树展 · 主题 跟帖
家园 chatGPT应该也就是牛皮更多

实际这些东西,去年还是前年华为发布的盘古系统基本都做到了,而且很多应该是做的更好的。只是去年几乎没人关注到华为的盘古,或者说,犹太或者什么掌控的全球传媒复合体,就不想让这类东西被人知道。

这点我在扯语言的时候几次提到。盘古好像提过有1TB的纯汉字文本的知识基础库。汉语在跨越多学科的这种知识自学习的时候拥有天然优势。汉语对鼠标和老鼠,内存和记忆这类是可以清晰区分的,在TB甚至未来PB级别的文字内容学习的时候,这种确定性意味着AI算法效率至少几个数量级的提升。而在类似化学生僻字里,在这种专业领域的优势才是真正决定性的。

在把人类已知所有知识,尤其理工和工程类知识全面整理,培养拥有某个领域博士级别知识能力比如材料工程师能力的AI助手。培养这种实用性AI实际就需要对人类已知近乎所有知识,尤其理工基础和工程类知识的高效学习和检索能力。这个人类基础知识大库,基于中文组织整理的话,检索和知识学习等的效率应该比英语这种拼音语言高至少几个数量级。

chatGPT现在吹的那些能力感觉就是对当初华为盘古的一个山寨品。而华为盘古实际真正的主要应用方向是各种具体研发和各种工程类。比如华为的煤矿事业部,可能就有专门训练的掌握各种煤炭开采相关知识和初步推导设计能力的AI工程师。

美国人的很多吹牛阿,也就那么会事。就像特斯拉吹的多厉害。台湾那个谁说的很对,你特斯拉自己一个小小工厂里的自动化处理(除上海工厂的产能爬坡)搞定都这么难,你说你自动驾驶还是纯视觉就可以应对各种纷繁复杂的雨雪冰霜和各种杂乱路况?你一个小小工厂里的自动化生产总应该比全球各地的自动化驾驶要容易吧?

所以阿,美国人的一些牛皮阿,听听就行,有些不用当会事。chatGPT这种我猜弄不好基础知识库都是学的甚至直接007从华为偷的,以中文为基础做到这种应该不是太难。以英语为基础难度要翻几个数量级。这种类型的AI我起个名叫超大知识AI吧,这种超大知识的整理和检索,美国人要把所有知识整理成中文,基本不可能。而且前期必然的人和AI强耦合互动时期也没法整。除非美国各个学科的主要研究人员具备相当中国初一,初二学生的中文能力,这个也不可能。但不用中文,超大知识系统里,code一个词拥有几十个意思实际是算法的灾难。code是代码,法条,还是合同号,还是某种编码, 有些知识是不能准确确定应用场景的。实际一个律师,一个金融交易员,一个程序员眼里的code可能都是不一样的。一旦多学科融合处理某个问题,对AI算法来说,准确判读就是一种灾难了。而法条,编码,代码,编号,汉语资料是天然清晰,算法可以无消耗判读的。汉语不能说完全消除,但基本可以轻松跨越各个学科,语言不是知识传播的大问题。而英语这类拼音语言,不同学科之间同样一个code,不同学科的人可能完全不懂什么意思。这某种意义是知识汇总的巴别塔,就像韩国人改用纯拼音后,高铁施工放水和防水都你弄混,这还是人都看不懂。AI看不懂就更正常了。而汉语,放水和防水对工程来说是完全清晰的。

知识自动化生产知识的新时代确实不远了。但这个需要大基础知识库为前提。知识库的准备整理,高效判读和精准应用,而且相当长时间内必须和人类各个学科工程师强耦合来进行迭代反馈。这个人类知识大库才是AI的真正基础,当这个大库从TB,PB往亿万PB发展的时候,无论知识库总量,还是检索速度,还是跨学科反馈的准确性等等,这个知识大库几乎必然要以汉语为基础。否则AI系统现在可能付出几个数量级的算力和存储成本,未来还会成本更高。从这点看,美国全国工程师现在开始20年前中国学英语的热度学汉语,估计都来不及了,而且这也是不可能的事。

AI方面,我们的优势是6千多年前,轩辕黄帝让仓颉确定标准文字的时候就奠定的。当然,二维化汉字也让我们在活字印刷时代吃尽了知识落后的苦头。但现在应该是自1450古登堡活字印刷之后,5百多年后苦尽甘来的时候了。信息化时代,比如我现在码字扯淡,汉字的效率优势已经明显了。中文网络小说碾压西方的核心应该也是同样内容表达,汉字作者光码字时间就应该只需要西方的20%左右吧。同样一段内容,西方播音员吃枪药一样的播报,信息密度仍然应该不如赵忠祥的播报速度。而汉字真正的优势是跨学科的精确性,法条,代码,编码,密码,合同号,编号,这样不同学科知识交叉的成本大大降低了。而这在未来的大AI时代,AI算法的自学习和自判读效率优势,这才是真正决定性的。

通宝推:中关村88楼,老调重弹,外俗内正,梓童,
全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河