五千年(敝帚自珍)

主题:【原创】为什么汉语是世界上最先进的语言(上) -- 冷酷的哲学

共:💬1516 🌺8640 🌵163
全看树展主题 · 分页首页 上页
/ 102
下页 末页
家园 你为什么就钻进12366个字就出不来了呢?

字作为中文最基本的单位,创造的目的是为了解释标识最简单最常见的事物,我们日常的生活,3,4000个字已经可以囊括所有的常见物品,所以我们就以这些汉字为常用汉字。

但对于新生事物,我们真的无聊到还要创一个字来标识的程度么?难道中文没有造词功能么?英文的program,到了中国,程序二字搞定,要知道这个单词在以前的中国是不存在的,虽然“程序”这个词语本身几乎让一个没有相关知识的人无法望文生义,但熟悉了这个词语之后就能够被广泛接受,与此相关的例子还可以举出更多,大家心里都有数

做个粗略估算,以4000个常用汉字组二字词,不考虑是否通顺,仅考虑文字的简单叠加,那就有1600000个词语,把正逆序考虑上,词数减一半,800000万个,不符合语法的就算再折掉一半,也还有400000万个,这只是粗略估算,但是汉字也具有强大的组词能力这一点依然是不可否认的。

最逆天的例子就是成语,一般成语四字,囊括的就是一整个故事,你给我来8个字母,能不能达到同样的效果?

通宝推:浣花岛主,潮起潮落,strain2,铁手,
家园 欧,难怪国内的专家这么惨,能挑刺的人太多了,国外大约就是

同行能看懂了,多么神秘的专业人士啊,哈哈

家园 根据湾湾的说法:三只小猪 也是成语

家园 今天是国际母语日

印象深刻的一个汉字:慕

点看全图

外链图片需谨慎,可能会被源头改

爱慕 景慕 敬慕 思念 依恋的意思

这个汉字就是这么一幅逆光的画面,夕阳西下的小树林,阳光透过树叶,躺在树林下思念的人那一颗扑通扑通的小心脏。。。

造汉字的是个文艺青年

通宝推:铁手,
家园 中文的问题还是概念模糊

首先,是采样失真。一个新的概念被发现,需要用词汇加以定义。这个定义的过程是对客观世界采样的过程,也是下面逻辑思维的基础。

在数字移动通信领域,工程师针对话务设计了Speech codec。这种Speech codec不同于一般的audio codec。它是在统计的基础上,针对人类语音设计的。它的编码效率高,可以用有限的数据流量把人类话音传递的惟妙惟肖。Speech codec也可以用于encode and decode音乐,但是质量很差。因为Voice codec不是设计用来传递任何audio的,它是单单用来分析和过滤人类语音信号的。

外链出处

中文在设计思想上与speech codec非常相似。汉语的codec就是这上万个汉字,其中包含了农耕时代以及农耕时代以前,中国人通过实践和幻想所建立的全部概念。但问题是:

1.汉字不能无限创造。事实上,我们也没有大量创造汉字。

链接出处

链接出处

2.人类的大脑无力接受太多的汉字。一般人,5000字就是极限了。

所以当中国人面对各种新知识,新概念爆炸的时代,不得不用一套针对过去时代设计的codec采样。汉语一方面编码效率高,另一方面存在采样失真的问题,就好象用手机听音乐一样。当然,在日常这根本不是问题,但是对那些需要挑战智力巅峰的聪明人就是一种制约。

具体来说,当一个新的概念形成以后,我们会组个词来定义这个概念。

对于英语,这是个精确定义的过程。在今后的使用中不存在模糊的空间。如果不知道词义只能查字典。

对于汉语,存在两种可能:

1.不精确定义。组个词就当是定义了。汉语的词一般不长,很难做到精确定义。按照PBS的说法就是“取样步长过大,造成细微细节缺失”。

2.精确定义。但是每个汉字都是表意的,所以每个新的词语都存在两个含义:一个是字典上的精确定义,一个是字面含义。两个含义同时存在就是模糊,就是不精确。现实中,我们必然望文生义,因为表意文字的内核就是望文生义。

所以汉语的不精确在采样阶段就已经产生了。最终的出路只能是大量引入外来语,就是楼下陈经说的。其实从现实来看,中华文明目前在地球的地位就是“次生文明”,所以直接用原生文明的发音来指代是“最简单的方法”。过去我们这样做过,汉语中大量的现代词汇都是日语。

其次,中文是一种非常消耗脑力资源的语言。

1.楼主指出了,中文是“压缩存储”。压缩存储是要额外消耗CPU的。

2.中文是前置为主。前置需要表达者一次性组织整个句子,占用宝贵的内存资源。

3.中文组词容易,所以词汇泛滥。同样的程度的人,“中国人的词汇量比美国人大得多”。检索这么多的词,必然要额外占用CPU和内存。这个cost有时甚至超出临时组词的cost,所以中文表达者经常临机造词。

这些消耗不是没有代价的。逻辑思维同样需要资源。资源不够,聂卫平会走臭棋,诸葛亮会变成臭皮匠。如果不信,你用one,two,three代替1,2,3,看看同样的高考数学卷子是不是还能满分?


本帖一共被 5 帖 引用 (帖内工具实现)
家园 语言抗噪本来也就是需要上下文啊

只有一个词怎么知道是拼错了还特殊词汇?

家园 实在是时间太久了,有些记不清了

你一说我想起来了,手柄与滚筒是个整体,是前后移动的(Y轴方向);字盘上有一个把,握着可以控制字盘左右移动(X轴方向)。两者同时在两个方向上移动就可以选中平铺在字盘上的任意一个字模。

家园 话说我也是,直接觉得香港口语书面化是另外一种语法结构,

还有那个生词啊,一句话半懂不懂基本不懂

家园 英文的快速阅读法就是直接从字形 -〉意义。

读英文时大脑工作顺序是:字形-〉发音-〉意义,
只是对刚扫盲的英美人来说的。

美国有一阵“推销”英文的快速阅读法很火,杂志报纸到处都招呼“快速阅读”培训班。我看了几篇HOWTO的文章,就是说英文的快速阅读主要就是“看”词,不用一个一个“读”出来;而且是跳着看,一目十行,......。我心想:这不就是咱家读中文的办法吗?

家园 你见到狗追猫猫追老鼠的狗了吗?你进来时我把钥匙给你了
家园 u'r right on money, man

how much is the money here? it depends.

and thx 4 u and others and the original author of this languange post, very thought invoking.

sorry 4 keeping using english, faster typing 4 me.

Now, as witten1 and me posted somewhere, that chinese is more of "qm" model, while english is more of conventional macro physics/math model.

witten1: http://www.ccthere.com/article/3848389

chinese=超级薛定諤貓, unitary2 晓兵 字338 2013-02-19 20:03:31

...... 语言 as a 高阶qm系统1 晓兵 字544 2013-02-19 20:52:04

if chinese as a 语言="高阶qm系统"

"gd" or "bad", it depends;

1

"gd" part of chinese:

Buchanan科学时评之带着时间赌博(下) 6 witten1 字2706 2012-12-31 21:12:20

.. "一个从未被系综平均表现出来的点", very gd5 晓兵 字3261 2013-02-08 13:11:50

high politics, high finance, high humanity stuff, such as "art", and all kinds of mind 忽悠 (of course not all of them, but most of them most of the time, or we would be already in a communist heaven type society), their models are basically still kind of conventional physics/math model based, BUT with a tons of 相对论效应 and/or 量子效应 "real time"修正, and "generate together with environment" the consequent 相變, if I may abuse all the above 语言 for the moment .

相變 scares market, and the working mass, putting them into the directionless spiritual spin, looking for non-church type "direction" leaders with tears in their eyes, because "church" leaders models are too "old", not as new as "them white"'s "4-vector" or "us-yellow"s 3 represention, if I may abuse those expressions for the moment, etc

But leaders are not free, they are actually very expensive, show me the money, baby.

of course, 相變 is not all made by "leaders" and leaders themselves are often of the victims of 相變 , but of course, not very often:

"normalizaiont and renormalization" are very often not "normal", paritcularly in high politics, high finance, high art, once leaders=4 ever leaders, kind of;

and that is why qm model base AI needs to come faster to normalize the current"classical information system", so society pays less tax to those high politics, high finance and high art groups-based informational "leaders", and give more chances to the non-leaders in those high profit marign businesses, to catch up and to innovate.

of course, "gd" part of chinese as a languange also helps the emerging of outstanding "non-poltical" scientists such as prof chen and yang, I would think, and there will be more of them in future, I hope, at least.

2.

Now the "bad"

even @纳秒级别。(1皮秒=1/1000纳秒=1/1000,000,000,000秒, 苹果播放器, "数字音频的基本原理就是把连续的模拟信号在离散的时间点上进行采样(Sampling),进而形成数字化的信息", etc.

this is still conventional physics and math 系综 based 信息论 model, where conventional 信息论 logic still matters, qm 信息论 logic may start to matter a bit, but so far not very much if any, at least not really to the point where it matters and impacts the "system" significantly.

Besides, education-wise, before learning about qm 信息论, most of us still need to first learn about conventional physics/math 系综 model, and the related 信息论 model.

if chinese as a language, kind of not fitting into this conventional 信息论 model, that may be a problem ( I am not sure, this is a very big statement): after all, majority chinese people are basically middle class kind of workers of conventional 信息论 model based current economy, at least for the "near" future, as far as we can see, I would guess.

3.

can the normal chinese folks quantum jump into "高阶qm系统" more likely education-wise perhaps, with help/advantage of chinese language more of "高阶qm系统" itself, and job wise in those more future based and non-political science areas, where the "normalization" model could possibly run faster and therefore more progressing opportunites apprear and re-apprear for people mass in current lives before they finally go and see MR Marx in whereever the next world?

not totally impossible. The MIT qcd Nobel winner, frank wilczek thinks we are all should study his qcd course first year in the college, before anything else, such as "matter"stuff physics

so we still have to study "matter"stuff physics and math and the related conventional "white"logic, one way or another.

------all quoted-----------

http://www.ccthere.com/alist/3830412

当代信息论的基础 [ witten1

自然界中除了宇宙真的有可能是无穷,许许多多正在进行的事都是在有限的时间内发生的。当然这时候也得看这些体系内的特征时间尺度了,如果这个特征时间尺度很短比就几个纳秒,那么是可以很好的认为一天对这个体系来说就是无穷长了。

1. aapl

七彩虹的Colorfly Pocket HIFI C4作为第一款做到24 bit/192KHz的便携式HIFI播放器,同时集成了Jitter kill专利技术,在Jitter Kill的模块中,晶振上采用了昂贵的温补晶振以从源头消除Jitter。同时再配合上C4时钟发生器等,将Jitter降到极限的5皮秒以内。远远低于人类的听觉低限――50皮秒,而当前,主流的播放器(比如苹果)都在纳秒级别。(1皮秒=1/1000纳秒=1/1000,000,000,000秒)

HIFI就要超越极限 C4抖动突破5皮秒

作者: icE  来源: 本站原创  发布时间: 2011-4-21 18:16   

HIFI的本意是“高保真”,即最高限度的还原录音时的现场,在如今的数码电声科技时代,抛弃了传统的机械装置的干扰后,仍然有很多因素阻挡HIFI的前行,但其中一种重要的因素便是Jitter,又叫抖动,是音乐和时间不同步的原因导致的一种失真,而且这种失真从机械时代一直持续到如今的数码时代。

数字音频的基本原理就是把连续的模拟信号在离散的时间点上进行采样(Sampling),进而形成数字化的信息。时间是信号数字化的最重要的因素之一,采样和重放的时间准确度在很大程度上决定了模拟-数字转换(ADC)以及数字-模拟转换(DAC)的质量,但是现实中是不可避免的存在时间准确度出现偏差的问题,这便是抖动(Jitter)。

家园 有几个问题你始终理解有误

汉语的词一般不长,很难做到精确定义

首先你比较的时候就得采用对等的标准,不能拿汉字去和字母对比,而应该比较音节,在这种标准下,英文中绝大多数词汇也很简短,比如著名的乘法口决,译成英文后只有与七相关的口决会多出音节,其他都是一样的。而欧洲大陆上的语言的词汇按音节算通常都比于英语长。

其次任何语言的词汇都不可能精确定义其内涵。具体和下面这条一起说。

但是每个汉字都是表意的,所以每个新的词语都存在两个含义:一个是字典上的精确定义,一个是字面含义。两个含义同时存在就是模糊,就是不精确。

任何语言都有这个问题,我不知道你是怎么理解语言的,哪个语言的字面含义能与精确定义完全匹配?你最钟爱的英语,我头一次知道prostitute是啥意思的时候着实吃了一惊,它的两个字根pro和stitute哪个能让你看出来这是啥?extend向外的趋势=延伸,intend是里边的趋势=意图,那么content共同的趋势为啥可以同时是内容和满意?pretend预趋势为啥是假装?这还叫精确么?

楼主指出了,中文是“压缩存储”。压缩存储是要额外消耗CPU的。

这完全是误读,压缩存储指的是,如果把笔划看成是字母的等价物的话,那么西文单词都是一维存放,而汉字是二维存放,从而形成了空间上的压缩,根本与什么脑容量毫无关系(不过,要说脑容量,一般认为人脑对二维物体的记忆力要强于对一维线性物体,比如能相当准确地记住一幅图画,尽管其中的信息量往往大的惊人)。

中文是前置为主。前置需要表达者一次性组织整个句子,占用宝贵的内存资源。

这就更扯蛋了,任何一种语言对以其为母语的使用者来说都是非常轻松的,可以边想边说的,因为他们的大脑已经完全适应了这种语言的语法结构,根本不需要像在说外语那样花力气组织——当然,要说的特别漂亮是另外一回事,说什么语言都得花力气。

中文组词容易,所以词汇泛滥

这也能算缺点我真是无语了……但真心问下,“中国人的词汇量比美国人大的多”,你真信么?

通宝推:铁手,
家园 无人机和drone哪个更精确?
家园 第二批简化字确实让书写速度提升太多了。

(不是第三表简化字,应该是第二批简化字。)

比如

展 = “尸”+“一”

宣 = “宀”+“一”

菜 = “艹”+“才”

也许现在都计算机输入了,书写速度不太在意,不然这种简化还是很有意义的。当然第二批简化字很多确实走过头了。

关键词(Tags): #杂谈
家园 主要还是计算机处理文字的能力没有全面开发出来

智能识别方面的水平太低,只能做低水平的字、词处理,还不能解决句子和段落的综合分析。

总体来说,这不是语言的问题,而是智能识别能力提高的问题。

关键词(Tags): #杂谈
全看树展主题 · 分页首页 上页
/ 102
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河