五千年(敝帚自珍)

主题:【原创】汉语和英语的比较 -- 颜赤城

共:💬368 🌺1318 🌵2
分页树展主题 · 全看首页 上页
/ 25
下页 末页
    • 家园 这么久的文章居然送花来钱

      送花成功。恭喜:你意外获得 4 铢钱

      ===================================================

      这句话值得探讨“一门语言就是学习一种思维”。这个思维是不是思维方式的意思?

      那么全世界有6000种语言,是不是意味着有6000种思维方式呢?800种印第安语种中的600种已经死亡,是不是那些思维方式也死亡了?

      我个人认为语言和思维方式相关,但思维方式的种类不会很多,因此语言种类的也不会很多。宁波话上海话苏州话绍兴话都还是不同的语言,不能说讲这些话的人群的思维方式明显不同吧?

      既然说某种语言代表了一种思维方式,那么比较各种语言之间的区别应该可以将不同的思维方式予以归类。

      这种归类应该具有明显的量化性质,而不是泛泛而谈地说某种语言精大博深等等非量化的用词可以阐明的。

      采用申农的通讯理论可以明确区分语言之间的差别的量化方法,也可以大致知道各种语言带来的思维方式的不同。

    • 家园 十三、计算机编码和汉字造字

      一里提到如果ASCII码按部首编,就不会有乱码。他所指的细节我不太明白,不过计算机编码对汉字的影响我以前倒是想过。这里面不单是一个如何处理现有汉字的问题,而涉及到编码如何适应汉字发展的问题。本来这一篇是留在最后作展望的,顺序乱了,不管了。

      计算机深刻地改变了我们使用语言的方式。比如我们以前写字会写错别字,现在用电脑了,错字绝迹了,你根本没有机会输入错字。但是别字泛滥,大家为了敲字快也顾不了那么多了。别字到了成灾的地步。前面也有有心人给我挑出了帖子里的别字。

      新的词汇层出不穷。电视广告里新的产品有新的名字,专业期刊里有新的术语,时尚杂志里有俚语跟踪。对于英文来讲,新词的产生只是个拼写的问题。汉语的新词汇产生,就现在的情况讲也只是个单字组合问题。一个“打”一个“造”,在一起出来一个“打造”。全国上下都在打造着什么。

      汉语里的外来音译词比较长,因为外文原文比较长的,比如马达加斯加,长达五个字。但是本土词汇主要是一两个字的长度。(参看第一篇《编码效率》。)500个常用汉字,组合成两个字的词,从数学上讲有25万个可能。一个汉字,到两个汉字,能把社会从远古带到现代。假设人类文明出现的飞跃,思维复杂性有了质变,500个汉字组合到三个汉字长度的词汇就有1.25亿个可能。汉字组合的理论极限非常巨大。

      但是中文和英文有一点很不同,中文有一个造字的问题。没有人会扩展26个英文字母,但是我们祖宗可是一直在造字的。我们以前经常会看到异体字,也是汉字造字能力的一个表现。但是现在,就像我们丧失输入错字的能力一样,普通人丧失了发明新汉字的可能性。

      这个问题并没有现实需要。虽然《康熙字典》收4万7千多个汉字,但是GB2312的6763个汉字就涵盖了99%以上的中文使用。汉字的数量要减少,而不是增多。

      虽然没有现实需要,但是要做千秋大业计,不考虑造字的问题的计算机编码就不是一个符合汉字规律的编码。

      大家学什么专业的都有,因此我要非常简白的说明一下这个问题。

      现在我用笔写字,比如我“里外”的里字。我在下面的土字多加一横,我就造出一个新的汉字。这是个不好的创造,因为别人看了不知道读音。那么我在里字上面加一个“广”字头,这又是个新的汉字。(不知道是不是真有这个字,假设这是新的汉字吧。)这个字,你一看就知道是汉字,并且你肯定会把它读作里。这是个符合汉字规律的字。

      我创造了这个汉字,我可以写信给别人,说漠北有种鸟叫做这个“广里”。别人看了,学会了这个字,也可以使用。如果这个汉字被传播使用,这个汉字就真正被接受了,可入字典。

      这就是一个汉字由群众创造并被接受的过程。

      这个过程在计算机上面是不可实现的。你目前没有任何办法输入这个汉字,放在网上。别人看到这个汉字,就在他的计算机上敲出来。

      曾经有对计算机不熟悉的人听了我的说明,告诉我有个软件可以造字并显示在网页上,我去看了之后发现那是个小的图片文件。所以我挺有隔行如隔山的挫败感的。如果你对计算机不熟悉,我再详细的说明一下。问题是,你不能通过键盘输入一个不存在的字,这个字和其他所有字一样显示在网页上,你的读者再可以通过键盘输入敲出这个字。

      但是,这个过程,是完全可以实现的。虽然可能比GB2312复杂得多,并且可能造成用户使用不便。

      我粗浅的想法是,第一个是让用户可以以画图的方式自由的造字。第二个问题是用户可以像输入已有的汉字一样输入这个新造出来的字。第三个问题是这些任意造出来的字如何被其他的用户看到和使用。

      用一个软件允许用户将汉字的各个元素组织起来,造出一个新码。这个码将含有汉字结构的描述信息,所以可以被其他计算机系统识别出来并显示在屏幕上,并复制到自己的字库里。这样,有人可以造字,造出来的字可以被别人看到。这个码甚至还可以有对应的键盘输入法的信息。其他的计算机将读入,并和自己的输入法联系起来,通知用户。然后这个新字就是像新词的生命过程一样:越来越多的人开始用,被社会认可,国家将其纳入标准,编入国标字库。可以想象,这个码不像个码,而像个自解释的附件,会比较长。我们必须保持现有的简短的标准字库,而允许长的包含汉字结构描述信息的自定义编码。

      这只是一个思路,工程上会有很多方案,但是技术上并不是很难,主要是要符合汉字规律。但是涉及国家标准甚至国际标准,不是民间可以完成的。更重要的是,如前所述,现在我们是要规范现有的常用字,而不是鼓励人们造新字。

      元宝推荐:铁手,
      • 家园 del

        del

      • 家园 编码不是问题

        沟通交流是问题

      • 家园 这个造新字有两层,

        一层是用汉字原有的元素拼出一个新字来,好比您说的上广下里,一个是重新画出一个字来,包括您说的里字加一横,前者还可能,后者我觉得不太可能,况且您说的造字多数是前者,造出后者来的多数是异体字而已。

        那么前者的话首先就要造一个基本元素库,据河友夏商楚歌说,甲骨文元素不过三百多个,接近四百,我觉得现在的元素不过数千而已,不会再多了。用某种规则实现拼合,还能看得过去,应该不难。在用某种规则形成符号,其实只要根据元素形成符号即可,再加上元素位置的符号,应该也不难实现。

        其实主要是不应鼓励造字,只要发掘古字即可,我的体会真是有无限的可能性。

        但这其实还是需要的,因为不断有新发现的古字,在考古文章里,常见图形字。

        另外字典也应放在网上,随时接纳认可的新字,这才完备了。

        以上胡说勿怪。

        • 家园 汉字造字困难是因为造字解决不了新增加概念的需要

          首先那些无法切割的东西,汉字必须给予一个确切的单字予以确定,否则无法进行概念运算;

          比如元素周期表上的100来个元素,汉字打破了以前对外来语进行词组拼写法进行引入,而是对应于每个元素,基本上每个元素都创造了一个新字。此外对基本粒子也是采用了音译的办法创造了新字(词)。

          汉字的笔画写法(象形字)是在一个限制了的空间里(有字长和字高的限制),因为象形字分辨率的关系不能再增加比划和旁首了---比如五官科医生书写鼻窦这2个字就会感到比较麻烦,有关鼻腔的新字创造肯定最困难。而英语没有字长和分辨率的限制,造新字不是一件难事。

          汉字简化仅仅是一种书写输入的压缩制式而已--减少了笔画,加快了输入输出速度--只是苦了台湾同胞,也减少了造新字的可能性。

          写文章的目的就是进行语言信息交流,就是尽量增加透明度,增加清晰度,克服混乱度,从而使得概念能够有效传播,阅读者能够理解作者的意图,就是减少通信时候的熵增大。这里就涉及到通讯理论了。

          其实主要是不应鼓励造字,只要发掘古字即可,

          根据通信理论对汉字的熵值的研究,学者们发现了汉字容量极限定理--汉字的字数增加不再改变汉字的熵值的上限是12366个汉字。就是说增加汉字数目对减少通信过程的混乱或不清晰的程度的帮助不大,也就是说,发掘古字没有多大用处。如同孔乙己会写茴香豆的四种“茴”字,只不过是古文中的一些书写变异,4种“茴”字发音也没有对应的变化,对茴香豆产品的升级换代开发没有意义,四个茴字还不如简并化成一个茴字即可--语言进化也表明只有一个茴字被选择保留了下来。

          所以我们常用的6000个“旧”汉字进行重新组合所创造的字组来对付新概念新事物,不用新字而是用“旧”字组是汉字的一个明显的局限--字组搭配不是那么容易的,理论上可能得到的组合字数不代表实际可以达到的组合字数。

      • 家园 这一段太火星了^^(无贬义)

        造字的功能反而因为电脑更加发达

        这是被戏称为火星语的,流行于18岁以下的年龄,不排除18岁以上的人也在使用

        ┃●. *那麽重dˊ粉底゛ ┃●. *妳到底在掩飾什麽....﹖莪們兜是恏孩孓, 莪們兜會幸福。~~~~☆☆~~~~~

        ┌.ι祗想夶聲對袮說;兲崖塰捔請袮弌啶偠帶莪祛+┈ → 嘸論哪裡o﹎

        親愛的寶貝┈.即使受傷o┈]莪們吔應該繼續驕傲↗. 因爲莪們還擁囿很多

        ≒祗想让伱倁檤`_﹏洅莪(~)茽伱茤喠喓'★

        菑摂檪,莪Dê 丗堺對尒 旳a!

        ㈧會輸給荏何亼.··○

        这是除去了情绪表情符号的翻译,因为那个不可以翻,自己看个大概吧

        那么重的粉底 你到底在掩饰什么 我们都是好孩子 我们都会幸福

        只想大声对你说 天涯海角请你一定要带我去 无论哪里

        亲爱的宝贝 即使受伤 我们也应该继续骄傲 因为我们还拥有很多

        只想让你知道 在我心中 你多重要

        XXX(MS是人名) 我的世界对你的爱

        不会输给任何人

        所谓造字功能,不是消失,而是一般用不到啊

        • 家园 造的是词不是字

          古代有通假字,问题是很容易理解错误。所以从简化标准出台后繁体字都不用了,更没人去造字。

          英文的26个字母是固定的,有人造词,但没有人造字母。即使是手写,造一个新的字(字母)让大众认可也是非常不容易,非常不讨好的。对于计算机,更有很实际的应用问题。为什么要在大工程生产中给搞得这么艺术创造呢?书同文,车同轨。意义是很明显的。

          对于词,外来词,新词则必定是层出不穷的。科技的交流,有很多是外文音译。

          还有些,是外文本身就是新词,而且很特定的含义只在特定的情形下使用。在国内同步出现,迅速流行。大家都熟悉了外文形式,翻译成中文反倒没人知道,所以只用外文。比如hacker。 比较老,译为“黑客”,但现在新出的geeker一般就直接用了,没见谁译成“吉客”的。

          中文,自己的语言。最创新的是年轻人,流行的暗语。任何时代都是。比如新合成词“屌丝”。比如旧词新意“宅”(词性都变了),比如旧字新用,就是楼上说的火星文了。

          网络让这种新词流行非常快。对于字来说,虽然没法使用GB2312码表以外的字,但是反过来,却也可以使用码表以内的非汉字。比如"㈧會"等等。这也是计算机时代的特点。

          最强的还是看到某萝莉这个qq签名,当场就给跪了。赤城老师不知你震到没有

          ————十八岁分割————

          “巭孬嫑莪”

          • 家园 得钱吱一声

            送花成功。有效送花赞扬。恭喜:你意外获得 8 铢钱。1通宝=16铢

            作者,声望:1;铢钱:0。你,乐善:1;铢钱:7。本帖花:1

      • 家园 这个字还真的有

        那么我在里字上面加一个“广”字头,这又是个新的汉字。(不知道是不是真有这个字,假设这是新的汉字吧。)

        㢆,能看到吗?应该是看不到吧。

        郑码是tgkb。

        另外,这句话我觉得值得商榷。

        现在用电脑了,错字绝迹了

      • 家园 群众接受也得有个成本问题

        按楼主这个原理,得,不用一个月,上猫扑天涯估计没几篇文章能看懂了。活生生又整出一文盲~一夜回到解放前啊

        文字本来就是个载体,你一个里字搞出十八种写法,十一人每个人花一分钟学你这个新字,社会成本就是十一亿分钟。这还没有考虑传播付出的成本,你自己算算看~有意义吗

      • 家园 有个叫“徐冰”的人做了个类似的事
分页树展主题 · 全看首页 上页
/ 25
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河