五千年(敝帚自珍)

主题:【原创】汉语和英语的比较 -- 颜赤城

共:💬368 🌺1318 🌵2
全看树展主题 · 分页首页 上页
/ 25
下页 末页
家园 新华字典是按拼音排的,其他一般按部首排。
家园 枪不会杀人,人会。

说得对~~很多时候说某句话不能信达雅的翻译成英文,或是中文。往往是由于翻译者的水平,而不是语言的问题。

家园 这个会翻译成”挨炮的爽歪歪!“
家园 应该建议他们改用汉语数数,幺两三四五六拐八九洞
家园 久违
家园 意译与音译的区别在于译者的作用

意译时译者的作用举足轻重,翻译的好坏直接影响读者的理解,翻译的好就会达到翻译上的最高境界,译入方读者可以很方便的接收;而音译时译者的作用就被削弱了,翻译成什么样译入方的读者反正都不可能直接理解而需要学习。作用来说见仁见智吧,以俺一码农的观点看,其实就类似于IT界厚薄接口的争论,各有利弊吧,更应该讨论的也许应该是在中文环境下孰好孰坏。

当然,其实在中文环境下也不用谈了,汉语使用者对意译的偏好是一以贯之的,无论是哪儿的汉语使用者都如此,当然像香港、新加坡或海外华人面临绝对强势的英语而自身的中文环境又过于薄弱的情况下被迫引入大量英文不谈,在大陆和台湾都毫无问题的采用意译为主。原因是一正一反,正的颜赤诚说了,汉字有表意的优势,反的则是汉语由于采用了中文这种记录手段导致在表音上有弱势,因为汉语使用者有个非常顽固的习惯就是没有对应汉字的音就干脆转音而不是造字,有些常用音汉语实际上是能发的,比如ki / gi但由于没字就只好转音,使得汉字记录的读音往往与原文差别很大。

家园 您的女同学一定不是辽宁省人~~我的沈阳同事如果对我说“咱

妈”,那指的是我的妈妈。想想这个说法很有趣,规避了一个不好的联想,如果用“你”代替“咱”,嗯,东北人脾气暴,有可能发生一些不好的口角之类的。

家园 我会左右手互博

125,857,980我会读作125百万857千980

1,2585,7980我会读作1亿2585万7980

家园 杀人的是人,不是枪。我就这么翻译
家园 这么久的文章居然送花来钱

送花成功。恭喜:你意外获得 4 铢钱

===================================================

这句话值得探讨“一门语言就是学习一种思维”。这个思维是不是思维方式的意思?

那么全世界有6000种语言,是不是意味着有6000种思维方式呢?800种印第安语种中的600种已经死亡,是不是那些思维方式也死亡了?

我个人认为语言和思维方式相关,但思维方式的种类不会很多,因此语言种类的也不会很多。宁波话上海话苏州话绍兴话都还是不同的语言,不能说讲这些话的人群的思维方式明显不同吧?

既然说某种语言代表了一种思维方式,那么比较各种语言之间的区别应该可以将不同的思维方式予以归类。

这种归类应该具有明显的量化性质,而不是泛泛而谈地说某种语言精大博深等等非量化的用词可以阐明的。

采用申农的通讯理论可以明确区分语言之间的差别的量化方法,也可以大致知道各种语言带来的思维方式的不同。

家园 的确是习惯

她说这是个习惯养成的问题,习惯就好了。

在光谱学等微观尺度,常用不同的单位:

太阳物理学上,习惯用表达太阳光谱波长的单位为2种:埃米或纳米,比如太阳射电氦光谱经常用304埃米或30.4纳米,一个是10^-10米为单位,一个是以10^-9米为单位。

在生物学上,DNA的每个螺旋长度经常表达成34埃米或者是3.4纳米。

按照3位的习惯,应该使用纳米才对,但是这样要使用小数点读法,不容易记忆,就采用特殊的10位法了。

家园 汉字造字困难是因为造字解决不了新增加概念的需要

首先那些无法切割的东西,汉字必须给予一个确切的单字予以确定,否则无法进行概念运算;

比如元素周期表上的100来个元素,汉字打破了以前对外来语进行词组拼写法进行引入,而是对应于每个元素,基本上每个元素都创造了一个新字。此外对基本粒子也是采用了音译的办法创造了新字(词)。

汉字的笔画写法(象形字)是在一个限制了的空间里(有字长和字高的限制),因为象形字分辨率的关系不能再增加比划和旁首了---比如五官科医生书写鼻窦这2个字就会感到比较麻烦,有关鼻腔的新字创造肯定最困难。而英语没有字长和分辨率的限制,造新字不是一件难事。

汉字简化仅仅是一种书写输入的压缩制式而已--减少了笔画,加快了输入输出速度--只是苦了台湾同胞,也减少了造新字的可能性。

写文章的目的就是进行语言信息交流,就是尽量增加透明度,增加清晰度,克服混乱度,从而使得概念能够有效传播,阅读者能够理解作者的意图,就是减少通信时候的熵增大。这里就涉及到通讯理论了。

其实主要是不应鼓励造字,只要发掘古字即可,

根据通信理论对汉字的熵值的研究,学者们发现了汉字容量极限定理--汉字的字数增加不再改变汉字的熵值的上限是12366个汉字。就是说增加汉字数目对减少通信过程的混乱或不清晰的程度的帮助不大,也就是说,发掘古字没有多大用处。如同孔乙己会写茴香豆的四种“茴”字,只不过是古文中的一些书写变异,4种“茴”字发音也没有对应的变化,对茴香豆产品的升级换代开发没有意义,四个茴字还不如简并化成一个茴字即可--语言进化也表明只有一个茴字被选择保留了下来。

所以我们常用的6000个“旧”汉字进行重新组合所创造的字组来对付新概念新事物,不用新字而是用“旧”字组是汉字的一个明显的局限--字组搭配不是那么容易的,理论上可能得到的组合字数不代表实际可以达到的组合字数。

家园 简单地回答一下

如果ASCII码按部首编,怎么会乱码呢?

汉字部首的位置形形色色位置不同,可能超过256个,ASCII码的数量可能不够了。

ASCII码长采用8比特,可以安排2^8=256个熵值在4比特左右的西文拼音字母(英语26个,俄语34个,)和其它数字标点符号。而中文单字的熵值是9.6比特,ASCII码的8比特就根本不够用了,只能采用16比特的编码了。

16个比特的中文码系统和8个比特的ASCII码系统在计算机运算性能上应该有差别吧?

汉字字符编码比拼音文字编码复杂就是因为汉字的熵值是9.6比特而拼音文字的熵值是4比特。

家园 英语怎么会是退化的德语?

法语一个字母的熵为3.98比特,意大利语一个字母的熵为4.00比特,西班牙语一个字母的熵为4.01比特,英语一个字母的熵为4.03比特,德语一个字母的熵为4.12比特,俄语一个字母的熵为4.35比特。

德语字母的熵值比英语还要高,当然比俄语要好多了。不过这些拼音文字同中文比较起来,那些熵值差距就不算什么了---汉字的熵值是9.6比特。

看看德语正字法什么时候发表,俄语的正字法又是什么时候通过的?莎士比亚写他的戏剧时,德文还是个什么样?

我们现在使用的中文是什么时候创建的?

家园 拼音语言是声音和耳朵的,当然还有宗教因素。中文是眼睛的

给你看一个我的老帖子,里面有一个关于中国人为什么说话大声的说法

我和汉字拼音化专家江毅关于汉字优劣的几个对帖

江毅:“我认为汉字拼音化是不可能的.因为汉字重音字太多,拼音化后读困难,不好辨识,要不断看上下文猜.而如果采取同音多形的方法解决这个问题,就必然造成文字过长的问题.现在汉语拼音文章长度已经超过英文(统计意义上),再加长不可取.

其实汉语言的方块字并不是累赘,而是一块宝石.有分析指出,汉字的简练形式对人们思维快捷很有益处;汉字文本的浓炼性也是出名的好.

计算机时代使得汉字输入不再是大问题(仍有待进一步提高,当然).汉字的单音节特点使得汉字语音识别可以更可靠(这一点现在还未实现,假以时日吧).

其实还有更深层的东西人们还没认识到.比如汉语的成语现象.西方拼音文字是无法产生这种成分的.汉语中的缩略语也和拼音文字的字母缩略词大相迳庭.这一切都因为这个汉字特点: 一个汉字相当于拼音文字的小词,大于字母ABC.故此汉字组成的成语和缩略语实际是小词的组合而不是西文中相应缩略词的字母组合.这样的成语和缩略语的表达能力是惊人的美妙.

这样的汉语的独特成分使得人们能引经据典地实行高抽象思维.美哉!

汉语原先有个缺点,就是最小单位是字(小词).这个最小单位大了点.不适用于现代科学公式推导.

现在引入了汉语拼音和阿拉伯数字后,这个问题也不存在了.

总之,只要中华文明还延续,汉语+汉语拼音会长存不息的.

江毅

汉王简中文软件作者

Han WJ . com

庄冬:“本来只想回你几句话。结果写长了。

你是专家。我只是跟你说一点自己的观察。这是我从为什么中国人需要大声说话想到的。

你说“现在汉语拼音文章长度已经超过英文(统计意义上),再加长不可取”。

也有人指出拼音语言是像声,因而是一维文字。中文是像形,因而是二维文字。把二维文字当一维写当然是要长了。

可以说“一个汉字相当于拼音文字的小词,大于字母ABC.故此汉字组成的成语和缩略语实际是小词的组合而不是西文中相应缩略词的字母组合”。所以造成了汉语数字化的门坎儿比较拼音文字高的事实。这其实只是个技术问题。

至于“汉语原先有个缺点,就是最小单位是字(小词)。这个最小单位大了点。不适用于现代科学公式推导。”也是针对目前科学来说的。人类科学也就几百或几千年的历史,只是刚刚开头。几千,都别说几万年以后是什么样子谁知道呢?因此不能以今天(其实是昨天)拼音语言的优势来判断中文或试图将中文拼音化。

“汉字的单音节特点使得汉字语音识别可以更可靠”的一方面。但是也正因为如此,每一个音节的价值和准确的识别就至关重要了。因此,为了保证汉语交流的可靠性,使用汉语的人就必须将每一个音节都准确无误地传出去,从而导致几乎是必须大声说话的现象。

文字是通过视觉(盲人是触觉)达到交流的目的的工具。拼音语言文字在直接联系发音上有优越性。由于声音是一维的信息,拼音文字的一维的本性就决定了。但是视觉(即便减去声音也)是一个多维(现在时髦叫multi media)的功能,至少写字用的纸就是二维空间。像形文字就是利用了视觉(处理信息的多维能力)超过拼音文字只是利用了听觉(处理信息的一维能力)的特点的结果,因此比拼音文字优越。

语言包括说的和写的两部分。要比较两个语言先比较说的这部分容易一些。因为不管什么人说什么语言,声音是一样的,虽然同样的声音在不同的语言中的含义是不同的。比如说中文和英文吧,虽然中文和英文都有对方没有的音,这两个语言用的的音的数量基本相同。当然,中文有四声,可英文也有重音。基本上可以说中英文(从整个语言上来说)用的音的数量基本相同。

但是,由于中英文对它们使用的音节的方法(也就是排列组合)的不同,它们在说的这部分的使用上的效果或效率则是不同的。一个似乎很明显的现象是我以为用中文说话交流同样信息的时候往往使用的音节的数量比较少,往往中文几个音节就可以说清楚的事情英文要用的音节就多一些。比如,“翻译”两个音节,而“translation”至少四个音节。

日语用的音节比较少。打个比方,那日语简直就是一个语言上的二近制。你得用一群0和1才能把个三位数说清楚。看过Lost in Translation电影的人们一定会同意的。

当然啦,用的音节多或少也无所谓坏与好。只是用的音节少了,每一个音节的份量或在交流信息时的价值就大了。因此,我们中国人说话的时候就有必要对每一个音节大安全到达听者的耳朵里比别人做出比较大一些的努力。所以泥,我们中国人说话的时候声音就大一些。就这么简单,也无所谓好与坏或美与丑。

我们中国人在初学英的时候会试图发出每一个音。然后就是我们中国人在唱英文歌的时候会试图发出每一个音和往往会发现时间不够用。其实呢,这只是用多个音节的优越性。因为英文用的音节多,具体每一个音节的价值就相对小了,因此在说话时有些音节没说清或没听清还是能达到交流的目的的。他们说英语(或其他类似用多音节语言)的人说话的时候就有没有必要对每一个音节大安全到达听者的耳朵里比别人做出比较大一些的努力。所以泥,他们说话的时候声音就可以低一些。就这么简单,也无所谓好与坏或美与丑。

中国人说话的时候声音大让一些同胞不好意思这似乎是使用的音节的数量比较少的尴尬例子。那么,中文说话交流同样信息的时候往往使用的音节的数量比较少这个事实有什么好处吗?

当然有啦,我给大家举一(类)例子。我在老美的NASA干过几年,控制和发射过卫星。在紧急情况时间宝贵的时候用英文可是慢啊。这一点人家老美也早就意识到啦,还设计了一些用来省时间的专用短语泥。我估计打仗时或救人时还是少用几个音节的好。

我说了这一通跟你的汉字拼音化有什么关系呢?拼音是记录语言的一种方法。语言包括说的和写的两部分。写的那部分记录说的部分。当然,纯粹地看说的和写的两部分也可以说它们是平等的和几乎一一对应的。但是从语言的起源和发展来看,还是应该是说在写之前。

既然写没有声音大小的问题,中文在说的部分的效率或使用音节较少的优越性就应该没有使人尴尬的问题而是纯粹的优越性了。

虽然英语的拼音形式有优越性,但是随着计算机速度和存储的发展。中文的优越性已经开始显示出来了。

中英文在说的部分使用音节的数量的比较在书写部分则是完全相反的。由于英文和其他拼音文字用的字母系统大大简化了语言的书写对于普及文化和扫除文盲都非常有优越性,当然还包括拼音语言的数字化。

音节是语言中说的部分的基本分子。可语言中写的部分的基本分子是什么呢?对于拼音语言,我们也许可以说是那些字母。不管事实上究竟如何,反正在语言的数字化上来说似乎是这样的。这就使拼音语言成了书写上的26进制。而中文呢,由于其基本分子似乎纷乱和众多就不好说究竟中文是几进制了,而且应该似乎比26多一些。

由于中文是似乎比26多一些的进制,中文的数字化就要比英文困难的多。这也是多年来人们努力试图使中文拼音化的原因。有得必有失,虽然人们往往看不到他们失去的东西。英文的26进制在数字化初期的优越性已经随着计算机速度和存储的发展已经逐渐不再那么明显了。相对的,英文的26进制在数字化方面的缺点也已经开始显露出来了,比如英文字典的庞大。

其实,语言嘛,不管是说还是写,其目的是交流信息。打个比方就好比计算机的机器语言。但是由于种种原因,就像人们不用机器语言去编程序而是用各种各样的所谓高级语言去编程序一样,人们用各种各样的语言去交流(虽然我们不知道人类是否有一个相同的“机器语言”,为了讨论方便起见不妨假设它的存在性)。假设人类的相同的“机器语言”的存在,其实也可以理解成人体内部神经细胞交流的方式,或是电磁的或是化学的方式。假设人体内部神经细胞交流的方式,或是电磁的或是化学的方式,是人人都基本上一样的应该不是什么太过分的事情。

这样一来,人类日常使用的语言就好比人们编程序用的所谓高级语言一样。人脑必须将这些语言“翻译”了以后才能应用。因为人脑要把人类日常使用的语言翻译成人类的相同的“机器语言”,这时人脑就需要一个从人类日常使用的语言到人类的相同的“机器语言”的“字典”。

有了人类的相同的“机器语言”这个基础和我们必须将这些人类日常使用的语言“翻译”了以后才能应用,相对某个语言到人类的相同的“机器语言”的“字典”的优越性才是那个语言的真正的优越性。

这个地方,中文就比英文优越。为什么呢?因为英文是26进制而中文比较起来是个比26多的进制。如果把我们需要表达的事情的集合看成是所有整数的话,用26进制的英文来描写这些整数的字典就一定要比用比26多的进制的中文来描写这些整数的字典大得多!

而且事实也正是如此:英文字典天天在膨胀,而相对说来中文字典从康熙大词典到今天有变化也不多!

拼音语言的长处在于它的文字是基本记录说话的声音同时又是短处。

拼音语言的文字是记录说话的声音,因此拼音文字没有利用文字是为眼睛(盲人就是触摸)设计的这个事实。因此,拼音语言的看或读或写跟说基本上没有本质的区别。所以,拼音语言是像声语言。

中文是像形语言就利用了文字是为眼睛(盲人就是触摸)设计的这个事实。由于文字可以是被看见或触摸着或就是被看见或触摸着为目的设计的,所以它的使用的性质就使它不必操心耳朵听所不能区分的东西。这个事实在中文的具体体现就是中文里同音字和词的众多。虽然英文也有少量同音词,但是比较中文就少了。

由于拼音语言是以声音为基础的,因为发声的基本单位有限(因而这也是拼音语言用的字母的发音都很类似的原因)制造一个拼音语言的阅读机器和数字化就比较容易。

由于中文是以形象为基础的,因为形象的基本单位太多(因而这也是像形语言用很多的同音字和词的原因)制造一个中文的阅读机器和数字化就比较困难。

由于是机器,其实这个困难只体现在制造这种机器的初级阶段,也就是初级的技术只能处理数量比较少的基本单位的像声语言。一旦技术发展了,也就是技术发展到能够处理数量比较大的基本单位的像形语言了,中文的阅读机器也就可以制造了。知道一点人工智能的人们都知道这只是存储量和处理速度的技术问题。大家又都知道,以发声的基本单位为基础制造出来的阅读机器的声音是早期科幻电影里的机器人的声音。要制造比较好也就是比较接近人说话的机器人就不能完全以发声的基本单位为基础。当然另一个极端的做法就是把所有字的发音储存起来。这个极端的做法对中文来说就不是那么极端,因为中文的字的数量相比英文词的数量不太大。而对英文来说把所有词的发音储存起来就比较极端了。还由于英文像声或叫拼音的本性,它必然要产生新词。因此这个英文的所有词的发音储存还不断地需要更新。这就又回到了前面字典的问题上了。

总之,我们中国人的祖先成千上万年祖祖辈辈为我们通过他们的实践筛选或叫被时间的大浪淘洗出来的中文在很多意义或方面是比拼音语言有着很多我们还没有意识到的优越性(或叫有技术含量或技术含量比较高)的。相比之下拼音语言就基本上没有技术含量或技术含量比较低,虽然拼音语言数字化的门坎儿比较低。但是一旦技术发展了,拼音语言数字化的门坎儿比较低的这个优势就不仅仅是优势而是劣势啦。

有一得就必有一失,开始时占了容易或门坎儿低的便宜后来就要付出代价。这代价就是像声语言命里住定的地位就是为像形语言铺路做奴隶和最终消失。

汉语的某种学习和使用上的技术性的困难对人们智力的锻炼和发展还有抽象思维我就不在这里讨论了。汉语里的成语其实是智慧的结晶。这种智慧的结晶不仅仅是语言方面的还是文明层次上的。可以打个比方说汉语里的成语就好比数学里的公式和定理或物理学里的定律是智慧的结晶一样。

所以,搞中文的拼音化其实就是去迁就拼音语言的低门坎儿,是非常鼠目寸光和自废武功的,就更不用说不仅仅是徒劳无益的还是有害的好在我们中国人的祖先早已为中文注有免疫力啦。

江毅:“我觉得你的关于大声说话的推理是有道理的,谢谢!

庄冬:“我的人体内部反应和计算机机器语言的比喻更有道理。因为人的生物学相同。

所有语言的目的都是一样的:造成人体产生内部发生某种反应最后得到设想的结果。

因为人体的工作原理比较计算机复杂,而我们清楚计算机是怎么工作的。所以,分析一下我们已知的人工智能的模型是有益的。

命令是最简单的通讯类型。比如说一个指令“起立”。不管你用什么语言发出,也不管是以声音的方式还是视觉(书写)方式,明白那个语言的人在听到指令“起立”后造成人体产生内部发生某种反应最后得到设想的结果应该是一样的。因为不管你懂什么语言,人类的生物学(也就是人体内部的工作原理)应该是一样的。

在最简单的通讯类型,也就是指令这里,不同语言的优劣很可能不明显。

但是在复杂的通讯里就会有区别啦。有的语言很可能就不能做某种事情或做的不如另一种做的好一些。体现这一点的例子在计算机的程序语言里的很多。

再比如讲故事也是比较简单的通讯模式。同一个故事用不同的语言讲或写出来,相应的懂那个语言的人听或读了以后的反应应该是有所不同的。因为虽然故事是同一个,但是把它转化成语言的过程其实就是一个翻译过程。听或读故事的过程就是又翻译成人类作为生物的人体内部统一的电磁或化学语言。那个语言能使人产生身临其境的感觉的就应该是讲故事效率比较高的语言。

当然,通讯的内容可以是各种各样的,如:准确的如命令或指令、模糊的如故事或信息(包括事实、感情和思想等等)。不同的语言都会有不同的实际应用效果的。

江毅:“很有见解.值得思考.特别是关于为什么汉语导致大声说话的思辩非常新颖,想想也似乎有道理.

庄冬:“你是专家。我是业余聊天玩的。其实你的帖里也说了“汉字的单音节特点使得汉字语音识别可以更可靠”的一方面。但是也正因为如此,每一个音节的价值和准确的识别就至关重要了。因此,为了保证汉语交流的可靠性,使用汉语的人就必须将每一个音节都准确无误地传出去,从而导致几乎是必须大声说话的现象。

文字是通过视觉(盲人是触觉)达到交流的目的的工具。拼音语言文字在直接联系发音上有优越性。由于声音是一维的信息,拼音文字的一维的本性就决定了。但是视觉(即便减去声音也)是一个多维(现在时髦叫multi media)的功能,至少写字用的纸就是二维空间。像形文字就是利用了视觉(处理信息的多维能力)超过拼音文字只是利用了听觉(处理信息的一维能力)的特点的结果,因此像形文字比拼音文字优越。视觉可以处理同音字就是利用了视觉比听觉的特殊性。

拼音文字扫盲门坎儿也低。教一个母语说英语的成人阅读报纸只需要几个星期的时间。教一个母语说汉语的成人阅读报纸却需要几年的时间。

全看树展主题 · 分页首页 上页
/ 25
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河