“以《聯合國憲章》為例,中文版的《聯合國憲章》有26650個字符,而英文版則需要55600個字符,在排版統一的情況下,中文文件的厚度一般只有英文等字母形語的一半。”
“因此作為書面文字,漢字是這個星球上最高效,信息密度最高的文字。”
“究其根本原因,是因為字母形文字是‘一維’的,只代表了聲音,而漢字是二維的,不僅僅代表聲音,還封裝了海量的信息。”
“這種信息還可以自由組合,用極簡的方式完成派生詞的產生。”
“比如國際化這個詞,用英文表述需要二十個字符,用中文只需要三個字符,換成信息技術的表述,英文需要二十比特,而中文只需要六比特。”
“根據香農信息熵的研究,字符的信息熵為4比特,而漢字的信息熵為9.65比特,也就是說,在以計算機技術為主的信息世界里,中文可以比其余文字,以更小容量的信息載體,更快的速度,記錄和傳播更大的信息量。”
“比如中文的舅舅一詞,只有四個比特,而要用英文來準確瞄準,則需要以‘媽媽的哥哥’來表示,中文詞匯在這里還包含了血緣,輩分,性別三個維度的信息量,這是聲音記錄類字符型文字所無法表達的。”
“除了記錄的效率,還有讀取的效率。”麥小苗在臺上侃侃而談:“中國有個成語叫做‘一目十行’,意思就是中文信息的讀取可以是面積式的,圖形化的。”
“四葉草實驗室做過一個有趣的實驗,那就是將固定中文詞匯的排列順序予以打亂,然后制作出文本交給讀者閱讀,讀者們可以驚奇地發現,混亂的詞匯語序搭配正確的中文語法,并不會對閱讀理解造成任何影響。”
“也就是說,‘實驗’和‘驗實’在文章里的作用是一樣的,錯誤的排序會被中文使用者在下意識層面完成自動糾正。”
“人類的大腦在閱讀時主要涉及兩條通路,一條叫背側通路,主要進行語音識別,一條叫腹側通路,主要進行視覺處理和語意連接。”
“大家在閱讀字符型文字的時候,需要先將文字轉化為語音,然后通過背側通路接收;而在閱讀表意型文字的時候,則是兩條通路同時進行,所以才能夠達到‘一目十行’的效果,信息的提取效率也得到了極大的提高。”
“作為識別工具,漢語的‘六書’法,又提供了強大的功能,瀚文大字庫的所有表意文字,拆分開來,都是‘字根’,而這些字根里邊,也涵蓋了巨大的信息量。”
“比如鳥字旁的字,可以圈定一個大概的理解范圍,大家可以發現漢字里這類文字,大多和鳥,飛翔這類特性相關,而字符型文字很難做到這一點。”
“對此有人會產生一種直覺,認為漢字的高效,與漢字特別多有關。”麥小苗微笑道:“然而這是一種錯覺。英文總詞匯量超過一百萬,而且目前還在以每年四千到八千的數量增長。而中文常用字大約3500個,基本上只需要掌握這三千五百字,就能夠自由組合,并且完成中文世界里百分之九十以上信息量的交互,這也是瀚文基準字庫的范圍。”
“這一點重要不重要呢?我只舉一點重要性,那就是中國人基本無需重構專業語,學習另一套專業詞匯,就可以自由地進行跨專業的學習。”(本章完)_c