平心靜氣定神閑 / 漢典 / 現代漢字屬性的研究

   

現代漢字屬性的研究

2020-08-11  平心靜氣...

作者簡介孔祥卿,女,1966年出生于河北辛集,文學博士,現為中國文字學會會員,中國民族語言學會會員,中國民族古文字研究會會員,南開大學教授。

史建偉, 男, 1966年出生,河北省樂亭縣人。南開大學漢語言文化學院副教授。

孫易,女,祖籍山東,1976年8月生于山西高平?,F為中國語言文學系副教授、中國民族古文字研究會會員。

一、字頻

文字是輔助性的交際工具,在交際過程中,有的字用得多一些,有的字用得少一些,呈現出一定的統計規律性。一個字在一定范圍的語料中出現的次數,稱為字的頻度,即字頻。字頻統計對漢字研究和漢字應用都有重要意義。

漢字字頻的統計工作從20世紀20年代開始,陳鶴琴的《語體文應用字匯》是最早的漢字字頻統計研究。書中使用頻度最高的前二十個字是:的、不、一、了、是、我、上、他、有、人、全、這、來、小、在、們、說、子、可、道。開始的統計是手工進行,目的是為識字教學,所用的語料范圍也較小。經過80多年的發展,字頻研究取得了長足的進步,統計的目的從識字教學擴展到信息處理;所用的語料從幾十萬字增加到兩千萬字;統計的項目從單純的字頻發展到多種數據;所用的手段從手工發展到計算機。

1977年,新華印刷廠編成《漢字頻度表》,選用語料2160多萬字,用手工統計,得到不同的字種數6374個,按頻度由高到低排列成字表,共分《政治理論頻度表》、《新聞通訊頻度表》、《科學技術頻度表》、《文學藝術頻度表》、《綜合頻度表》五個表。每個表都分編號、單字、出現次數、累計數、累計數百分比五個欄目。這項研究成果成為《信息交換用漢字編碼字符集·基本集》的主要依據。后來,1984年,貝貴琴、張學濤在原統計數據的基礎上,用計算機重新計算,編成《漢字頻度統計》,其中的《漢字頻度統計表》,把漢字分為五級,統計如下:

1979至1985年,北京語言學院編成《現代漢語頻率辭典》,這本辭典用人工和計算機相結合的方法,從詞語應用的角度進行計量研究,同時兼顧漢字字頻和組詞能力的統計與分析。所用語料180萬字。其中的《漢字頻度表》,共有字種4574個,分級統計如下:

級別  序號     累計頻率%

Ⅰ  1~100     47.33584

Ⅱ  101~1000   91.36559

Ⅲ  1001~2418   99.00023

Ⅳ  2419~4574   100.00000

前十個高頻字依次是:的、一、了、是、不、我、在、有、人、這。

1981年,北京航空學院承擔了文字改革委員會和國家標準局下達的現代漢語字頻統計任務,利用計算機進行統計?!蹲畛S玫臐h字是哪些?——3000高頻度漢字表》(文字改革出版社,1986)就是這次統計的部分成果,全部成果匯編成《現代漢語字頻統計表》(語文出版社,1992)。統計的語料總字數為1108萬字,得到字種7754個。統計得出13個字頻統計表:

1.社會科學·自然科學綜合漢字頻度表,收字1~7754

2.社會科學綜合漢字頻度表,收字1~7373

3.自然科學綜合漢字頻度表,收字1~6009

4.新聞報道類漢字頻度表,收字1~4913

5.歷史哲學類漢字頻度表,收字1~5402

6.文學藝術類漢字頻度表,收字1~6501

7.政治經濟類漢字頻度表,收字1~4888

8.文體生活類漢字頻度表,收字1~4210

9.基礎知識類漢字頻度表,收字1~4426

10.農林牧副漁類漢字頻度表,收字1~3688

11.重工業類漢字頻度表,收字1~3619

12.輕工業類漢字頻度表,收字1~4502

13.建筑運輸類漢字頻度表,收字1~3010

由此看到,不同的學科用字的情況很不一致,統計選用語料的范圍非常重要,對統計的結果有很大影響。近些年,國內有很多家單位建起了大型語料庫,今后的統計工作必須有大型語料庫的支持,人工統計的時代已經一去不復返了。

通過對字頻統計結果的分析,還得到了兩條規律:

1.漢字效用遞減率

1000常用字的覆蓋率已達90%以上,增加到3000字時,覆蓋率已達99%以上,以后無論增加多少字,其增加的覆蓋率都只在1%。這個規律對于研制現代漢語常用字表和通用字表有指導意義。

2.常用字筆畫趨簡率

根據統計結果,最常用的字,其平均筆畫較少,隨著常用程度的降低,其平均筆畫數成比例地增加。王鳳陽從漢字歷史也得出這樣的結論:應用頻率高的字一般地趨向簡化。①這條規律對說明漢字的發展演變,指導漢字的簡化工作,有重要意義。

二、字量

漢字的字數有多少?是個很難回答的問題。雖然各種字典中收的漢字已達幾萬字,但那是歷代積累下來的,不是實際用字的量,而且其中有很多是異體、別體?,F代漢語的用字究竟有多少,這是漢字定量研究的大課題。早在20世紀50年代,周有光就提出研制《現代漢語用字全表》的問題,可是《全表》只能解決定量的問題,還需要定形、定音、定序,合稱“四定”,目前,有關部門正在研制《規范漢字表》。在此之前,先研制出常用漢字和通用漢字。

1988年1月,國家語委和教委聯合發布《現代漢語常用字表》,共收常用字3500字,又分為一級常用字2500個和二級常用字1000個。經過檢驗,一級常用字覆蓋率97.97%,二級常用字覆蓋率99.48%。

1988年3月,國家語委和新聞出版署聯合發布《現代漢語通用字表》,收現代漢語通用字7000字,包括《現代漢語常用字表》中的3500字。

區分通用字和罕用字、常用字的標準主要有四條:

1.字的頻度

2.字的分布面和使用度

3.字的構詞能力和構字能力

4.根據漢字的實際使用情況

基礎教育的用字研究、對外漢語教學的識字研究都是在此基礎上進行的。張衛國研究出《小學語文用字表》,包括字種3071個;② 陳良璜統計出小學各年級課本的生字量,六個年級合計3091字。③ 1990到1991年,國家漢辦和北京語言學院聯合研制了《漢語水平詞匯與漢字等級大綱》,其中《漢字等級表》收漢字2905個,分為四級:甲級字800個,乙級字804個,丙級字601個,丁級字700個。其中有2485個字是《現代漢語常用字表》里的一級常用字。

此外還需要對專門用字進行研究,比如人名用字的研究、地名川字的研究、化學用字的研究等,如果這些專門用字不加限制,也會大大增加漢字的總量。

三、字音

理想的漢字應該是一字一音的,但是,漢字中有不少多音字,多音實際就是字無定音,需要根據上下文義來確定讀音。

據統計,《新華字典》所收的8000多字中,多音字有828個,包含1857個讀音。④ 《辭?!分惺盏亩嘁糇钟?641個,其中一字二音的有2112個,一字三音的有422個,一字四音的有81個,一字五音的有18個,一字六音的有7個,一字八音的有一個,即“那”字。⑤ 《現代漢語詞典》收字11000左右,其中一字多音的大約1000個。⑥ 《現代漢語通用字表》收字7000個,其中多音字625個,占總字數的8.9%;常用字和次常用字中多音字417個,占多音字總字數的67%,三分之二的多音字是常用字。⑦ 《漢字信息字典》收字7785個,其中多音字747字,占9.595%,其中二音字671個,占8.619%;三音字69個,占0.886%;四音字5個,占0.064%;五音字2個,占0.026%。⑧

以上的統計所用材料不同,結果當然會有差異。大體上說,現代漢字里的多音字約占總字數的十分之一。多音字的發展趨勢是單音化,呂叔湘說:“一字一讀是合乎文字功能的原則,因而也是深入人心的趨勢。因此只有少數幾個讀音都是常常應用,勢均力敵,才能長久并列,例如‘長’由cháng和‘長’zhǎng,‘樂’lè和‘樂’yuè。否則比較少用的讀音很容易被常用的讀音擠掉。”⑨

雖然多音字不可能消滅,但是可以不斷地精簡。我們的漢字整理規范工作應該通盤考慮,比如,在整理異形詞、審定異讀詞時,應該以盡量減少多音字作為一個考慮的指標,漢字簡化時的近音替代造成多音字的增加,就是考慮不周全的地方,今后應該避免。

四、字序

字序就是字的排列順序。在文字的應用中,字典、辭典的排檢都涉及到排序問題。字母文字的字序(實際是詞序)由字母表的順序決定,非常簡單,又統一。而漢字是語素文字,字具有形音義三個方面,其排序也就有不同的方法。

目前大型辭書的排序法主要是兩種:部首法和音序法。前者如《辭源》、《辭?!?、《漢語大字典》、《漢語大辭典》,后者如《現代漢語詞典》、《新華字典》。但是不管使用哪種排字法,往往都要配有兩三種檢字法,所以部首檢字法、音序檢字法、筆畫檢字法都是常用的檢字法。

(一)部首法存在的問題

1.立部數量不統一

從東漢許慎創立540部首以后,歷代的字書對部首進行了歸并,到明代梅膺祚的《字匯》,減少至214部,以后的字書在這個基礎上進行調整?,F代的字書基本上都在200部左右,部首按筆畫數排列,筆畫相同的部首前后排列次序比較混亂。1983年制訂的《漢字統一部首表》(草案),確定201個部首,按畫數和起筆筆形順序排列,發布后,部首的立部和排序有望得到統一。

2.歸部原則不統一

主要是據義歸部和據形歸部兩種。傳統的字書主要是據義歸部。因為漢字形旁表義的特點,據義歸部實際是把字形和字義聯系起來的做法,對于幫助理解字義、理解字形的構造都有好處。但是對于不認識這個字的人來說,不便檢索。據形歸部對于檢索來說,確實方便一些,但是需要定出嚴格的條例。因為漢字字形帶有很大的無序性,從形體入手,要找出一套嚴整、簡易的部首規則來,也是很不容易的。而且,有時只從形體入手歸部,又會和識字教學實踐相矛盾,比如若規定部首“從左不從右,從上不從下”,而有些偏旁習慣于放在右邊,如:刂、攵、頁、月(月)、阝(邑);有的偏旁習慣于放在下邊,如:皿、心。如果一定“從左不從右,從上不從下”,就破壞了這些字的系統性。

3.字頭下面多音詞的排序問題

有的按雙字詞、三字詞、四字詞的順序排列,字數相同的再按第二字、第三字的筆畫數由少到多排列;也有的不管是幾字詞,第二字相同的排在一起。

(二)音序法存在的問題

1.同音字的先后順序

漢字的同音字很多,音序法無法解決同音字的先后順序問題,必須結合別的排序方法,有的按筆畫多少排列,有的把聲符相同的字排在一起。

2.字頭下面多音詞的排序問題

有的按音節多少排列,音節數相同的再按第二音節的音序排列;有的不分音節,整個詞按音序排列。

這些排序的不一致都是需要研究的問題。信息處理中字序的問題就更重要了。因此,必須研究制訂統一的字序,使每一個漢字都能有一個唯一的位置。按筆畫和起筆筆形給漢字排序是比較客觀而又科學的,即便是在使用部首法排序和音序法時也要用筆畫筆形作為補充手段。但是先筆畫數后起筆筆形,還是先起筆筆形后筆畫數,目前還不統一;幾個基本筆形的先后順序也不統一;筆畫數和起筆筆形都相同的字怎樣排序也還需要再進行研究。

①王鳳陽《漢字學》,吉林文史出版社,1989年。

②張衛國《小學語文用字研究》,《教育研究》1983年5期。

③陳良璜《對我國小學語文課本生字量的研究》,《教育研究》1990年9期。

④李如龍《關于多音字的精簡問題》,《文字改革》1984年2期。

⑤傅永和《漢字結構及其構成成分的分析和統計》,《中國語文》1985年4期。

⑥張清?!稘h語漢文的一字多音問題》,《語言學論文集》136頁,商務印書館,1993年。

⑦龔嘉鎮《現行漢字形音關系研究》57頁,湖北人民出版社,1995年。

⑧《漢字信息字典》1086頁,科學出版社,1988年。

⑨呂叔湘《語文常談》31—32頁,三聯書店,1980年。 

——摘自 孔祥卿,史建偉,孫易《漢字學通論》

購買本書請點擊下方鏈接



漢典:zdic.net

    本站是提供個人知識管理的網絡存儲空間,所有內容均由用戶發布,不代表本站觀點。如發現有害或侵權內容,請點擊這里 或 撥打24小時舉報電話:4000070609 與我們聯系。

    0條評論

    發表

    請遵守用戶 評論公約

    類似文章 更多
    喜歡該文的人也喜歡 更多

    ×
    ×

    .00

    微信或支付寶掃碼支付:

    《個圖VIP服務協議》

    全部>>
    广西十一选五走势图