CBETA電子佛典缺字處理

  中華電子佛典協會(Chinese Buddhist Electronic Text Association,簡稱CBETA)的電子佛典資料庫,以《大正新脩大藏經》(以下簡稱《大正藏》)(大藏出版株式會社(c))第一卷至第五十五卷,以及第八十五卷,共計五十六卷的資料為底本,並正式取得該底本版權所有者--「大藏出版株式會社」有關輸入與公開的授權。

  《大正藏》第一卷到第八十五卷(《大正藏》一卷即一冊,為了和內文的卷區別,以下用《大正藏》第幾冊代替第幾卷,避免混淆),全部的字數,估計約一億多字,而電腦缺字部分,在目前已經完成的五十六冊經文中,有一萬五千個字左右(不包括悉曇字)(註 1)。

  根據統計,大五碼第一級字有 5,401 個字,第二級字 7,652 個字,共計 13,053 個字(Ken Lunde 著,CJKV Information Processing,頁72)。以目前 CBETA 所收集的一萬五千個左右的《大正藏》電腦缺字,數量超過大五碼字數的 13,053 個。

  目前 CBETA 整理《大正藏》缺字情形,從第一冊到第五十冊,所得缺字近六千個;而最後六卷(第五十一冊至第五十五冊及第八十五冊)缺字,有八千多個。

  以下簡介CBETA整理這些缺字的流程如下:

一、校對組缺字整理

  在校對組整理經文時,以《大正藏》每冊為單位做缺字的收集,收集到的缺字,除了切出缺字圖檔外,並且加以編號,然後把所得到的缺字用組字式等方式表示,提供研發組進一步處理和應用。

  而使用組字式整理《大正藏》電腦缺字的方式,優點在於,因為沒有使用造字檔,所以不需要安裝,任何中文系統的電腦,都可以顯示。

  校對組就所收集的缺字個別編號、組字,編號形式如 CB0001 ,就是取 CBETA 縮寫字母的前兩個字母 CB ,加上四碼數字組成;對於這樣的編號,我們簡稱「CB碼」。每一組 CB 碼對應一個缺字、一組組字式。組字式的表示方式,就是把字加以增減組合,來敘述某個字的樣子,如[-+][-+],就是「組字」這兩個字用組字式表示的形式。

  CBETA缺字的組字式,用加減乘除等運算符號來表示,共使用十個符號;這十個符號,其中七個--「*」、「/」、「@」、「-」、「+」、「(」、「)」,用來表示字的左右上下分合關係。而問號--「?」,表示某字無法用組字方式表示的部分。另外二個半形符號--「[」、「]」,表示組字式的起迄。半形符號[ ]中,就是組字關係式裡字的分合關係;第一組七個,加上問號--「?」,以及第二組兩個,依字的形相,構成一個完整的組字關係式,簡稱組字式。以下表說明:

【符號範例說明表】

符號 說  明 範  例
* 表橫向連接 明=日*
/ 表縱向連接 音=立/
@ 表包含 因=囗@大 或 閒=門@
- 表去掉某部分 青=請-
-+ 若前後配合,表示去掉某部分,而改以另一部分代替 閒=間-+
? 表字根特別,尚未找到足以表示者 背=(?*)/
() 為運算分隔符號 繞=組-+((/(*))/)
[] 為文字分隔符號 [*]羅母耶輸陀羅比丘尼

  CBETA組字式所用的字,稱為字根。所以稱為字根,因為不是毫無節制的任意使用,而是有一套標準字的規範,我們就把這一套組字用標準字稱為字根。為求組字方便,目前也採用全形注音ㄆ代表[-]等相似字作字根,未來並不排除用英文字母做為組字用字根的可能(CBETA組字用字根,詳參:「一般組合字字典部首規範」(http://www.cbeta.org/onepage/combin.htm)

  校對組對缺字的整理,除了CB碼、組字式的編定外,還提供嘸蝦米等輸入碼和缺字圖檔。以下為缺字檔案的略表,可以瞭解校對組所提供缺字整理的情況。

二、研發組缺字整理

  研發組取得校對組所提供的缺字資料後,作以下三個部分的處理。(1) 加入ACCESS(r)格式的gaiji(缺字)缺字表,(2) 查詢《今昔文字鏡》的字碼(MOJIKYO(r) CODE,簡稱M碼)、UNICODE碼、通用字、注音,並註明出處(初期由校對組負責),(3) 編定缺字的部首、筆畫以及四角號碼。

  gaiji缺字表(見圖一),包括:CB碼(cb)、M碼(mojikyo)、Unicodeuni)、組字式(des)、通用字(nor)、註記(note)、部首(rad)、筆畫(str)、字音(zhu)、四角號碼(fc),以及缺字圖檔(見圖二)。

【圖一】ACCESS(r)格式的gaiji缺字表

【圖二】ACCESS(r)格式的缺字圖檔

  以下介紹M碼、通用字,並舉例略談CBETA對經文的勘誤(因為Unicode可以在《今昔文字鏡》檢索得到,而組字式前面已經略為介紹,註記欄主要登錄查詢缺字的出處,部首、筆畫、字音還沒有完全建置,所以這些都不介紹。至於四角號碼,只作檢索用途,而大部分的人都熟悉,所以也不贅述)。

(一)M

  日本《今昔文字鏡》光碟九萬多字,以《大漢和辭典》的字作基礎。所謂M碼,除了後來擴充的字外,就是《大漢和辭典》中四萬八千九百零二個字的字碼。如鏡字,《大漢和辭典》的字碼為40812,《文字鏡》的M碼是040812--《文字鏡》所以比《大漢和辭典》多一碼的原因,可能就是考慮到,缺字的增加會超過十萬筆,因此預作準備的處理方式。

  《今昔文字鏡》中的字,以部件一點一畫的方式構字,如右圖所示:

  因此檢索方便。而檢索方法,以鏡字為例,除了點、畫外,也可用金、立、日、儿等來搜尋,凡是符合檢索條件的字,都會列出來提供選擇。所以,檢索部件愈齊全,所找到的字愈少,檢索就愈快。如鏡字,用金、立、日、儿等部件一起當搜尋條件時,就只列出鏡字以及鏡字的其他體字型;如果只用金字當搜尋條件,包括鏡字,共出現1,500個字左右,而鏡字位在這些字群的中間位置,所以檢索的速度相對比較慢。例如右下圖所示:

(二)通用字

  所謂通用字,就是某字的異體字,或某字通用某字的字;使用通用字,在於方便電腦的呈現。如[/]字,現在用匝,《康熙字典通解》記載:「韻會:『通作匝。』《前漢.高祖紀》:『圍宛城三匝。』」(上冊,頁五一八中欄)所以[/]字的通用字就是「匝」。

  有關通用字的認定,大部分以字書上所能檢索到的實例,當作認證憑證;字書所沒有的,大部分從缺。在佛典電子化缺字實務中也發現,在為數可觀的缺字中,有一部分的電腦缺字在現代的字書中也沒有收錄的字,就是行書字或草書字,如以氐為偏旁的部分字,氐作[/]。因此,CBETA所收集的缺字中,有一小部分字用草書、行書字體可以加以辨識,而檢出該字的通用字。

  以[/]字為例,[/]出現在《大正藏》第三十三冊,一七七經。《大正藏》[/]字圖樣如左:

[/]字所在的上下行經文,CBETA《大正藏》原始經文簡單標記版(以下簡稱CBETA版)中,作如下表示:

T33n1707_p0345a03_##鬼神樂聞正法由其國中不講經故諸鬼神瞋
T33n1707_p0345a04_##忿故起七難惱亂國。二十八宿者角亢[/]
T33n1707_p0345a05_##心尾箕是東方宿也。斗牛女虛危室壁是北
(《大正藏》第三十三冊,一七七經,頁三四五上欄。上文,T代表《大正藏》,T後面的數字代表《大正藏》冊數,n和後面的數字代表經號,p和後面的數字代表頁碼,而abc和後面的數字代表上、中、下的欄位和行號)

引文說,[/]是二十八宿的東方七宿之一,《大漢和辭典》二十八宿條,東方七宿即「角亢氐房心尾箕」,(卷一,頁四三二第三欄)而上引經文,東方七宿作「角亢[/]房心尾箕」,所以[/]就是氐字。

  由[/]就是氐字的發現,聯想推衍從[/]字偏旁的相關字的檢索,在《大正藏》第三十四冊,一七二三經,找到[*(/)]字。[*(/)]字在CBETA版的上下相關經文如下:

T34n1723_p0854a18_##炙。二繚繞。今從力小反。角睞者睞音洛代
T34n1723_p0854a19_##反。玉篇童子不正也。視也。內[*(/)]
T34n1723_p0854a20P##經。說是普賢()作禮而去贊曰。品第六段
(《大正藏》第三十四冊,一七二三經,頁八五四上欄)

前面已知[/]即氐,所以[*(/)]就是[*][*],《康熙字典通解》:

  《類篇》:「視貌。」《玉篇》:「古文視字。」(中冊,頁一四六二)

《大正藏》[*(/)]字圖樣如下:

上引經文:「睞音洛代反。《玉篇》︰『童子不正也。』視也。內[*(/)]也。」按童子即瞳子。《一切經音義》卷十六「[目*丐]睞」條睞字下:「《蒼頡篇》云:『童子不正,內視也,從目來聲。』」是經文的「內[*(/)]」,就是《蒼頡篇》的「內視」,也就是[*(/)]即視,即[*],因此[*(/)]的通用字就是視,所以CBETA《大正藏》普及版的[*(/)]字就用「視」字來代替。例如:

T34n1723_p0854a18炙。二繚繞。今從力小反。角睞者睞音洛代
T34n1723_p0854a19反。玉篇童子不正也。視也。內視也
T34n1723_p0854a20經。說是普賢()作禮而去贊曰。品第六段

  從上面二例可以知道,從氐的偏旁,都可能用[/]這個行書體偏旁來呈現,因此低可能作[(-)*(/)],底也可能作[(-)@(/)];檢《佛教古文書字典》(川澄勳編,山喜房佛書林,一九八二年一月十日發行),底字不作[(-)@(/)],但低字正作[(-)*(/)](頁二一一),[(-)*(/)]字圖樣如下:

  像氐字作[/]的情形,《大正藏》中,所在多有。原因是中國文字從傳說中的倉頡造字,而金文、甲骨文、大篆、小篆,到隸書的定型,又孳衍出楷書、行書、草書,因為使用文字的地區遼闊,南北地域又不同,加上經過千年的傳抄,各種字體互相雜用,以及通假等情形,雖然各體具備,文字表現豐富而精采,但是所產生的缺筆、訛字、俗寫等問題,也大量湧現。《大正藏》氐字作[/],而[*]字作[*(/)],就是字體互相雜用的結果。

(三)勘誤

  在處理電腦缺字的過程中,有時必須對文字加以校勘,以彌補處理缺字的不足。如《大正藏》第三十三冊,一七一四經--《般若波羅蜜多心經註解》作者,書前目錄作宗[-+][*])同註,但內文宗[-+]作宗泐:

  般若波羅蜜多心經註解

  唐三藏法師玄奘奉 詔譯
  大明天界善世禪寺住持臣僧宗泐 演福講寺住持臣僧如[*] 奉詔同註
  (頁五六九中欄)

經註所記載的作者,目錄和內文不同,或作宗[-+]、或作宗泐,[-+]、泐形近,一從方、一從力。《明史》志第七十四<釋家類>:

  宗泐《心經注》一卷
  (鼎文版,卷九十八,頁二四五三)

對於宗泐,《釋鑑稽古略續集》二說:

全室禪師,諱宗泐,字季潭,號全室,台之臨海人,族姓周,父吉甫,母葛氏。幼輒跏趺坐,八歲從笑隱訢公學法,十四剃度,二十受具。訢公開山龍翔,師與俱。寄意詞章,尤精[-+]古。後謁元叟於徑山掌記室,出世水西,遷中竺升雙徑,次五十五代。詔師與演福法師大璞[*]公,箋釋《心經》、《金剛》、《楞伽》三經,點簡藏經,制獻佛樂章,往西域求法。
(《大正藏》第四十九冊,二三八經,頁九三七上欄)

這裡說宗泐和演福法師大璞[*]公,箋釋《心經》、《金剛》、《楞伽》三經。關於宗泐和演福法師大璞[*]箋釋《心經》、《金剛》、《楞伽》三經,是據《釋鑑稽古略續集》二:

丁巳洪武十年,詔天下沙門講《心經》、《金剛》、《楞伽》,命宗泐、如[*]等註釋頒行。御制演佛寺住持[*]太璞字。
(《大正藏》第四十九冊,二三八經,頁九二八下欄)

  據《明史》和《釋鑑稽古略續集》載,宗泐所注《心經》,就是《般若波羅蜜多心經註解》,而兩書--《般若波羅蜜多心經註解》和《釋鑑稽古略續集》記載,作者名都作宗泐,那麼《大正藏》目錄作宗[-+],是形近而誤。所以,CBETA《大正藏》目錄,《波羅蜜多心經註解》的作者名,據《明史》和《釋鑑稽古略續集》,從內文作宗泐。

  另外,和宗泐同註《般若波羅蜜多心經註解》的作者,如[*],字從王從巳,《卍正藏經》同(新文豐版,第六十八冊,頁一七四下欄);《大正藏》第四十九冊,頁九二八和頁九三七,則從王從已,《卍續藏經》同(中國佛教會版,第一三三冊,頁百二十上欄);而《二十五種藏經目錄對照考釋》,如[*][*]字則作從王從己。

  檢索《大正藏》己、已、巳三字,多有雜用情形。《大正藏》己、已、巳雜用情形如下:

  大周長壽二年,歲次癸巳,九月丁亥、三月巳丑,佛授記寺譯。
  (第十六冊,六六經,頁二九二上欄)

  以第十一主,恭帝元熙元年,歲次巳未。
  (第三十九冊,一八一經,頁九四八中欄)

「大周長壽二年,歲次癸巳,九月丁亥、三月巳丑」,巳丑應作己丑;歲次巳未,應作己未——這是巳、己混用實例。

  復次,須菩提!菩薩不著已類而行布施。
  (第八冊,二三七經,頁七六二中欄)

  自觀已身地水火風空識分分不淨。
  (同上,二四五經,頁八三一中欄)

「菩薩不著已類而行布施」,已類應作己類;「自觀已身」,已身應作己身--這是已、己混用實例。

  《大正藏》己、已、巳雜用情形實例如上,而從己偏旁和從已、從巳偏旁的情形,如《大正藏》第三十三冊:「四大如牆壁,皆為無常所壞,故言[*]坼也。」(一七一五經,頁六二五下欄)[*],從土從已,字書沒有收錄。而「[*]坼」義,經文說「四大如牆壁,皆為無常所壞」,是壞義。查圮,從土從己,《說文》:「毀也。」(《說文解字注》,頁六九七下,蘭臺出版社,民國六十年十月再版)正與上文義合,所以[*]勘誤作圮,CBETA勘誤標記作[[*]>]。《大正藏》前五十冊共六十八處作[*],都作勘誤,不殫舉。

  關於[*]字,《大正藏》第五十二冊,二一六經:

東晉周[*],字宣佩,義興陽羨人,晉平西將軍處之第二子也,位至吳興太守。
(頁四一六中欄)

「東晉周[*],字宣佩,義興陽羨人」,周[*],就是除三害的周處的兒子。《晉書》列傳第二十八,<周處傳>說:

周處,字子隱,義興陽羨人。(中略)有三子:[*]、靖、札。(中略)[*]字宣佩。
(鼎文版,卷五十八,頁一五六九-一五七二)

是周[*],實即周[*]之誤,從己誤作從已;則「如[*]」,應該就是「如[*]」,字從己非從已、也不從巳。《釋鑑稽古略續集》載宗泐、如[*]作《心經》、《金剛》、《楞伽》註釋後說:

《御制演佛寺住持[*]太璞字說》、《御制字說》,僧多捨俗,惟立字為名何也?以其法殊人主之教故也。邇來有僧,用三字為名,《曰[*]》、《曰太》、《曰璞》。且[*],玉之至精者也;太,無上之巨也;璞,實而不虛,混而未鑿。斯三字之用,果如是乎?若是,則仁者體之,又何為而不可哉!今僧用斯三字,理道深長、機根淺露者,莫可探其趣;若遇良工,必由雕琢而方見其形也。昔如來璞太虛,混厚坤故,發問於未判,孰雕琢而使澄清,列無量之象於穹壤,七曜運行其間,布海嶽於鴻龐,百川東注。此由大樸而至穹窿,果理之使然,氣質之變焉?吾聞混沌靜久,今僧捨俗認璞,必釋教之然哉!

「且[*],玉之至精者也」,查[*]字,《說文》無[*][*]二字,《廣韻》也沒有[*][*]二字,但有[*]字,是一種「佩玉」(黎明版,頁二五三第四欄)。因從《晉書》周[*][*]字從己,以及《大正藏》己、已、巳雜用,並字書有[*]字而沒有[*][*]二字綜合考查,《大正藏》《般若波羅蜜多心經註解》的作者如[*][*]字從己不從已、巳。因此[*][*]二字勘誤後作[*],形式如[[*]>[*]][[*]>[*]]CBETA版作以下表示:

T33n1714_p0569b17J##般若波羅蜜多心經註解
T33n1714_p0569b18_##
T33n1714_p0569b19Y##
唐三藏法師玄奘奉 詔譯
T33n1714_p0569b20A##大明天界善世禪寺
T33n1714_p0569b21_##住持()(宗泐)
T33n1714_p0569b22_##
演福講寺
T33n1714_p0569b23_##住持()([[*]>[*]])奉詔同註

  又如《大正藏》第四十八冊,二○○一、二○○三、二○○六經「陜府鐵牛」五條(CBETA版):

T48n2001_p0043b21象陜府鐵牛。莫怪扶桑最先照。大都家住海
T48n2003_p0177a26 (不是這一喝截卻爾舌頭。咄。驚走陜府鐵牛。嚇殺嘉州大象)
T48n2006_p0305b01
大像[陜>陝]府鐵牛。當甚破草鞋。少賣弄。兩肩
T48n2006_p0306a23(黑山鬼窟)孰能總同參(燈籠入露柱)那箇同大事(嘉州大像陜府
T48n2006_p0306a24鐵牛)何物同一質([/]脫丘)
T48n2006_p0307b22
如何是學人轉身句。汾云。陜府灌銕牛

查一般字書,沒有「陜府鐵牛」條。檢索《佛光大辭典》「鐵牛」條:

河南陝府城外有大鐵牛,傳說是禹王為防黃河泛濫所鑄,為黃河之守護神。禪宗「鐵牛之機」一語,即謂其「體」不動、「用」無應而自在之大機用;又用來形容無相之佛心印。《碧巖錄》第三十八則(大四八一七五下):「祖師心印,狀似鐵牛之機。」
(第七冊,頁六八七七)

而上面引文第五條:「如何是學人轉身句?汾云︰『陜府灌銕牛。』」《佛光大辭典》「汾陽三句」條:

即宋代臨濟宗汾陽善昭禪師接引學人時所立之三語句。即:()著力句,謂學人之力量須具備可成就宛如嘉州彌勒大石像之大根機。()轉身句,謂學人以其機用,固守本分,縱然雙足立地,牢不可破之陝府鐵牛亦無法比擬。()親切句,謂學人契入佛法時,疾速而緊密,猶如獅子張口齧咬獵物,其勢速疾而緊密相契。〔人天眼目卷二〕
(第三冊,頁二九八一)

經文「轉身句」下作「陜府灌銕牛」,銕牛即鐵牛;而《佛光大辭典》引<人天眼目>卷二則作「陝府鐵牛」。是「陜府灌銕牛」即「陝府鐵牛」。按,檢二十五史《宋史》,有「陝府」條而無「陜府」。《宋史.李昉傳》:

初,議罷天下職田及公使錢,昭遘以為不可。三司使姚仲孫惡其異己,請詰所以興利之實,昭遘爭不屈,遂罷判官,為白波發運使。因入奏事,仁宗謂曰:「前所論罷職田等事,卿言是也。」遷直史館、知陝州。諫官歐陽脩言:「陝府,關中要地,昭遘無治劇材,不宜遣。」改判三司理欠司,徙度支判官。(鼎文版,卷二六五,頁九一四五)

上文說昭遘因為反對罷天下職田和公使錢的事,宋仁宗要把昭遘遷直史館並知陝州,因歐陽脩的反對而作罷。其中歐陽脩所說的「陝府」,顯然就是宋仁宗說的「陝州」,而兩「陝」字都從入,和從人字的「陜」字形近。是陜、陝,一從人,一從入,形近而誤。所以CBETA版「陜府鐵牛」勘誤後作「陝府鐵牛」,形式如下:

T48n2001_p0043b21[>]府鐵牛。莫怪扶桑最先照。大都家住海
T48n2003_p0177a26 (不是這一喝截卻爾舌頭。咄。驚走[>]府鐵牛。嚇殺嘉州大象)
T48n2006_p0305b01
大像[>]府鐵牛。當甚破草鞋。[51]少賣弄。[52]兩肩
T48n2006_p0306a23(黑山鬼窟)孰能總同參(燈籠入露柱)那箇同大事(嘉州大像[>]
T48n2006_p0306a24鐵牛)何物同一質([/]脫丘)
T48n2006_p0307b22
如何是學人轉身[]句。[]汾云。[>][34]灌銕牛

三、結語

  CBETA對缺字的整理,目前還只是資料性的匯集;就資料性的匯集方面,一開始就立下規範,如「大正藏缺字圖檔」、「基本通用字形」、「一般組合字字典部首規範」、「一般組字式基本規則」、「缺字資料庫」等。而CBETA「缺字資料庫」除了收集《大正藏》的缺字外,另編定輸入法,並作各字檢索字書的資訊,為日後進一步處理缺字預作準備。

  這種預作準備,目標是把所收集的缺字加以考證,完成CBETA「大正藏缺字檢索資料庫」,務使字字「字有例、例有考、考有證」,字義清楚,方便使用者利用本資訊庫。

【附註】

註1:詳參杜正民先生<佛教藏經的文字問題與解決方案>一文(載於:CBETA第二十一期電子報< http://www.cbeta.org/data/cbeta/budaword1.htm >)。