CBETA 經文數位化工作流程
七、缺字處理
CBETA 以「BIG5(大 五碼)」加上「組字式」作為記錄缺字的基礎。
使用一般組字式來表達佛典缺字的方法,是考量使用者能在純文字環境下閱讀,不需另外安裝造字檔或圖檔而設計的,這種方式提供了閱覽、散播上的便利性,也不會佔用使用者對造字檔自行運用的空間。
該組字法含「*」、「/」、「@」、「-」、「+」、「?」六個半形基本符號,及「(…)」、「[…]」兩組半形分隔符號。
舉例說明如下:
符號 |
說明 |
範例 |
* |
表橫向連接 |
明=日*月 |
/ |
表縱向連接 |
音=立/日 |
@ |
表包含 |
因=囗@大 或 閒=門@月 |
- |
表去掉某部分 |
青=請-言 |
-+ |
若前後配合,表示去掉某部分, |
閒=間-日+月 |
? |
表字根特別,尚未找到足以表示者 |
背=(?* 匕)/月 |
( ) |
為運算分隔符號 |
繞=組-且+((土/(土*土))/兀) |
[ ] |
為文字分隔符號 |
羅[目*侯]羅母耶輸陀羅比丘尼 |
記錄缺字後,並將缺字相關資訊,包括注音、筆畫、部首、通用字、Unicode…等建構成漢文佛典缺字資料庫(圖十五)。
圖十五、缺字資料庫畫面
- 參考組字式基本規則