二、制定規範

CBETA 經文數位化工作流程

二、制定規範

為確保數位化前後環節銜接順暢,各項流程需制定作業規範以利工作遵循。這些規範來自經驗累積,且以最終目標——「XML 標記」為考量。 CBETA 針對幾項數位化重要作業:輸入、校對、缺字、簡單標記、 XML 標記等,皆制定詳盡之作業規範。

(一)輸入

輸入規範包括對本文、本文以外之符號標誌,以及圖片、表格等等狀況提出規定,例如一般本文、夾注小字、段落,本文以外之頁碼、欄位、校勘符號,或是空白字元、空白行、表格、圖形、缺字……等。

(二)校對

採用「檔案比對」程式進行校驗,因此校對規範著重於比對前之格式化準備,以及程式之使用方式與程序。

(三)缺字

經文中常可見非現行使用之古漢字或異體字、符號等,為一般 BIG5(大 五碼)系統無法辨識,故需建立一套缺字處理辦法,例如組字式規範,及以缺字資料表記錄缺字。

(四)簡單標記

簡單標記規範經文之經號、經名、作者、標題、段落…等之文字屬性。以簡單符號記錄,較 XML 標記容易上手。

(五) XML 標記

使用 XML 做為佛典電子檔的標記語言,並採用國際規範 TEI(Text Encoding and Interchange)做為基礎標籤集,再依實務標記作業經驗,修訂或新增標籤,建立適用於漢文電子佛典的標籤集。