四、輸入

CBETA 經文數位化工作流程

四、輸入

對於大量佛典經文的輸入,應針對不同內容,選擇採用人工輸入或是掃描圖檔辨識的方法來產生文字檔。

輸入方法有三種,分別為收集現成電子檔、人工輸入,以及 OCR 圖檔辨識。決策方式為:如一佛典已有現成電子檔,則該電子檔可供日後檔案比對使用;無電子檔又難以透過 OCR 辨識之文字,如手抄本與刻版經文,則採用人工輸入。

不論使用何種輸入方式,一部經文至少需產生兩份電子檔。

(一)收集現成電子檔:

早在 CBETA 成立之前 ,網路上已流傳許多對佛典有興趣之志工團體的輸入電子檔,或是其他佛教機構、學術單位研發之電子佛經。

現成電子檔之收集大都以流通較廣的經文為主,這些電子佛經(圖五)通常不符合 CBETA 之規定格式(如需加註頁、欄資訊);故收集得來之檔案在檔案比對前,還需經過格式化之後續處理。

 

圖五、《大正藏》之現成電子經文

圖五、《大正藏》之現成電子經文

(二)人工輸入:

無法使用 OCR 辨識軟體辨識之佛經,委外交由專業承包公司進行人工繕打。

委外之前,必須事先制定輸入規範,將之交與廠商人員比照辦理。人工輸入產生之純文字電子檔,需包含頁、欄資訊(圖六),以及依冊號順序命名之檔案名稱。人工輸入成本約每千字五十元。

 

圖六、委外人工輸入產出之電子檔

圖六、委外人工輸入產出之電子檔

 

(三) OCR 圖檔辨識:

1. 去除雜點

經文書上常有異於文字之讀音符號與注釋標記(圖七),嚴重影響 OCR 辨識之判讀結果;故掃描後之經文圖檔,須先以程式去除雜點,產生一新 TIFF 圖檔。

 

圖七、含讀音符號與雜點之原始掃描圖檔

圖七、含讀音符號與雜點之原始掃描圖檔

2. OCR 圖檔辨識

將去除雜點後之新圖檔,匯入丹青公司特別為本協會量身訂作之 OCR 程式進行辨識(圖八),產出一份經文之「純文字檔」。

 

圖八、丹青 OCR 操作介面

圖八、丹青 OCR 操作介面

 

該程式與一般辨識程式不同處在於「丹青 for CBETA 」可判讀經文特有之雙排小字(圖八)。

3. 字串取代

使用「常錯字串取代程式」,以正確字串快速批次取代 OCR 後可能之常錯字串(圖九),免除逐字校對之不便,約可提升純文字檔文字精確度至 90% 。

 

圖九、 OCR 常錯字串取代表

圖九、 OCR 常錯字串取代表

 

進行至此,輸入步驟可能產生三種皆未格式化(未加行首資訊)之電子檔:

  1. 網路收集之現成電子檔。
  2. 委外人工繕打(包含頁欄資訊),正確率約為 97% 之電子檔。
  3. OCR 辨識後,正確率 90% 之電子檔。