Skip to Content

技術文獻

文字分析程式

緣起

在大正藏的經文中,除了常見的文字與句點之外,尚有許多其他的符號,其中主要的有校勘數字(有數字的黑圈)、校勘星號(星號)、斷詞小黑點,而較不重要的符號則有一些日本使用的讀音符號,這些符號請參考圖一。

在 CBETA 處理佛典電子化的過程中,有一部份的經文來源是網路上所流傳或十方大德主動提供的,然而這一類的經文,普遍的情況就是上述一些重要的符號沒有輸入,只有部份經文在輸入時有注意到這一點(例如早期蕭鎮國大德所提的經文)。

這一類的符號,現有的 OCR 軟體都無法完全有效的辨識成功,所以當 CBETA 輸入組的同仁在處理這一類尚未輸入符號的經文時,早期都是採取人工輸入,但由於在時間與人力上都有極大的耗費,於是開始與資訊組同仁討論,看看能否找出更為簡便的方式來完成這個工作。 

看圖校對程式

在校對過程中,查詢原書也是一件花費工夫的事。由於我們已有大部份的掃瞄的圖檔,故寫了本程式,希望能在利用「比對程式」之結果,進行校對時,根據經文中大正藏格式的資料,能立刻在電腦上秀出原書的字,以增進校對判斷速度,並讓沒有書的人亦可進行校對工作。

檔案比對程式

在經文校對上,通常是最耗時的一個環節。經由中研院提供檔案比對的技巧與概念,寫出這支能處理相異格式經文的比對程式。利用這程式來比對二分文件,可以很輕鬆的找出二份文件差異處,再利用一些工具,就可以很快的協助我們利用這個差異表,修改出一份極低錯率的資料。

經文大正藏格式化

在經文產生之後,我們希望在經文之中能依大正藏格式加上必要的資料。通常是在每一行之前留上 <冊數> <經號> <頁碼> <欄> <行> 等資料。這些資料在需要查對原書時,能夠讓我們很快的找到出處,對於後序的作業提供很大的方便。而這支程式主要就是針對蕭鎮國先生所提供 25 冊大正藏經文,進行格式化的動作。

圖檔辨識去雜點程式

當我們打算使用掃瞄書本及使用 OCR 技術來產生經文時,第一個遇到的問題就是經文圖檔的「雜點」,「雜點」是指非經文本身的符號,在 OCR 時,會造成較低的判斷正確率,所以就寫出了這支程式來協助解決這個問題。

底下是三種大藏經圖檔處理前與處理後的比較:

漢文大藏經輸入流程簡介

(註:此為較早期的文件,較新的文件可參考「CBETA 經文數位化工作流程」)

目次

國內外漢文佛典輸入簡介

國內外漢文佛典輸入簡介

國際:
EBTI 國際電子佛典推進協會


韓國:
韓國海印寺高麗藏


日本:
1. 花園大學
2. 大藏出版株式會社
3. 其他單位與學者


大陸:
1. 北京 中國社科院 世界宗教研究所
2. 其他單位與個人



美國:美國佛教會 / 佛教電腦資訊庫功德會

漢文電子佛典的緣起與遠景

漢文電子佛典的緣起與遠景

(數位化文獻/多價文獻模式)

惠敏法師
一九九九年六月二十七日
呂美智、林佩琪、李志強摘要整理


參考資料

訂閱文章


about seo