建议对一对多的异体字进行区分

maha's picture

這問題沒寫完;或者說有寫完,但網頁呈現不完整。

因為這討論區如果用到 uniocde ext-b 以上的文字,訊息會無法完整呈現。

就我從主題所得到的領會,這是一個處理異體字的問題。異體字的整理是門專業學問,要有專業人員的投入,才有值得信賴的成果。CBETA 目前是沒這個能力的,只能找找看有沒有現成的相關成果可以運用。

CBETA Maha 吳寶原 

 

原来是这样,比如U+244F0这个字。对应的norml form有两个,一个是瓜,一个是爪,

那么是不是应该把这个字用两个CB码表示出来。然后在g标签对应的norml form里面标注是瓜还是爪。

 

这是一个建议,

还有一个就是希望已经有了unicode编码的异体字,能够去掉pua编码。就现在来说。pua编码这个东西,除非使用特定字体,否则已经完全失去存在的意义了。而去掉pua编码,其实非常容易,只要一个简单的文本替换即可。

这样后续处理会更简单。

Linux版本阅藏程序:

http://cbeta.buddhism.org.hk

 

maha's picture

這「異體字一對多」問題,我大致了解的意見。為便利現代讀者理解經義,過去我們有嘗試做了一些,比如將「己」、「已」、「巳」依相關文證或前後文意予以區分。但這類「一對多」狀況實在很多很多,得要日後行有餘力才能動手。

「pua编码」問題,我沒研究,會轉告相關人員。謝謝!

CBETA Maha 吳寶原 

 

PUA的情况,是这样的,比如CB00768这个异体字。(当然,这个字不是如此,只是举一个例子)

他的UNICODE编码是U+21060,他的PUA编码是U+F0300。

然后在g标签的值中,不是使用的U+21060的值填充,而是使用U+F0300填充。

对于已经有unicode的值的字来说,PUA码已经无存在意义。连char标签中的信息,都可以去除了。

Linux版本阅藏程序:

http://cbeta.buddhism.org.hk

 

cbeta's picture

其實 PUA 在某些情況還是有用的,只是您可能剛好用不到而已。

如您所說,在操作過程要將其移除應該是很容易的,您只要依您想運作的方式去處理即可。

例如?

我记得PUA是日本的古今文字镜项目的一个成果。

在非unicode时代还是有用的,今天unicode时代应该没啥用了。

cbeta去除是很容易的,但是我这里没有类似

http://dict.cbeta.org/word/search.php

这样的信息。

cbeta暂时也没有开放一个xml文件或者数据库dump之类的东西出来

 

Linux版本阅藏程序:

http://cbeta.buddhism.org.hk

 

cbeta's picture

例如在 Embarcadero 的 C++ Builder 在 OSX 系統中所使用的 XML 剖析工具,就無法支援 Ext-B 及更高標準的 Unicode,因此若把 XML 裡面的 PUA 換成 Ext-B 字元,就會產生錯誤。

這只是我們剛好最近有在使用的工具,其實不支援 Unicode Ext-B 的程式還不少,手機與平板上有不少程式也是如此,因此為了讓資料能提供最大多數的人使用,我們提供的 Unicode 文件必須在 Unicode 3.0 (不含 3.0) 之前,未來會隨著市面上的支援度愈好,我們的標準也會漸漸提高。

而且就算大部份程式都能支援,也必須考慮到我們已經有不少工作中的程式,在人力與時間有限的情況下,我們也不太可能因為這類的建議,造成我們許多的程式都要改寫,就算這建議真的很有價值,也要花不少時間慢慢去改版才行。

至於缺字的訊息,在 XML 的檔頭區都找的到,只要您會處理 XML,要進行任何置換應該都是很容易的。

哦,是这样啊。没想到还有程序不能完全支持unicode。。。。。

目前我这里处理使用的xslt,浏览器只支持到1.0版本。

在firefox上面,如果在 XML 的檔頭區都找的到的都是U+3456的形式

只能转换为XML实体显示。而firefox无法做到直接正常显示

只会显示为一个XML实体:㑖的样子。

看来只有想其他办法了

Linux版本阅藏程序:

http://cbeta.buddhism.org.hk