求问关于简体中文版本

新人末学在一些外部的网站上看到过简体中文版本的出自于CBETA本站的大藏经,包括站内有链接到的http://cbeta.kepan.org/站。

但是关于简体中文版本的内容并没有在CBETA本站找到,下载了最新的CBReader2X,以及ISO文件里面也都没有。

所以请问一下站内大德,本站整理的佛典里面有没有简体中文版本?或者如果需要,就需要自行进行繁简转换?一般的繁简转换工具会造成不少的勘误问题吧?

如果站内有简体相关的资料或者有方法获取,还请告知末学如何操作。非常感谢!

討論區:
cbeta的头像

您好:

目前 CBETA 並沒有簡體版的資料,您目前看到的都是其他法友發心製作的,或是電腦自動轉換的吧。

未來 CBETA 有考慮到內建繁轉簡的機制,不過也應該是利用自動轉換處理。如您所說,應該會有勘誤的問題。

以此為例:這是三個版本不同的用字。

并【大】,並【宋】,併【明】

但使用繁轉簡,可能會變成

并【大】,并【宋】,并【明】

諸如此類,如果不使用自動轉換,難道人工處理有適當的方法嗎?因為我們對此議題也不是很了解,不知道實際使用簡體的人是如何處理的?

这个是我制作的. 采用的方式是电脑自动转换. 不过与其他简体繁体转换软件不同的是,针对大正藏仔细调整过.

所以做这个工作,主要的一个原因还是希望能够使用简体搜索大正藏.  因为对于简体字使用者来说,阅读繁体字常常不是一个问题, 但是使用繁体字就很麻烦, 经常难以判断简体对应的繁体是什么.

为了保证能准确的做到简体繁体转换. 基本上对一些不能一一对应转换的简体繁体字都逐字校对过.

基本上能保证没什么错误.

但是有些字还是难以保障,

比如乾字.  例如:在有的时候会有乾坤这两个字,中间产生了换行(原大正藏纸质文本的换行)时,会无法辨认.导致转换成干坤. 

这个错误暂时无法避免. 因为如果处理这种问题,技术上的代价太大.

需要在阅读中注意.

楼上提出的两个问题:

1.  并【大】,並【宋】,併【明】

会转换成 

并【大】,并【宋】,并【明】

目前也是这样处理的

要想解决这个问题.

只能期待cbeta在xml中做好标记,标记某些字不需要做这种转换

2. 另外,还有前面提到的乾字, 这种一繁对多简的字. 也需要特殊标记. 这个工作量其实不大,因为一繁对多简的字并不多.    目前能做的,只能是根据上下文做简单的猜测. 因为算法的复杂度有限, 有时候难免猜测错误

其他,基本上,都是非常准确的, 毕竟逐字校对过

 

Linux版本阅藏程序:

http://cbeta.buddhism.org.hk

 

cbeta的头像

看了法友留言,上網查了一下,才知道原來繁體轉簡體也不是直接轉就一定OK。

我原本以為乾就是轉為干,原來 "乾隆"、"乾坤" 這種情況就不能轉,這樣就有點難度了。

再加上若要克服全文檢索,此事不是個人想像中的簡單了。

非常感谢!

一般阅读学习其实繁体也不错的,但是如果考虑到在大陆推广和学习方便性,还是需要考虑字体问题。

末学也是刚开始考虑学习,非常感谢楼上大德师兄指点!

1. 简体字最初的目的是为了扫除文盲, 更有进一步将汉字罗马化的准备而作为过渡. 导致缺乏系统的考虑和规划,出现了不少混乱的情况. 不过,问题也没有那么严重. 因为一繁对多简,或者交叉对应的汉字其实不多. 应该不超过20个. 这个其实是可以一一标记出来了.

2. 繁体字其实也存在某种程度上的混乱. 多音字,多义字,其实也应该在xml中做适当的标记. 标记语义有助于AI处理, 标记语音有助于语音合成. 

典型的例子,比如滚字, 一个含义是形容水的样子,一个含义是动词.完全风马牛不相及. 对此情况, 可以对滚字做标记, 默认滚字只表示水貌, 另外标记那些动词滚为"輥".  这样就可以抽取出一个"正字版"佛经. 对于后继电脑处理非常有用.

这样的例子,还比如然字和燃字. 在经中就经常混用, 做有效的区分是非常有意义的事情

这些东西也都只能在xml中做标记, 可以做到不破坏原有文字

Linux版本阅藏程序:

http://cbeta.buddhism.org.hk

 

思路是:CBReader调用的是IE浏览器内核,那我们可以在IE浏览器上安装一个外挂插件。就可以用右键,简体繁体转换。 我使用的是这个ALiBaBar 5.10 中文版 - IE簡繁轉換外掛    或者google网盘下载地址: