Santax007 - 토, 2018/07/14 - 02:02
新人末学在一些外部的网站上看到过简体中文版本的出自于CBETA本站的大藏经,包括站内有链接到的http://cbeta.kepan.org/站。
但是关于简体中文版本的内容并没有在CBETA本站找到,下载了最新的CBReader2X,以及ISO文件里面也都没有。
所以请问一下站内大德,本站整理的佛典里面有没有简体中文版本?或者如果需要,就需要自行进行繁简转换?一般的繁简转换工具会造成不少的勘误问题吧?
如果站内有简体相关的资料或者有方法获取,还请告知末学如何操作。非常感谢!
討論區:
RE : 求问关于简体中文版本
您好:
目前 CBETA 並沒有簡體版的資料,您目前看到的都是其他法友發心製作的,或是電腦自動轉換的吧。
未來 CBETA 有考慮到內建繁轉簡的機制,不過也應該是利用自動轉換處理。如您所說,應該會有勘誤的問題。
以此為例:這是三個版本不同的用字。
并【大】,並【宋】,併【明】
但使用繁轉簡,可能會變成
并【大】,并【宋】,并【明】
諸如此類,如果不使用自動轉換,難道人工處理有適當的方法嗎?因為我們對此議題也不是很了解,不知道實際使用簡體的人是如何處理的?
这个是我制作的. 采用的方式是电脑自动转换.
这个是我制作的. 采用的方式是电脑自动转换. 不过与其他简体繁体转换软件不同的是,针对大正藏仔细调整过.
所以做这个工作,主要的一个原因还是希望能够使用简体搜索大正藏. 因为对于简体字使用者来说,阅读繁体字常常不是一个问题, 但是使用繁体字就很麻烦, 经常难以判断简体对应的繁体是什么.
为了保证能准确的做到简体繁体转换. 基本上对一些不能一一对应转换的简体繁体字都逐字校对过.
基本上能保证没什么错误.
但是有些字还是难以保障,
比如乾字. 例如:在有的时候会有乾坤这两个字,中间产生了换行(原大正藏纸质文本的换行)时,会无法辨认.导致转换成干坤.
这个错误暂时无法避免. 因为如果处理这种问题,技术上的代价太大.
需要在阅读中注意.
楼上提出的两个问题:
1. 并【大】,並【宋】,併【明】
会转换成
并【大】,并【宋】,并【明】
目前也是这样处理的
要想解决这个问题.
只能期待cbeta在xml中做好标记,标记某些字不需要做这种转换
2. 另外,还有前面提到的乾字, 这种一繁对多简的字. 也需要特殊标记. 这个工作量其实不大,因为一繁对多简的字并不多. 目前能做的,只能是根据上下文做简单的猜测. 因为算法的复杂度有限, 有时候难免猜测错误
其他,基本上,都是非常准确的, 毕竟逐字校对过
Linux版本阅藏程序:
http://cbeta.buddhism.org.hk
繁轉簡的問題
看了法友留言,上網查了一下,才知道原來繁體轉簡體也不是直接轉就一定OK。
我原本以為乾就是轉為干,原來 "乾隆"、"乾坤" 這種情況就不能轉,這樣就有點難度了。
再加上若要克服全文檢索,此事不是個人想像中的簡單了。
非常感谢楼上两位大德师兄回复~
非常感谢!
一般阅读学习其实繁体也不错的,但是如果考虑到在大陆推广和学习方便性,还是需要考虑字体问题。
末学也是刚开始考虑学习,非常感谢楼上大德师兄指点!
1. 简体字最初的目的是为了扫除文盲,
1. 简体字最初的目的是为了扫除文盲, 更有进一步将汉字罗马化的准备而作为过渡. 导致缺乏系统的考虑和规划,出现了不少混乱的情况. 不过,问题也没有那么严重. 因为一繁对多简,或者交叉对应的汉字其实不多. 应该不超过20个. 这个其实是可以一一标记出来了.
2. 繁体字其实也存在某种程度上的混乱. 多音字,多义字,其实也应该在xml中做适当的标记. 标记语义有助于AI处理, 标记语音有助于语音合成.
典型的例子,比如滚字, 一个含义是形容水的样子,一个含义是动词.完全风马牛不相及. 对此情况, 可以对滚字做标记, 默认滚字只表示水貌, 另外标记那些动词滚为"輥". 这样就可以抽取出一个"正字版"佛经. 对于后继电脑处理非常有用.
这样的例子,还比如然字和燃字. 在经中就经常混用, 做有效的区分是非常有意义的事情
这些东西也都只能在xml中做标记, 可以做到不破坏原有文字
Linux版本阅藏程序:
http://cbeta.buddhism.org.hk
CBReader简体繁体转换临时解决办法
思路是:CBReader调用的是IE浏览器内核,那我们可以在IE浏览器上安装一个外挂插件。就可以用右键,简体繁体转换。 我使用的是这个ALiBaBar 5.10 中文版 - IE簡繁轉換外掛 或者google网盘下载地址: