标点标准化的问题

简单统计了一下子标点。发现cbeta的很多标点存在一样的地方使用不同的标点的情况。

1. 比如人名书名分隔号。大陆这边的标准是使用U+00B7.台湾的标准我不清楚。

cbeta的文本则有混用U+FF0E和U+2027的情况。FF0E肯定是不对的。无论使用那种标准,建议统一为一种。

2.全角冒号,有使用U+FE30的情况。建议统一为一种U+FF1A。

3.U+60。用于梵文的标注。建议去掉,使用一个字母,否则容易显示混乱。

4.U+2014,建议全部替换为U+2E3A.

是否可以舉一些例子?單用unicode的編號來說明實在看不懂你所要表達的意思。另外我想提醒,任何的建議都是為了讓大藏經更好,不應該主觀的認為這不妥那不好,好像自己提出來的都是對的,而CBETA就得照提出者來改才對,這段話我憋很久了,一直想說,就趁此說了,因為看到一些來提出建議者常給我這樣的感覺。

cbeta怎么做是他们自己的问题。我只是提一些“自认为”更好的建议罢了。只是大陆发帖实在费劲,行文过于简单,不必关注文中的“无谓情绪”。

这里是涉及标点符号。因为长的都一个样子。所以贴出来也意义不大。而且难以区分。所以只贴了编码,望谅解

Linux版本阅藏程序:

http://cbeta.buddhism.org.hk

 

maha's 的頭像

简单统计了一下子标点。发现cbeta的很多标点存在一样的地方使用不同的标点的情况。

1. 比如人名书名分隔号。大陆这边的标准是使用U+00B7.台湾的标准我不清楚。

cbeta的文本则有混用U+FF0E和U+2027的情况。FF0E肯定是不对的。无论使用那种标准,建议统一为一种。

因為U+2027的黑點比U+FF0E大,視覺上不是很好看,如下:

【U+FF0E】

Y02n0002_p0003a12_##的《大寶積經論》,是依此敷演而成的。又如《攝大乘論所知相分》,所說成

【U+2027】

Y02n0002_p0003a12_##的《大寶積經論》,是依此敷演而成的。又如《攝大乘論所知相分》,所說成

所以我們從一開始都盡量以U+FF0E為標準。不過標點符號有標點符號的定義,我們會考慮是否統一採用U+2027。

2.全角冒号,有使用U+FE30的情况。建议统一为一种U+FF1A。

看到了,列入修訂。

3.U+60。用于梵文的标注。建议去掉,使用一个字母,否则容易显示混乱。

看到了,正在找那個字母。

4.U+2014,建议全部替换为U+2E3A.

這兩個標點如下:

— U+2014
⸺ U+2E3A

這個再考慮考慮,因為U+2E3A在許多純文字編輯器上無法正常顯示。

CBETA Maha 吳寶原