关于语言的问题

在iso光盘中发现存在gandhari语的字体文件。

但是搜索xml文件,发现xml:lang属性一共使用了9种语言:

'sa-x-rj', 'en', 'sa-Sidd', 'zh', 'san-tr', 'sa', 'x-unknown', 'pi', 'zh-x-yy'

其中,sa-x-rj应该是兰扎体

en是英语

sa-Sidd是悉檀体

zh是汉语

sa是梵语,未知体

pi是巴利语

zh-x-yy是未知汉语?

x-unknown是未知语言?

san-tr不知道是什么了

那么gandhari语的字体文件是用在什么地方的呢?

另外我感觉应该统一一下这些语言的标识,方便处理

討論區:
ユーザー cbeta の写真

您好:

您列的那些其實就是相關的學者專家們幫我們統一過的結果了。

據我有限的了解

zh-x-yy是音譯

x-unknown是未知

san-tr 好像是翻譯

至於 gandhari 字體,主要是用在羅馬拼音的轉寫文字上,當初因為 Windows內建的 Unicode並沒有完全支援 CBETA 所使用的 Unicode,所以我們採用這一套,讓羅馬拼音的轉寫文字可以順利呈現。

这么看来gandhari字体不是所谓的犍陀罗语 和佉卢字母了。

因为佉卢字母也是最近才unicode化的

因为cbeta一直一以来都是采用覆盖编码的方式来做的字体。另外我也找不到这个字体用在什么地方。所以有这一个问题。

——————————————————————

关于xml:lang的标准,最新的语言标签标记法的国际标准是IETF的BCP 47(Best Current Practice),也就是RFC 5646取代了之前的RFC 464630661766.

可见如下文章:

https://www.w3.org/International/questions/qa-when-xmllang

http://www.rfc-editor.org/rfc/bcp/bcp47.txt

https://www.zhihu.com/question/20797118

按照我的理解,比较合适的标签可能是这样的:

英文:en

国语简体中文: cmn-Hans

国语繁体中文: cmn-Hant

文言文繁体中文: lzh-Hant

zh-Latn-pinyin 汉语拼音(例:nǐ,拉丁字母形式)
zh-Bopo-pinyin 注音拼音(例:ㄋ丨ˇ,罗马字形式,中国大陆1958年以前使用,台湾目前使用

悉檀梵语: sa-Sidd

拉丁梵语: sa-Latn

单独的sa意思不是很明确

比如,如果是拼音的话是zh-Latn-pinyin

Linux版本阅藏程序:

http://cbeta.buddhism.org.hk

 

ユーザー cbeta の写真

謝謝您提供最新的訊息。CBETA的標記歷經近20年,的確前後期會有不一致的情況,也有標準不是最新的情況。

未來有機會進一步整理時,我們會盡量朝著使用最新標準來進行,謝謝!