用户:Shoichi
动态组字服务测试
[编辑]在放置古籍的时候,总是会烦恼缺字的问题,以往只能用图片法解决,但图片没有文字的组成资讯,无法搜寻也无法定序。或者干脆留空,这也是不行。
台湾的维基协会与G0V萌典计画合作,现在正在处理吴守礼纸本的国台对照活用辞典纸本,将之现代化、数位化放进wikisource,就遇到了这个问题,因为里面有300多个unicode也没有收的汉字,由于现在动态组字有成熟的开源引擎:汉字组建了,所以就开始进行相关的处理与测试。
目前server已经布署到基金会的实验室 server上进行测试[1]。
搭载于mediawiki上的测试
[编辑]以下是在敝人自己电脑上的mediawiki上测试的结果,测试的内容有古字、合字、地区性字、次文化发明字、未来可能的新字,此外也可以产生错字、古乐谱用字(古代“减字谱”上的音符,其实是一种特殊汉字),而如果复制这个页面到无ids render能力的网站或者电脑上,那些缺字会还原成一个IDS表意文字序列,仍然具有可传递性与可读性。
如何测试
[编辑]要描述一个汉字缺字,我们要编写一个IDS(unicode的表意文字序列),一个IDS由IDC组字符与文字部件以先序(prefix)构成。
IDC组字符解说:
⿰左右組合 ⿱上下組合 ⿲左中右組合 ⿳上中下組合 ⿴囗 之類的全包圍組合 ⿵冂、門、鬥、「『夃』的乃」等的左上右型包圍 ⿶凵 左下右型包圍組合 ⿷匚、⼖ 上左下等包圍 ⿸厂、广、尸、疒、尸、戶、户、虍 等左上包右下的包圍 ⿹气 一類右上包左下的字 ⿺辶、廴和翅的支等左下包右上組合 ⿻ 重疊,目前尚未實作
IDS的范例 招财进宝:
⿰貝招 ⿰隹⿰貝招 ⿴辶⿴宀⿱珤⿰隹⿰貝招
其他例子
⿱⿰OK土 (這是真有其字,是台灣戶政用字裡一個罕見的名字) ⿺辶⿳穴⿰月⿰⿲⿱ㄠ長⿱言馬⿱ㄠ長刂心 biangbiang麵 (不同寫法的biang麵都可以描述出來)
然后把IDS复制起来,另开浏览器的分页,输入以下
https://tools.wmflabs.org/idsgen/⿺辶⿴宀⿱珤⿰隹⿰貝招.png?字體=宋體
就可以看到组好的招财进宝了。
请按右键开这个连结去测试看看
这个IDS字形产生引擎的参数有:
- 图档格式
- png :将来的IDS标签预设使用,一般显示以足够
- svg
- 字体
- 楷体
- 楷体粗体
- 宋体
- 宋体粗体
未来的展望
[编辑]使用ids标签如这样的范例
<ids>⿺辶⿴宀⿱珤⿰隹⿰貝招</ids>
,实际上会在维基的网站上render成这样的html码:
<img align=middle alt="⿺辶⿴宀⿱珤⿰隹⿰貝招⿺辶⿴宀⿱珤⿰隹⿰貝招" src="https://tools.wmflabs.org/idsgen/⿺辶⿴宀⿱珤⿰隹⿰貝招.png?字體=宋體" style="height: 1em; width: 1em; vertical-align: middle; margin: 0.4em 0px 0.7em; " />';
就可以在维基文库里面显示所要的缺字了,这个extension我已经写好了,我在mediawiki插件区有放了,可以装在一个测试的mediawiki网站来测试看看,就会出现前面贴的mediawiki测试图那样的效果。
FAQ
[编辑]Q1:万一有人把unicode已经编码的字用IDS,会不会产生混乱?
A1:有反查的演算法,以及汉字的笔序自然定序,只要使用一样的部件同样组合出来,可以用程式自动判断出其实是同一个字,另外程式将来可以提供自动代换,有unicode的,就用unicode
Q2:同一个字,有可能有复数的组合方法,会不会产生资讯上的混乱?
A2:承A1以汉字的笔序自然定序,只要使用一样的部件同样组合出来,就会有同样的hashcode,就可以知道是同一个字
注音上标测试
[编辑]测试
{{Ruby|拜|ㆠㄞ}}
效果:
{{ruby|九|ㄍㄠˋ}}
效果:
这好像是旧的template
{{zhuyin_St_layout|八|ㄅㄚ}}
资源
[编辑]{{#css:zhuyin_St_layout.css}}