User:維基小霸王/录入四库全书计划
外观
8年前,我有一个梦想:在维基文库录入四库全书的内容,以方便各位用户,方便维基百科进行引用。那个时候,我一直在网上搜索相关四库全书所包含书籍,复制到维基文库。其中有不少内容原本是简体字,录入时自动转换成了传统汉字,其中出现了不少错误。当时我想的是先录入为好,以后可能会有人进一步更正的。但是从别人的角度来看,这是不负责任的体现。在此,本人对造成的不便表示歉意!
最近,我在网上看到了一个包含四库全书书籍的文本压缩包。它又勾起了我初中一二年级时的那个梦想。文本是没有标点符号的传统汉字,因此不会有转换错字的问题。我想将此数据库导入维基文库。在导入前,我会将自己的计划列在下面。
更新:已经基本完成!
[编辑]页面列表:
质量
[编辑]没有简繁转换的错字,但
- 在一些字符表中不存在的私有字符显示不出来,将使用图片显示。如果一些字符后来在unicode中包含,可以在模板中直接改成这个字
- 只有文本,沒有圖片和表格
- 康熙字典中有不少字符没有识别,显示为框。为了方便浏览原文图像以便校正文本,字典类条目会使用page页面,将文本与图像一并显示。暂不导入字典类书籍,以后慢慢通过User:維基小霸王/split-for-proofreading.js导入。
说明
[编辑]建立专门的书名 (四库版)页面。如果书名已经存在,则在顶部加入Template:See others,如果书名不存在,则建立重定向到书名 (四库版)。
页面提醒禁止用户修改文本,只能添加超链接到相关典籍或维基百科。如果要自行添加标点,或者录入他人加标点的版本,则应另外建立页面。
子页面
[编辑]加入{{header2}}模板。
作者页面
[编辑]自动生成作者页面。如果已经存在,则附加到作者页面的历史记录中去。
维基百科的参考模板
[编辑]在维基百科建立{{Wikisource Citation SKQS}}模板,用户输入{{Wikisource Citation SKQS|书名|章节名}}就可以自动生成参考资料,显示作者信息,链接到维基文库。
在维基文库每个页面写好链接此页面的方法,方便编者进行链接。
工作列表
[编辑]本地处理工作
[编辑]- 生成私有区文字的PDF文档,上传到维基共享资源
- 将私有区文字替换为模板{{SKQSchar|unicode代码}}
- 创建目录页
{{Header SKQS|title=|author=|author2(3,4,5)=|notes=}}- 目录或者内容
{{X代作品}}表明版权状态
- 创建子页面
{{Header2 SKQS|title=|section=|previous=|next=|}}
- 转换为可供维基文库导入的xml文件
- 使用竖版显示,不添加Header。
工作
[编辑]- 模仿{{Otheruses}},创建{{see SKQS}}
模仿{{Header}},创建{{Header SKQS}}- 创建{{SKQSchar}},默认显示PDF文档,允许用户未来将其替换为unicode字符
- 创建{{Year Link}},參考w:中国年号列表自動分類為公元,並且鏈接到公元。一些年號有歧義,由於沒有想出自動判斷的辦法,保留建議用戶消歧義。
- 申请临时导入员权限
- 导入书籍,每天20~100本
- 创建重定向和加入{{see SKQS|书籍名称 (四库版)}}模板
- 撰写说明文档
- 建立对话页,显示IA搜索链接、图片状态、表格状态、字符人工识别状态、内部链接加入状态,完成用户签名
- 更改四库全书,显示原文和文本状态,使用模板
留下来的工作
[编辑]- 图片、表格可以用IA的扫描版添加
- 字符图片人工识别
- 年代校正
- 加入内部链接
已知问题
[编辑]- Firefox浏览器的锚定问题
- 双行注释目前html不支持。如果以后可以支持,比如日语的Inline Cutting Note,可以在模板中加入支持。
- 各別頁面所需計算過多而無法正常顯示,如御製康熈字典_(四庫全書本)/卷04。本人推測這是採用了過多含有switch的{{SK char}}模板造成。待到{{SK char}}識別完成,可將此模板替換成相應字符。沒有了過多的{{SK char}},這些頁面就該可以正常顯示。
導入時出現的錯誤
[编辑]導入時出現了一些錯誤,以後需要用機器人修正:
- /斜杠錯誤寫成了\斜杠