页面讨论:中华人民共和国全国人民代表大会常务委员会公报2021年第三号.pdf/30

页面内容不支持其他语言。
維基文庫,自由的圖書館

索引CSS和仿宋等问题[编辑]

@Kanwenjian:您好,感谢您录入这么多Page,有几个问题烦请拨冗解答一下。首先就是,请问有关代码应该怎么修正,包括页眉的格式,主标题粗体,以及副标题和作者的仿宋体问题,我之前查询了相关索引的代码,仅仅有几行,不知是如何实现的?另外请问您是如何录入文章的,是通过文库内置的OCR直接识别的吗?另外还有一个问题。就是相关报告的署名日期问题,这个一定要按照公报的排版吗,与署名相对不居中对齐,感觉观感上很别扭,也许本身就是公报的排版失误呢?最后想请教一下,您是如何做校对的呢,我录入的文章不好说已经有了很好的校对,请问您是通过什么技术手段实现这一点的呢?——Zzhtju讨论2021年10月27日 (三) 04:22 (UTC)[回复]

@Zzhtju::抱歉,我现在才看到您的信息。首先,主副标题的样式是透过索引的styles.css(如Index:中华人民共和国全国人民代表大会常务委员会公报2021年第三号.pdf/styles.css)设置的。要注意的是,该css也要复制到索引页的“页面使用的CSS”一栏,不然录入后的Page会失去格式。这样可以确保整份公报的主副标题样式一致,若要更改时,也只须修改styles.css和“页面使用的CSS”一栏。原文中的仿宋体文字,我都没有在Page将其设为仿宋体,因为维基文库里好像没有仿宋体的模板,没有社区共识前我也不会创建这样的模板。反之,维基文库已经有模板:楷体,所以原文中的楷体文字,在Page中都用上了楷体。
关于录入文章,我发现OCR非常不准确,也不能有效读取双行排版。我录入文章的方法就是先手动把公报PDF里面的文字复制到Page,然后用regex移除所有空格和换行,最后手动加入分行模板、格式等。这样,你可以完整无缺地录入原文,无须手动校对。
有关署名日期的问题,公报应该没有排版失误。我修编过的公报里边,几乎所有署名日期都是置右的,署名从右边隔四个字宽,日期从右隔两个字宽。个人而言,我倾向保留原文的排版,因为维基文库的目的就是在最大程度把纸质文件数位化。数位化要保留原文特色且不阻碍现今读者阅读原文。我录入的时候就会自问:“如果当年作者没有纸张大小的限制,能直接用网页出版原文,他会如何排版?”双行排版明显是为了将就纸张大小而使用的,所以我是反对在维基文库上以双行录入原文(之前有人用了双行录入,所以为了一致性,我唯有跟随)。同样道理,署名日期的右边隔宽跟纸张大小无关,两者不并排靠右是作者的选择,所以我保留了该格式。数字化中要多大程度放弃原文格式,要整个社群讨论后达成共识:在英语维基文库,原文中段首的所有空格必须去掉,我们则选择了保留。但无论如何,我认为排版丑不丑不该是考虑因素。正如我刚才所说,文库须要保留某些原文特色,不论原文排版有多丑,其丑态也要一并录入。Kanwenjian留言2021年11月16日 (二) 07:29 (UTC)[回复]
@Kanwenjian:您好,非常感谢您这么详尽的回复!但是本人还是有一些问题烦请您再解答一下。
首先,就是例如Index:中华人民共和国全国人民代表大会常务委员会公报2021年第三号.pdf/styles.css,这个代码是如何控制页眉显示“全国人民代表大会常务委员会公报2021·3”这行字的,另外目录页外侧的信息栏是如何显示出来的?由于个人技术能力有限,还烦请您介绍一下。
然后,关于仿宋体的问题,您看采用html进行处理是否合适,例如:“(2021年3月11日第十三届全国人民代表大会第四次会议通过)”(<span style="font-family: 仿宋, 仿宋_GB2312;">(2021年3月11日第十三届全国人民代表大会第四次会议通过)</span>)
此外,您提到的regex是什么处理方法?另外,感觉仅仅是“手动加入分行模板、格式等”的工作量也很大,不知道您方便说一下您是如何这么高效地进行处理的吗?还有一点就是如果遇到扫描版的PDF文件(不能复制)您有什么比较好的方法处理吗?
最后,您提到的“双行排版”是指的一页两栏吗?我觉得您这样处理也很好,能和pdf对应上。多有打扰,祝编安!——Zzhtju留言2021年11月16日 (二) 11:19 (UTC)[回复]
@Zzhtju:没事,我非常乐意解答疑问。页眉的字是我手动加入的,与CSS无关。英语文库可以在索引页设置在每页的页眉页脚自动载入预先设定的文字,但好像中文文库没有此功能。我基于楷体模板创建了模板:仿宋,在这里试用了,你看一下效果如何。Regex可说是高级版的搜索替代功能,可在大部分纯文字编辑器找到。Regex让你先寻找特定词组,然后按预先设定的方法替代某些内容。譬如,我可以先搜索\n| (注意竖线后有空格号),意思就是在文本里找隔行或空格号,然后我可以告诉编辑器将所有隔行和空格号都以(即什么都没有)替代,从而移除文中所有隔行和空格号。我也可以先搜索^(第.+条)(即行首任何符合第XXX号的词组),然后让编辑器以'''$1''' 将其替代,这样会把所有第X条都粗体化,后面也加上了全形空格。这样可以加快加入模板和格式化文字。如果PDF没得复制那只好每个字逐一校对了,没有其他方法;文字简化初期的公报简繁混用,更需要人工校对。祝好!Kanwenjian留言2021年11月16日 (二) 16:31 (UTC)[回复]
@Kanwenjian:感谢您拨冗回复,您的解答解决了我的很多问题!创建模板:仿宋实在麻烦您了,以后各位可在此基础上进行录入了,我个人看能和原格式完全对应上(本人之前错误加入楷体)。
另外打扰您咨询一下——以【2021年第三号/2】和【2021年第三号/6】这两页为例:
请问诸如【中华人民共和国全国人民代表大会常务委员会公报 2021年 第三号 (总号:350)4月15日出版 主办单位:全国人大常委会办公厅 地址:北京市西城区西交民巷23号 邮政编码:100805】【全国人民代表大会常务委员会公报2021·3】【·1·】【— 367 —】,这些诸如页眉和页脚在编辑界面上并不能显示出来,只能显示其余正文区域(我采用的就是默认的编辑器,没有做更改),请问是您做了隐藏吗?—— Zzhtju留言2021年11月17日 (三) 02:41 (UTC)[回复]
要看见页眉页首,你须按“校对工具”下的按钮。Kanwenjian留言2021年11月17日 (三) 02:54 (UTC)[回复]
谢谢您,我明白了!已经找到如何编辑了,感谢拨冗解答,祝编安!—— Zzhtju留言2021年11月17日 (三) 03:15 (UTC)[回复]