页面讨论:中華人民共和國全國人民代表大會常務委員會公報2021年第三號.pdf/30

頁面內容不支援其他語言。
新增話題
維基文庫,自由的圖書館
由Zzhtju在話題索引CSS和仿宋等問題上作出的最新留言:2 年前

索引CSS和仿宋等問題[編輯]

@Kanwenjian:您好,感謝您錄入這麼多Page,有幾個問題煩請撥冗解答一下。首先就是,請問有關代碼應該怎麼修正,包括頁眉的格式,主標題粗體,以及副標題和作者的仿宋體問題,我之前查詢了相關索引的代碼,僅僅有幾行,不知是如何實現的?另外請問您是如何錄入文章的,是通過文庫內置的OCR直接識別的嗎?另外還有一個問題。就是相關報告的署名日期問題,這個一定要按照公報的排版嗎,與署名相對不居中對齊,感覺觀感上很彆扭,也許本身就是公報的排版失誤呢?最後想請教一下,您是如何做校對的呢,我錄入的文章不好說已經有了很好的校對,請問您是通過什麼技術手段實現這一點的呢?——Zzhtju討論2021年10月27日 (三) 04:22 (UTC)回覆

@Zzhtju::抱歉,我現在才看到您的信息。首先,主副標題的樣式是透過索引的styles.css(如Index:中華人民共和國全國人民代表大會常務委員會公報2021年第三號.pdf/styles.css)設置的。要注意的是,該css也要複製到索引頁的「頁面使用的CSS」一欄,不然錄入後的Page會失去格式。這樣可以確保整份公報的主副標題樣式一致,若要更改時,也只須修改styles.css和「頁面使用的CSS」一欄。原文中的仿宋體文字,我都沒有在Page將其設為仿宋體,因為維基文庫里好像沒有仿宋體的模板,沒有社區共識前我也不會創建這樣的模板。反之,維基文庫已經有模板:楷體,所以原文中的楷體文字,在Page中都用上了楷體。
關於錄入文章,我發現OCR非常不準確,也不能有效讀取雙行排版。我錄入文章的方法就是先手動把公報PDF裡面的文字複製到Page,然後用regex移除所有空格和換行,最後手動加入分行模板、格式等。這樣,你可以完整無缺地錄入原文,無須手動校對。
有關署名日期的問題,公報應該沒有排版失誤。我修編過的公報裡邊,幾乎所有署名日期都是置右的,署名從右邊隔四個字寬,日期從右隔兩個字寬。個人而言,我傾向保留原文的排版,因為維基文庫的目的就是在最大程度把紙質文件數位化。數位化要保留原文特色且不阻礙現今讀者閱讀原文。我錄入的時候就會自問:「如果當年作者沒有紙張大小的限制,能直接用網頁出版原文,他會如何排版?」雙行排版明顯是為了將就紙張大小而使用的,所以我是反對在維基文庫上以雙行錄入原文(之前有人用了雙行錄入,所以為了一致性,我唯有跟隨)。同樣道理,署名日期的右邊隔寬跟紙張大小無關,兩者不並排靠右是作者的選擇,所以我保留了該格式。數字化中要多大程度放棄原文格式,要整個社群討論後達成共識:在英語維基文庫,原文中段首的所有空格必須去掉,我們則選擇了保留。但無論如何,我認為排版丑不醜不該是考慮因素。正如我剛才所說,文庫須要保留某些原文特色,不論原文排版有多醜,其醜態也要一併錄入。Kanwenjian留言2021年11月16日 (二) 07:29 (UTC)回覆
@Kanwenjian:您好,非常感謝您這麼詳盡的回覆!但是本人還是有一些問題煩請您再解答一下。
首先,就是例如Index:中華人民共和國全國人民代表大會常務委員會公報2021年第三號.pdf/styles.css,這個代碼是如何控制頁眉顯示「全國人民代表大會常務委員會公報2021·3」這行字的,另外目錄頁外側的信息欄是如何顯示出來的?由於個人技術能力有限,還煩請您介紹一下。
然後,關於仿宋體的問題,您看採用html進行處理是否合適,例如:「(2021年3月11日第十三屆全國人民代表大會第四次會議通過)」(<span style="font-family: 仿宋, 仿宋_GB2312;">(2021年3月11日第十三届全国人民代表大会第四次会议通过)</span>)
此外,您提到的regex是什麼處理方法?另外,感覺僅僅是「手動加入分行模板、格式等」的工作量也很大,不知道您方便說一下您是如何這麼高效地進行處理的嗎?還有一點就是如果遇到掃描版的PDF文件(不能複製)您有什麼比較好的方法處理嗎?
最後,您提到的「雙行排版」是指的一頁兩欄嗎?我覺得您這樣處理也很好,能和pdf對應上。多有打擾,祝編安!——Zzhtju留言2021年11月16日 (二) 11:19 (UTC)回覆
@Zzhtju:沒事,我非常樂意解答疑問。頁眉的字是我手動加入的,與CSS無關。英語文庫可以在索引頁設置在每頁的頁眉頁腳自動載入預先設定的文字,但好像中文文庫沒有此功能。我基於楷體模板創建了模板:仿宋,在這裡試用了,你看一下效果如何。Regex可說是高級版的搜索替代功能,可在大部分純文字編輯器找到。Regex讓你先尋找特定詞組,然後按預先設定的方法替代某些內容。譬如,我可以先搜索\n| (注意豎線後有空格號),意思就是在文本里找隔行或空格號,然後我可以告訴編輯器將所有隔行和空格號都以(即什麼都沒有)替代,從而移除文中所有隔行和空格號。我也可以先搜索^(第.+条)(即行首任何符合第XXX號的詞組),然後讓編輯器以'''$1''' 將其替代,這樣會把所有第X條都粗體化,後面也加上了全形空格。這樣可以加快加入模板和格式化文字。如果PDF沒得複製那只好每個字逐一校對了,沒有其他方法;文字簡化初期的公報簡繁混用,更需要人工校對。祝好!Kanwenjian留言2021年11月16日 (二) 16:31 (UTC)回覆
@Kanwenjian:感謝您撥冗回復,您的解答解決了我的很多問題!創建模板:仿宋實在麻煩您了,以後各位可在此基礎上進行錄入了,我個人看能和原格式完全對應上(本人之前錯誤加入楷體)。
另外打擾您諮詢一下——以【2021年第三號/2】和【2021年第三號/6】這兩頁為例:
請問諸如【中華人民共和國全國人民代表大會常務委員會公報 2021年 第三號 (總號:350)4月15日出版 主辦單位:全國人大常委會辦公廳 地址:北京市西城區西交民巷23號 郵政編碼:100805】【全國人民代表大會常務委員會公報2021·3】【·1·】【— 367 —】,這些諸如頁眉和頁腳在編輯界面上並不能顯示出來,只能顯示其餘正文區域(我採用的就是默認的編輯器,沒有做更改),請問是您做了隱藏嗎?—— Zzhtju留言2021年11月17日 (三) 02:41 (UTC)回覆
要看見頁眉頁首,你須按「校對工具」下的按鈕。Kanwenjian留言2021年11月17日 (三) 02:54 (UTC)回覆
謝謝您,我明白了!已經找到如何編輯了,感謝撥冗解答,祝編安!—— Zzhtju留言2021年11月17日 (三) 03:15 (UTC)回覆