在User talk:Jlhwung的话题

《朝鮮王朝實錄》的生僻字問題

4
Blahhmosh (留言贡献)

您好。這次我要完成《朝鮮王朝實錄》的搬運。但是我需要幫助:《朝鮮王朝實錄》裏面有一些連很罕見到Unicode都沒有的生字詞。我需要您幫我查看《太宗》四年6月11日開始,至《太宗》11年10月28日爲止,其間有沒有我所説的生僻字。生僻字的意思是:如果您在google chrome裏面,到所説的日期,比如“http://sillok.history.go.kr/id/kca_10406010_001”

,按CTRL+U,然後用CTRL+F,輸入"newchar",發現CTRL+U裏面"newchar"有出現過,那麽這個頁面有生僻字。請您到我的討論裏面,發給我這些鏈接。謝謝您。辛苦您了。~~~~

Jlhwung (留言贡献)

抱歉我精力有限,恐怕沒有時間逐個查閱朝鮮實錄缺字。

建議您使用程序抓取該數據庫html正文(而非簡單複製粘貼,這樣會漏掉圖片字),然後使用正則表達式匹配img.newchar這種HTML元素,所有這些元素的 src 都形如/images/newchar_images/KC09/KC09912_16.GIF,其中KC09912是生僻字的編號,你可以到https://zi.tools/api/ma/ma/kc.json下載字統網維護的從KC編號到IDS/Unicode漢字的映射,使用映射信息把img.newchar批量替換成{{?|IDS}}或者已編碼漢字。

Blahhmosh (留言贡献)

網絡抓取應該以多快的速度抓取?我以15秒一抓的速度進行,但是還是被禁了。

Jlhwung (留言贡献)

可以嘗試減少併發量,增加人類使用瀏覽器時會發出的HTTP頭。如果還是會被禁,那就慢慢導入:文本質量比導入速度重要。

回复“《朝鮮王朝實錄》的生僻字問題”