您好,ndl有八萬冊rare圖書,而只能顯示最多10000條結果。 https://dl.ndl.go.jp/collections/A00003?permission_facet=internet&accessRestrictions=internet&pageNum=1 如何才能獲得所有圖書的id呢?我嘗試了几種方法: 1 右上角正負排序,只能顯示兩萬條結果 2 選擇年份 在輸入 截至日期為今年后,只能顯示四萬多條結果,也就是説這種方法無法顯示所有圖書,有的圖書沒有年份
User talk:Jlhwung
跳到导航
跳到搜索
NDL的API限制了10000條結果。在您提到的搜索界面上可以抓取到所有書籍的分類,例如記録、法制……等共950種。這些分類最多的書只有5486種,使用100分頁大小查詢,需要55次。假定所有書都有分類,那麼按分類、分頁抓取,應該可以拿到所有書籍的pid。
并不是每本书都有分类吧
我該如何對付這兩個版本?我該分別錄入,還是將兩個版本混合錄入與同一網頁?
選一本做錄入底本,另一本可以出校記或者另外錄入。兩個版本混合的話,那你就製造了一個新的Blahhmosh編輯本了。
非常感谢!
另外现在Unicode 15还没发布,是不是着急了一点
Unicode 15 Beta Review 已經結束,碼位已經事實上(de facto)凍結了,所以可以開始用了。
古籍頁面擴展漢字很常見,與其讓人手動加模板,不如到Wikisource:請求管理員幫助請求管理員批量操作,把所有含擴展區B-H字的頁面全部加上這個模板就好了。
上下段落:
“往返一月,雖甚匆遽,而禮儀周旋,情文曲盡,令人懷感。不【這個字】瀕行,過承垂念,以爲再見無由,徒勞夢想,蓋信然也”
近日,日本頒佈《昭和天皇實錄》,但是頒佈時間爲2014年。請問,既然頒佈者為政府機構,把他移到本站是否屬於版權侵害?
如何快速發多張圖片到Wikimedia上?我有一大堆圖片需要發,但是好像Wikimedia只允許你一次發一張圖片,而不是一次發多張圖片。這該怎麽辦?
请问,维基文库能够容得下多少字?
用演算,我猜我将要制造的页面要容下1,962,665。请问,一个页面能够容得下这么多字吗?
我不知道,可以到Wikisource:寫字間問一問。
我在讀《朝鮮王朝實錄》時遇到了這個字。這個字已經磨破地很了,不容易識別出來。連韓國人他們都不知道這是什麽字。但是我認爲這個字是“層”。你認爲呢?
出處:http://sillok.history.go.kr/id/wda_12807019_010, 查找"〈■畢〉"這一連串的字。這個字就是我所説的磨破字。按"원본 보기"。這個字的出處在第四頁,最底下。
在維基文庫裏面為:朝鮮王朝實錄/世宗實錄/二十八年, 查找"曲階高方東西墻底,其間"這一連串的字

可能是「層」,但如果存疑,註明闕字即可,除非有別本可以補正。
您好,此前我上载了一个新见字形⿰丠尼(是“屔”的异体)到魏安的讨论页,他在编辑摘要中的回复意见是“simply transcribe as 屔”就好了。我对这个意见有点不解(当然可能是我对Unicode编码不了解的缘故)但语言界限恐怕不能清楚表达,故此想请教您:由于以“丠”和“丘”为构件的汉字(至少以段玉裁《说文解字注》中“从丠”或“丠声”为例),包括邱、虚都有另行编码的“𨛆”和“𧆳”,那么为什么不考虑把⿰丠尼也另行编码呢?(我猜测也许是因为证据不足的原因,包括目前我也仅见章氏在《新方言/釋詞第一》中有这样的写法,不知是否这样的原因?)尚请指教,感谢!
對的。如果能提交更多的證據,例如學者論文討論「�」和「屔」;或是其他人的著作中也使用了「�」。編碼的理據會更充分一些。說文雖然提到了「从丠从泥省」,但其字頭不能作爲漢字編碼證據,因爲不是使用楷書的形式(見IRG PnP 2.1.1.b)。
包含某構件的漢字已經編碼不代表新字仍然會獲得獨立碼位。IRG近年對異體字漸趨嚴格,例如:推出了UCV爲異體字統合提供依據。注意:統合並不意味着放棄在數字化層面區分某兩個字形,依然可以通過IVD的形式讓這些字形可以被表達,只是IVD似乎沒有得到很多支持,至少中國韓國臺灣都沒有註冊過IVD.
另:可以直接在魏安討論頁中回覆中文,他當然能讀懂。
感谢。我此前也以为自己有忽略,所以查阅过UCV表,却又没见“丠”和“丘”的统合,所以才来相问。
照阁下所言,其实如果IVD得到广泛支持和使用,那么对于像是用非纸化形式重排古籍来说应该是要更加友好或者说工作能更加精细的——尤其是像这类考究文字语言的小学类著作,不然的话,还不如影印本呢233
PS:我也惊讶于我怎么下意识必须用英语了,大概是刻板印象?也可能是一瞬间对于使用外语的疲倦感哈哈,不过还是非常感谢阁下提醒。
您好。這次我要完成《朝鮮王朝實錄》的搬運。但是我需要幫助:《朝鮮王朝實錄》裏面有一些連很罕見到Unicode都沒有的生字詞。我需要您幫我查看《太宗》四年6月11日開始,至《太宗》11年10月28日爲止,其間有沒有我所説的生僻字。生僻字的意思是:如果您在google chrome裏面,到所説的日期,比如“http://sillok.history.go.kr/id/kca_10406010_001”
,按CTRL+U,然後用CTRL+F,輸入"newchar",發現CTRL+U裏面"newchar"有出現過,那麽這個頁面有生僻字。請您到我的討論裏面,發給我這些鏈接。謝謝您。辛苦您了。~~~~
抱歉我精力有限,恐怕沒有時間逐個查閱朝鮮實錄缺字。
建議您使用程序抓取該數據庫html正文(而非簡單複製粘貼,這樣會漏掉圖片字),然後使用正則表達式匹配img.newchar
這種HTML元素,所有這些元素的 src 都形如/images/newchar_images/KC09/KC09912_16.GIF
,其中KC09912
是生僻字的編號,你可以到https://zi.tools/api/ma/ma/kc.json
下載字統網維護的從KC編號到IDS/Unicode漢字的映射,使用映射信息把img.newchar
批量替換成{{?|IDS}}
或者已編碼漢字。
網絡抓取應該以多快的速度抓取?我以15秒一抓的速度進行,但是還是被禁了。
可以嘗試減少併發量,增加人類使用瀏覽器時會發出的HTTP頭。如果還是會被禁,那就慢慢導入:文本質量比導入速度重要。