您好,ndl有八萬冊rare圖書,而只能顯示最多10000條結果。 https://dl.ndl.go.jp/collections/A00003?permission_facet=internet&accessRestrictions=internet&pageNum=1 如何才能獲得所有圖書的id呢?我嘗試了几種方法: 1 右上角正負排序,只能顯示兩萬條結果 2 選擇年份 在輸入 截至日期為今年后,只能顯示四萬多條結果,也就是説這種方法無法顯示所有圖書,有的圖書沒有年份
在用户讨论:Jlhwung的话题
外观
NDL的API限制了10000條結果。在您提到的搜索界面上可以抓取到所有書籍的分類,例如記録、法制……等共950種。這些分類最多的書只有5486種,使用100分頁大小查詢,需要55次。假定所有書都有分類,那麼按分類、分頁抓取,應該可以拿到所有書籍的pid。
并不是每本书都有分类吧
確實,有分類的書一共有74873本。假定一本書只有一個分類,那麼有8078本書沒有分類。把這個集合結合通過出版時間分段搜索得到的pid集合,已經可以覆蓋ndl已公佈藏書的90%了。我覺得可以先做着,以後再來補缺。
我就是这么办的,看来没办法获取所有了。另外有下载限制。