比如Page:Sibu_Congkan0001-王弼-周易-2-1.djvu/15。你的bot好厲害,能把豎排大小字都分得那麼好。請問這是什麼OCR?我也想用來轉錄一些古籍。
在User talk:Midleading的话题
維基文庫的四部叢刊文本應該來自於北京书同文数字化技术有限公司製作的四部叢刊全文檢索系統,bot只做搬運工作。
顺便吐槽一下,“𤣥”着实反人类,原文“貞”字也有缺笔。考虑到原文还有“于”,恐怕要用模板处理这种只有版本学家感兴趣的东西。
这些内容和维基文库的许多其它页面一样来自互联网
等到Commons:Commons:Library_back_up_project将互联网上已有中国古籍全部备份后,可考虑准备OCR和自动标点。
想想有一天,这些古籍都识别成了文字加上了标点,全世界可以自由检索、浏览,那将是多大的好事啊!
https://ocr.gj.cool/about 这里有OCR工具,不知道效果如何。
像这样的OCR工具应该只是让别人免费试用一下而已,真的要用来识别整个图书馆的话估计是要图书馆自己出资的。我们还是跟在别人后面拣剩吧。
如果找一个愿意让维基文库使用的古文OCR软件就好了。服务器资源向WMF请求。
維基文庫的Google OCR效果也還可以
识别古文应该使用专门的工具,为现代文本设计的OCR不行。
我剛剛識別了幾個頁面,似乎確實能支持識別刻本,抄本也能大概識別。不過目前不能用於機器人自動識別整個圖書館。
SKchar的來源近年來疑似導入了Module:SKchar的字符表替換了部分自造字
哈哈哈