在User talk:Midleading的话题

Roy17 (留言贡献)
Jlhwung (留言贡献)

維基文庫的四部叢刊文本應該來自於北京书同文数字化技术有限公司製作的四部叢刊全文檢索系統,bot只做搬運工作。

Crowley666 (留言贡献)

。如果有这么高级的OCR我也想用啊,我手头《吴承恩集_蔡鐵鷹_箋校》不能直接复制(确实是矢量的),但用tesseract进行OCR又会出错,除非放得很大。 传说阿里巴巴读光OCR还行,我没用过。

Crowley666 (留言贡献)

顺便吐槽一下,“𤣥”着实反人类,原文“貞”字也有缺笔。考虑到原文还有“于”,恐怕要用模板处理这种只有版本学家感兴趣的东西。

Midleading (留言贡献)

这些内容和维基文库的许多其它页面一样来自互联网

維基小霸王 (留言贡献)

等到Commons:Commons:Library_back_up_project将互联网上已有中国古籍全部备份后,可考虑准备OCR和自动标点。

想想有一天,这些古籍都识别成了文字加上了标点,全世界可以自由检索、浏览,那将是多大的好事啊!

https://ocr.gj.cool/about 这里有OCR工具,不知道效果如何。

Midleading (留言贡献)

像这样的OCR工具应该只是让别人免费试用一下而已,真的要用来识别整个图书馆的话估计是要图书馆自己出资的。我们还是跟在别人后面拣剩吧。

維基小霸王 (留言贡献)

如果找一个愿意让维基文库使用的古文OCR软件就好了。服务器资源向WMF请求。

Midleading (留言贡献)

維基文庫的Google OCR效果也還可以

維基小霸王 (留言贡献)

识别古文应该使用专门的工具,为现代文本设计的OCR不行。

Midleading (留言贡献)

我剛剛識別了幾個頁面,似乎確實能支持識別刻本,抄本也能大概識別。不過目前不能用於機器人自動識別整個圖書館。

Midleading (留言贡献)

SKchar的來源近年來疑似導入了Module:SKchar的字符表替換了部分自造字

維基小霸王 (留言贡献)

哈哈哈

回复“請教你的bot用了什麼OCR?”