维基文库讨论:光學字元辨識
添加话题對於手寫古籍 古籍酷與google OCR的比較
[编辑]光處漿最多或云植物之 漿猶動物之脂也 此體生於葉中木中者其初細胞甚小且少近管處又生 新者漸生漸多體以漸而大故葉與木亦以漸而大也 諸細胞相粘合必有隙隙中或有油或有香膠充滿焉又 或有養氣或有液道其液如水液道之或通皮外或通 葉外以接外氣凡有油與養氣者其口或大或小於細胞 不定惟液道口必甚小非顯微鏡不能察焉 其功用令流質徧行植物體中胞雖無漏孔流質自能沁 入復沁出焉 嫩木中聚胞體節節相聯如甲木老則中之細胞消盡而 成長管剖其管細察之有無數細點凹跡也如心 此體最易爛凡葉花果落地後與 植物生命之氣隔絕其中之炭質 卽合養氣散爲炭氣輕氣卽合養 氣化爲水餘如硫磺鄰謙青鹽等質卽仍入土故葉花果 墮地後其軟處必先壞核置乾處不壊遇濕亦卽爛也 木體 木體乃合無數長管爲一體管柔而勒長而甚細合七管
光處漿最多或云植物之漿猶動物之脂也 此體生於葉中木中者其初細胞甚小且少近管處又生 新者漸生漸多體以漸而大故葉與木亦以漸而大也 諸細胞相粘合必有隙隙中或有油或有香膠充滿 或有養氣或有液道其液雄水液 液如水液道之口或通皮外或通 以接外氣凡有油與養氣者其口或大或小於細胞 心惟液道之口必甚小非顯微鏡不能察焉 流質編行植物體中胞雖無漏孔流質自能沙 其功用令流質編 入復沁出焉 嫩木中聚胞體節相聯如甲木老則中之細胞消盡而 成長管剖其管 Q有無數細點凹跡也如乙 此體長易爛凡葉花果落地後與 植物生命之氣隔絕其中之屍質 配合養氣散爲炭氣輕氣郎合養 氣化爲水餘如硫花 靑鹽等質卽仍入土故葉 墮地後其軟處必先壞核置乾處不壞遇濕亦自爛也 木體 木體乃合無數長管爲一體管柔而靳長而甚組合七管 學 葉
https://zh.wikisource.org/w/index.php?title=Wikisource%3A%E6%B2%99%E7%9B%92&diff=2292668&oldid=2292667
比較二者可以發現,古籍酷的識別準確率更高。但是古籍酷的缺點是不能識別標點符號。 維基小霸王(留言) 2023年5月30日 (二) 04:19 (UTC)
公有领域文献整理的几个阶段
[编辑]理想的完整步骤是:扫描上传到维基共享资源、OCR、加标点、自动写成百科全书。
扫描上传到维基共享资源:现在已经传了很多了,以后还要继续。
挑選出最好的版本:一些書有很多版本,同一版本有多個來源的掃描。人工挑选出其中最好的一個文件,用於OCR。
OCR:對於不同時代的作品,印刷和排版方式不同。挑选最合適的OCR工具,转换为文本。
加标点:电脑自动加标点。
自动写成百科全书:这是最终极的一步。有的文本就像天书一样。现在有chatgpt这样的工具,可以将这些书提取信息写成百科全书条目。由于来源是公有领域的,条目大篇幅引用也没关系,只要注明来源即可,这样可便于读者查证。
大型语言模型可以综合多个语言的文本,这样就可以使用所有语言的所有共有领域材料写成所有语言的条目,真正实现“地球上的每一个人都可以自由访问所有人类知识的总和”,这是人类过去从未实现的。
希望有专业的人士来做这一步,这会是一项历史性的创举。 維基小霸王(留言) 2023年6月29日 (四) 02:50 (UTC)
NDL古典籍OCR ver.3
[编辑]出新版了,據說對古籍有改良。(@維基小霸王:)Fish bowl(留言) 2024年2月7日 (三) 23:50 (UTC)
- 谢谢 以后我看看 維基小霸王(留言) 2024年2月7日 (三) 23:58 (UTC)
大规模OCR图书馆
[编辑]之前讨论过Wikisource:写字间/存档/2023#OCR圖書館,但遇到了Google OCR无法访问图片的问题。现在此问题已经解决了。我们可以开始大规模识别图书扫描了。
一个潜在的问题是,很多书具有多份扫描档。每个都识别是没有意义的,最好的方式是像@midleading:提出的那样,开发一个工具,允许各位用户批量识别不同的书。我已经提出了功能需求,有更多需求请提出。
另一个问题是,使用哪种OCR软件。Google OCR对于识别1900年以来的印刷体合适,但是无法识别竖排排版位于行外的标点。对于古文,古籍酷效果更好,而且支持自动加标点,对开源项目有支持。我还测试了日本国立国会图书馆开发的OCR软件,打开是因为是针对日文训练的,效果不好。请大家考虑在Wikisource:OCR/测试加入各种类型文件的例子,以及测评更多OCR软件。 維基小霸王(留言) 2024年1月15日 (一) 13:33 (UTC
- 我刚才录入了来自这里的文本,感觉还不错,这也是一个选择。 Midleading(留言) 2024年1月15日 (一) 13:37 (UTC)
- 匹配文本与文件也是个问题。 維基小霸王(留言) 2024年1月15日 (一) 13:51 (UTC)
- 2017年錄入四部叢刊的時候就是人工匹配的,匹配中發現了大量缺頁和重複,現在我認為也可以人工匹配。 Midleading(留言) 2024年1月15日 (一) 14:22 (UTC)
- 导入现在已有的文本应该要优先于自己识别,有很多书其实已经有已有的数字化文本,没必要再重来一遍。目前这个来源的文本已经具备导入维基文库条件了。 Midleading(留言) 2024年1月16日 (二) 09:45 (UTC)
- 2017年錄入四部叢刊的時候就是人工匹配的,匹配中發現了大量缺頁和重複,現在我認為也可以人工匹配。 Midleading(留言) 2024年1月15日 (一) 14:22 (UTC)
- 匹配文本与文件也是个问题。 維基小霸王(留言) 2024年1月15日 (一) 13:51 (UTC)
- 這種識別作業會有方便後續人工追蹤維護標籤對吧?—— Eric Liu(留言) 2024年1月15日 (一) 14:38 (UTC)
- 有沒有用戶願意維護就不知道了,關鍵是看有沒有用戶在維基文庫讀我們錄入的書。 Midleading(留言) 2024年1月15日 (一) 14:46 (UTC)
- 最基本的一个作用是作为图书的全文搜索库。现在,维基共享资源上传了那么多图书,是无法全文搜索的。维基百科的搜索引擎和维基文库是相连的,完成这个项目后,在搜索维基百科的时候,右边就会有一个框框显示出几乎所有中文公有领域图书的搜索结果,这不是很棒吗?
- 至于标签,这种校对页面默认的未校对标签就描述了这些页面的状态。即使不是大规模的机器识别,很多用户输入之后不校对,跟这样做的结果是一样的。 維基小霸王(留言) 2024年1月15日 (一) 23:39 (UTC)
- 有沒有用戶願意維護就不知道了,關鍵是看有沒有用戶在維基文庫讀我們錄入的書。 Midleading(留言) 2024年1月15日 (一) 14:46 (UTC)
- 对于印刷体Google OCR效果很好,但它的标点符号大多是半角的,建议OCR之后都替换一次。简体测试文本刚好就是我用Google OCR录入并校对的。--Kcx36(留言) 2024年1月15日 (一) 15:47 (UTC)
- 竪排古籍中低几格或有空白的短段落,Google OCR有時無法保證行序、字序,還會把一行拆成幾塊。對雙行注文識別弱,即使是較高像素的圖片。Andayunxiao(留言) 2024年1月15日 (一) 16:04 (UTC)
- 录入古文还是用古籍酷最好,不仅识别效果好,还能用人工智能加标点。 維基小霸王(留言) 2024年1月15日 (一) 23:32 (UTC)
- @Andayunxiao 對於古文,gj.cool優於Google。Google gj.cool 維基小霸王(留言) 2024年1月16日 (二) 04:51 (UTC)
- gj.cool给的额度很小 应该用不了 維基小霸王(留言) 2024年1月16日 (二) 08:48 (UTC)
- 没关系,我们可以把这个功能放到WMCS里面,让其他用户使用,估计用户应该不会用完这些额度 Midleading(留言) 2024年1月16日 (二) 09:40 (UTC)
- 古籍酷看來效果很好,而且沒有缺字。中文古書通常行列分明,惜 Google OCR 未能利用這一點。額度就算小,能利用也是對用戶有益的。我無意用 OCR 錄入大量内容,僅作範例。 Andayunxiao(留言) 2024年1月17日 (三) 15:34 (UTC)
- gj.cool给的额度很小 应该用不了 維基小霸王(留言) 2024年1月16日 (二) 08:48 (UTC)
- @Andayunxiao 對於古文,gj.cool優於Google。Google gj.cool 維基小霸王(留言) 2024年1月16日 (二) 04:51 (UTC)
- 录入古文还是用古籍酷最好,不仅识别效果好,还能用人工智能加标点。 維基小霸王(留言) 2024年1月15日 (一) 23:32 (UTC)
竖版图书行外标点无法识别的问题可能将会解决,2月19日Google API更新后,请大家注意测试。--維基小霸王(留言) 2024年1月19日 (五) 02:03 (UTC)
借此話題提個想法:我很喜歡Ctext的 字符識別連結頁面,不僅美觀,容易定位,而且其底層支持兩種輸入和修改模式,不需要用戶會使用排版代碼。效果上更是同一段源碼有三種展示模式——簡單修改模式(不合并行)、竪排陣列模式,和正文橫排模式(合并行)。不知道在 Mediawiki 的框架下我們能否實現類似功能,讓用戶只輸入一次,就可以有不同的展示方式。Andayunxiao(留言) 2024年1月19日 (五) 17:02 (UTC)
OCR软件使用指引
[编辑]我认为维基文库对OCR软件的使用需要提出指引,避免将来某些用户大量创建低质量的文本页面充斥整个维基文库,避免管理员删除上百个甚至上千个低质量页面:
- 当维基文库收录了原文对应数字化文本时,不应大量创建错误率高于该数字化文本的页面。
- 当维基文库尚未收录原文对应数字化文本,但可公开访问的外部网站收录了原文对应数字化文本时,不应大量创建错误率高于该外部网站所提供的数字化文本的页面。
Midleading(留言) 2024年1月16日 (二) 05:35 (UTC)
- 我用chatgpt将讨论内容转换成了方针,请修改:Wikisource:OCR#大规模OCR计划。 維基小霸王(留言) 2024年1月16日 (二) 13:35 (UTC)
- 新手提問!請問有給古籍PDF免費做OCR的網站嗎? Fremax(留言) 2024年1月17日 (三) 10:47 (UTC)
- @Ericliu1912:Wikisource:OCR有必要移动到Wikisource:光學字元辨識吗?英文缩写更常用,中文还涉及地区词,地区词转换不知道为什么没生效。--Kcx36(留言) 2024年1月17日 (三) 11:22 (UTC)
- 正式名詞的話,第一次提到使用中文名稱為宜,之後可以多用簡稱。地區詞轉換已經修復,我也不知道是怎麼回事( —— Eric Liu(留言) 2024年1月17日 (三) 12:04 (UTC)
- 維基文庫是沒有地區詞轉換的,因為不需要轉換原文中的地區詞 Midleading(留言) 2024年1月17日 (三) 14:37 (UTC)
- 文庫目前只有簡體和繁體模式,沒有開啓地區詞轉換。技術上,w:維基百科:繁简处理 提到, 繁簡轉換總共通過三個轉換表來實現,這三個表所有維基項目共用,其中不包括地區詞。這一點是百科的周全考慮,而不是疏忽。見w:維基百科:字詞轉換/2015年轉換表更新說明,轉換表收錄相對保守,有些地區用字差異也未收入,如「著」,「着」。Andayunxiao(留言) 2024年1月17日 (三) 15:54 (UTC)
- 不贊同在作品頁使用地區詞轉換。文庫作品是對已有作品的複制。應該保持這些作品的完整性和原貌。幫助空閒提供轉換有益。 Andayunxiao(留言) 2024年1月17日 (三) 16:00 (UTC)
- 我和Ericliu1912在说的仅仅是Wikisource:光學字元辨識的页面标题“光學字元辨識”和“光学字符识别”。--Kcx36(留言) 2024年1月17日 (三) 16:07 (UTC)
- 是我離題太遠了,抱歉抱歉。標題轉換是怎樣生效的,是不是通過地區詞轉換,我還不清楚。 Andayunxiao(留言) 2024年1月17日 (三) 16:23 (UTC)
- 我和Ericliu1912在说的仅仅是Wikisource:光學字元辨識的页面标题“光學字元辨識”和“光学字符识别”。--Kcx36(留言) 2024年1月17日 (三) 16:07 (UTC)
- 我觉得没必要移动,大家都知道OCR是什么意思。w:Wikipedia:格式手册/缩写上说:“‘大家都这么用’,那么我也可以这么用。”--維基小霸王(留言) 2024年1月19日 (五) 02:02 (UTC)
- 正式名詞的話,第一次提到使用中文名稱為宜,之後可以多用簡稱。地區詞轉換已經修復,我也不知道是怎麼回事( —— Eric Liu(留言) 2024年1月17日 (三) 12:04 (UTC)
- @Blahhmosh Lemonaka(留言) 2024年1月24日 (三) 00:32 (UTC)
- Yes? What's up? @Lemonaka Blahhmosh(留言) 2024年1月24日 (三) 02:15 (UTC)