跳转到内容

维基文库:光學字元辨識/测试

維基文庫，自由的圖書館

< Wikisource:光學字元辨識

（重定向自Wikisource:OCR/大规模OCR测试文件列表）

可将扫描文件分为几类，以下是示例页面和已经经过校对的结果，以用于测试（benchmarking）不同的OCR软件。注意，比较时结果应删除后期添加的标点和wikitext。

文件列表

#	类型	图片	示例
1	简体中文（现代印刷，横排）	1	1
2	简繁混合（现代印刷，横排）
3	繁体中文（现代印刷）	1	1
4	繁体中文，现代印刷，横排
5	繁体中文，现代印刷，竖排，标点在行外	1	1
6	繁体中文，现代印刷，竖排，标点在行内
7	繁体中文，古代活字印刷，竖排	1 2 3 4 5	1 2 3 4 5
8	繁体中文，古代雕版印刷，竖排	1 2 3 4	1 2 3 4
9	繁体中文，古代工整手写，竖排	1	1
10	繁体中文，古代草书，竖排

OCR软件测试

NDLOCR (ver.2.1)

2024-01-15

日本国立国会图书馆（国家图书馆级别）开发的OCR软件，已经公布。是为日语训练的，虽然也可以识别中文。识别率不如Google OCR，会将一些字体识别为日本汉字，无法识别行外标点。与Google OCR的比较：5.1 7.4。

古籍酷

2024-01-15

不支持识别任何标点，因此只能古文使用。古文识别率高于Google OCR。另外有自动加标点功能。分为学术版和工业版，后者针对开源项目有支持。与Google OCR的比较：5.1 7.4 9.1

Google OCR

2024-01-15

维基媒体基金会提供Google OCR api工具。Google OCR对于现代印刷的识别率很高。1.1 9.1

微信OCR

2024-01-15

微信软件自带离线OCR工具。测试发现，简体中文现代文本识别率高，但出现了一些图片中没有的文字：1.1。

微软 Onenote OCR

2024-01-15

识别率不及Google OCR：1.1。

检索自“https://zh.wikisource.org/w/index.php?title=Wikisource:光學字元辨識/测试&oldid=2356187”