百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

一个识别率较高的OCR识别库

itomcoil 2025-08-01 17:47 2 浏览

最近在做图片识别时发现,python有好多方法可以做到,像pytesseract、paddle等,最后感觉pytesseract的速度比较快,但是中文特别是非印刷体的图片识别准确率较低,EasyOCR的准确率就较高,不过速度会慢一些(如果有牛逼的显卡还是很快的)。这里要介绍的是EasyOCR。

EasyOCR 是一个由 Jaided AI 开发的开源光学字符识别(OCR)库,基于 PyTorch 实现。它支持 80 多种语言 的文本识别,使用起来简单、易上手,适合快速集成到 Python 项目中。

主要特点

多语言支持:支持中文、英文、日文、韩文、阿拉伯语等 80+ 语言。

无需复杂预处理:可直接读取图像并输出文本结果。

深度学习驱动:基于 CNN + LSTM + CTC 的模型,准确率较高。

支持手写、打印体识别:兼容多种字体和图像质量。

安装方式

bash复制编辑pip install easyocr

简单使用示例

reader = easyocr.Reader(['ch_sim', 'en']) # 支持中文简体和英文

results = reader.readtext('example.jpg')

for bbox, text, confidence in results:

print(f"识别内容: {text}, 置信度: {confidence:.2f}")

# 或直接print(results[0][1])

在 EasyOCR 中,还可以通过 allowlist 参数来自定义识别时允许出现的字符集,从而提高精度、减少干扰。这在识别特定格式(如数字、车牌、验证码)时非常有用。

示例:仅允许识别数字和英文字母

python复制编辑import easyocr

reader = easyocr.Reader(['en']) # 语言可以是任意支持的results = reader.readtext(

'example.jpg',
allowlist='0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZ'

)

for bbox, text, confidence in results:

print(text, confidence)

示例:仅允许识别中文和数字

python复制编辑reader = easyocr.Reader(['ch_sim'])

results = reader.readtext(

'test.jpg',
allowlist='的一是在了不1234567890'

)

注意事项:

allowlist 是字符级别的过滤,不是词级别(不支持整词限制)。

它会在模型输出后做字符过滤,对模型识别本身无影响,但可提升后处理结果质量。

如果你还想屏蔽掉某些字符(如不要“/”等),也可以用 blocklist。

示例:配合 blocklist 使用

python复制编辑reader.readtext(

'img.jpg',
allowlist='ABC1234',
blocklist='0OQ' # 排除容易误识别的字符

)

依赖

torch(PyTorch)

opencv-python

numpy

scikit-image

相关推荐

C|经典实例理解算法之顺推、逆推、迭代、递归思想

递推算法可以不断利用已有的信息推导(迭代)出新的信息,在日常应用中有如下两种递推算法。①顺推法:从已知条件出发,逐步推算出要解决问题的方法。例如斐波那契数列就可以通过顺推法不断递推算出新的数据。②...

[西门子PLC] 博途编程之递归算法

首先跟大伙讲一讲哈,递归算法瞅着是挺优雅挺不错的,可实际上没啥大用,在真正的项目里能不用就别用递归,为啥呢?因为用了递归可能会惹出大麻烦,后面会给大伙举例讲讲原因。那啥叫递归呢?从名字上就能看出来,就...

SQL 也能递归?一文搞懂 Recursive CTE的魔力

很多人以为递归(Recursive)只属于编程语言,和SQL没什么关系。但其实SQL中也能实现递归操作,特别是在处理树结构、路径查找时,WITHRECURSIVE展现出强大威力。本文将带你...

10张动图学会python循环与递归

  一图胜千言!  循环难学?十张动图GIFS有助于认识循环、递归、二分检索等概念的具体运行情况。  本文代码实例以Python语言编写。  一、循环  GIF1:最简单的while循环  GIF...

C语言学习之-----(十三) 函数递归

(十三)函数递归一、栈在说函数递归的时候,顺便说一下栈的概念。栈是一个后进先出的压入(push)和弹出(pop)式数据结构。在程序运行时,系统每次向栈中压入一个对象,然后栈指针向下移动一个位置。当系...

Python自动化办公应用学习笔记19—— 循环控制:break 和 continue

在Python的循环结构中,break和continue是两个特殊的保留字,主要用于改变循环的执行流程。1.定义与核心作用break:立即终止当前循环,跳出整个循环体(仅限最内层循环)conti...

循环与递归的那些事
循环与递归的那些事

大家好,我是贠学文,点击右上方“关注”,每天为您分享java程序员需要掌握的知识点干货。在任何的编程语言中,循环和递归永远都是一个避不开的话题,因为在某些特定的场景下,用递归确实要比循环简单得多,比如说遍历文件夹目录等等,但是,递归也有下面...

2025-08-02 18:49 itomcoil

漫谈递归、迭代、循环——人理解迭代,神理解递归

后续计划好几天没有更新了,没有偷懒。随着源码的阅读,学习到了字典和集合的底层实现。字典这种数据结构的搜索效率很高,底层结构采用了效率优于红黑树的哈希表。红黑树是一种平衡二叉树,C++中的map和lin...

Excel递归与循环——货物分箱问题

递归指通过函数自身调用实现复杂计算,在Excel中多通过支持递归的函数(如LAMBDA)实现。第一,简化复杂逻辑表达:对于有明确递推关系的问题,递归能将多层嵌套的逻辑转化为简洁的自我调用形式,比手...

MongoDB入门之索引

索引就像书的目录,如果查找某内容在没有目录的帮助下,只能全篇查找翻阅,这导致效率非常的低下;如果在借助目录情况下,就能很快的定位具体内容所在区域,效率会直线提高。索引简介首先打开命令行,输入mongo...

MongoDB之集合管理一

最近的几篇博客都是关于MongoDB的,虽然个人感觉也没多少知识点,但没想到竟然有转载我的博客的,不管有经过我同意还是没经过我同意,说明写的应该还是有价值的,这也是我写博客的一个动力之一吧。上一博客学...

SpringBoot集成扩展-访问NoSQL数据库之Redis和MongoDB!

与关系型数据库一样,SpringBoot也提供了对NoSQL数据库的集成扩展,如对Redis和MongoDB等数据库的操作。通过默认配置即可使用RedisTemplate和MongoTemplate...

揭秘你不会画“信息结构图”的本质

编辑导语:产品信息结构图有助于清晰地展示产品信息,一定程度上可以为后台上传数据提供依据,但不少人可能觉得产品信息结构图很难,这可能是对数据库表结构不理解等因素导致的。本篇文章里,作者就产品信息结构图的...

MongoDB导入导出备份数据

要提前安装mongodb-database-tools参考:centos离线安装mongodb-database-tools导出数据常用的导出有两种:mongodump和mongoexport,两种方...

mongodb导入导出及备份

-------------------MongoDB数据导入与导出-------------------1、导出工具:mongoexport1、概念:mongoDB中的mongoexport...