【OCR】OCR前置工作——透视矫正,使用YOLOv8-pose分支在卡证文档图片上进行yolo关键点检测_卡证矫正-程序员宅基地

技术标签: YOLO  计算机视觉  图像处理  ocr  

一、说明

如题,我的工作很多与OCR有关,主要就是针对卡证文档等图片进行OCR推理,我发现很多时候需要识别的信息因为拍摄或者扫描问题,导致信息与图片不在同一个水平面上,然后就需要一个预处理——透视矫正。

这里我先推荐两个我用过的开源方法

1.1 百度网盘AI大赛——表格检测参赛者分享的模型

进去《百度网盘AI大赛——表格检测》,然后看排行榜,有些参赛者会分享训练好的模型。
说明:这些模型可能在自己数据上表现不是很好,因为用的很多都是合成图片训练的。

2.2 阿里达摩院读光-票证检测矫正模型

进去《读光-票证检测矫正模型》,然后按照介绍上的modelscope的本地推理方法使用就可以了。
说明:这个模型矫正效果明显好了不少,但是只是针对卡证边缘进行了矫正,有些信息如果在一页文档但是内容是弯曲的,还是矫正不到位,这样需要用到OpenCV的透视变换。

二、针对自己数据训练一个YOLO-Pose模型

因为卡证文档类型样式多样,不可能一个模型就可以通用所有场景,所以要想达到自己的要求,还是在垂类场景下微调模型吧。
YOLOv8-Pose属于TOP-Down方法,这个应该也属于两阶段的,其实就是先检测主体,然后在主体中检测关键点。可以参考《yolov8-pose关键点检测,从数据集制作到训练测试》
因为YOLOv8-Pose原本专门用于人体姿态估计的,需要标注一个主体检测框和17个人体关键点,而我想用在卡证文档上所需信息集中的区域作为主体,然后可以标注区域的四个角点或者再加上四个角点之间的中点,即八个点,这样就减少了不少功夫。

下面我是介绍标注四个角点的,八个角点其实也是差不多的方法。

2.1 标注

关于YOLO的关键点检测我建议是使用labelme来进行,因为除了要标注关键信息区域,还要进行4个关键点的标注,那么4个关键点的标注就不能单纯用矩形框来标注了,需要使用能标注点的标注工具。
在这里插入图片描述

这里我用一张网上找到户口本图片作为示例,需要标注的是:

  • box:关键信息区域主题,使用矩形框包围,要全部包围。
  • tl:左上角点(图上面是lr,输入错了)
  • tr:右上角点
  • br:右下角点
  • bl:左下角点
    在这里插入图片描述

标注完成后保存会生成一个与图片同名的JSON格式的标注文件,上面展示部分内容。

最后应该会得到多个标注文件,那么接下来需要把这些标注文件转换成yolo能够读取的文件。

在这里插入图片描述
一共17个数据,第一个数据是0,表示该目标的类别,即box;后面跟着的四个数据,表示矩形框的坐标;接下来的是4*3, 表示4个关键点的坐标及是否可见。
其中 0.00000 表示没有显露出不可见,1.00000 表示被遮挡不可见,2.00000 表示可见。这个按图片情况具体修改。

2.2 标注文件处理

那么从labelme生成的JSON标注文件怎么转成yolo支持的像上面的形式呢。
我是先转成coco形式再转为yolo形式的,因为之前也有按照了《百度网盘AI大赛——表格检测》中的方法训练了一下,这里的数据格式一般是coco形式的。
其中有些小细节就不具体说了,网上还是有很多labelme导出标注文件转coco形式的,上面发的yolov8-pose流程参考中也有这个。下面给个使用coco转yolo形式的。

# 生成点坐标
def convert(size, box):
    dw = 1. / (size[0])
    dh = 1. / (size[1])
    x = box[0] + box[2] / 2.0
    y = box[1] + box[3] / 2.0
    w = box[2]
    h = box[3]

    x = round(x * dw, 6)
    w = round(w * dw, 6)
    y = round(y * dh, 6)
    h = round(h * dh, 6)
    return (x, y, w, h)
    
# json_file:COCO Object Instance 类型的标注
# ana_txt_save_path:设置.txt文件保存位置

data = json.load(open(json_file, 'r'))
if not os.path.exists(ana_txt_save_path):
    os.makedirs(ana_txt_save_path)

id_map = {}  # coco数据集的id不连续,需要重新映射一下
with open(os.path.join(ana_txt_save_path, 'classes.txt'), 'w') as f:
    # 写入classes.txt,这个其实只有一个“box”标签
    for i, category in enumerate(data['categories']):
        f.write(category['name']+"\n")
        id_map[category['id']] = i
    
for img in tqdm(data['images']):
        filename = img["file_name"]   # 获取图片文件名
        img_width = img["width"]		  # 获取图片的宽
        img_height = img["height"]	  # 获取图片的高
        img_id = img["id"] 				  # 获取图片id
        
        # yolo标注文件对应图片的txt名字,与jpg一致
        head, tail = os.path.splitext(filename) 
        ana_txt_name = head + ".txt"  	
        
        f_txt = open(os.path.join(ana_txt_save_path, ana_txt_name), 'w')
        for ann in data['annotations']:
            if ann['image_id'] == img_id:
                box = convert((img_width, img_height), ann["box"])
                f_txt.write("%s %s %s %s %s" % (id_map[ann["category_id"]], box[0], box[1], box[2], box[3]))
                counter=0
                for i in range(len(ann["points"])):
                    if ann["points"][i] == 2 or ann["points"][i] == 1 or ann["points"][i] == 0:
                        f_txt.write(" %s " % format(ann["points"][i] + 1,'6f'))
                        counter=0
                    else:
                        if counter==0:
                            f_txt.write(" %s " % round((ann["points"][i] / img_width),6))
                        else:
                            f_txt.write(" %s " % round((ann["points"][i] / img_height),6))
                        counter+=1
        f_txt.write("\n")
        f_txt.close()

这样就生成yolo支持的关键点检测标注数据了。

三、训练YOLOv8-pose

yolov8的项目《ultralytics项目》

编辑提供YOLO读取的数据文件posedata.yaml,可以不设置标签文件路径,可以像我这样放,目录分别放图片和标签文件
在这里插入图片描述
下一级目录如下,其中标注目录记得放一个类别文件classes.txt,其中只有一类,即“box”
在这里插入图片描述
然后yolo读取的数据文件posedata.yaml内容如下:

train: ……/data/keypoint/images/train
val: ……/data/keypoint/images/val

# Keypoints
kpt_shape: [4, 3]  # number of keypoints, number of dims (2 for x,y or 3 for x,y,visible)
flip_idx: [1,0,3,2] # 图像翻转后原关键点的ID对应原标签id的位置,比如0和1对称,原位置为[0,1]那么翻转后[1,0]

names:
  0: box

训练的话其实就是预训练模型换成pose分支的,比如

from ultralytics import YOLO

model = YOLO('yolov8m-pose.yaml').load('yolov8m-pose.pt')
model.train(data="posedata.yaml", ……)

得到的模型就能对卡证文档图片进行关键点检测了。

四、使用yolo关键点检测模型实现图片的矫正

最后就是进行透视矫正了,使用OpenCV实现,把所需信息区域矫正成在同一水平面。

point_result = keypoint.inference(img)
if point_result.shape[1] == 17: # 为什么是17可以看看标注文件txt
    for i in point_result:
        bbox, lt, rt, rb, lb = list(i[0:5]), list(i[5:8]), list(i[8:11]), list(i[11:14]), list(i[14:])
    if bbox[-1] > 0.7:
        point = [lt[:-1], rt[:-1], rb[:-1], lb[:-1]]
            
p1 = np.array(point, dtype=np.float32)	# point是yolo-pose检测出来的4个关键点(x,y)坐标
p2 = np.array([左上坐标(x,y),右上坐标(x,y),右下坐标(x,y),左下坐标(x,y)], dtype=np.float32) # 这个看图片了,把检测的4个关键点拉到对应坐标
M = cv2.getPerspectiveTransform(p1,p2)
img = cv2.warpPerspective(img, M, (宽, 高), borderValue=(255, 255, 255))  # 将矩形图片映射为任意四边形
cv2.imwrite('test.jpg', img)

五、小结

对于ocr的前置工作之一的图片透视矫正就是这样完成,经过测试,这个效果还是可以的。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/wzz981/article/details/135374061

智能推荐

c# 调用c++ lib静态库_c#调用lib-程序员宅基地

文章浏览阅读2w次,点赞7次,收藏51次。四个步骤1.创建C++ Win32项目动态库dll 2.在Win32项目动态库中添加 外部依赖项 lib头文件和lib库3.导出C接口4.c#调用c++动态库开始你的表演...①创建一个空白的解决方案,在解决方案中添加 Visual C++ , Win32 项目空白解决方案的创建:添加Visual C++ , Win32 项目这......_c#调用lib

deepin/ubuntu安装苹方字体-程序员宅基地

文章浏览阅读4.6k次。苹方字体是苹果系统上的黑体,挺好看的。注重颜值的网站都会使用,例如知乎:font-family: -apple-system, BlinkMacSystemFont, Helvetica Neue, PingFang SC, Microsoft YaHei, Source Han Sans SC, Noto Sans CJK SC, W..._ubuntu pingfang

html表单常见操作汇总_html表单的处理程序有那些-程序员宅基地

文章浏览阅读159次。表单表单概述表单标签表单域按钮控件demo表单标签表单标签基本语法结构<form action="处理数据程序的url地址“ method=”get|post“ name="表单名称”></form><!--action,当提交表单时,向何处发送表单中的数据,地址可以是相对地址也可以是绝对地址--><!--method将表单中的数据传送给服务器处理,get方式直接显示在url地址中,数据可以被缓存,且长度有限制;而post方式数据隐藏传输,_html表单的处理程序有那些

PHP设置谷歌验证器(Google Authenticator)实现操作二步验证_php otp 验证器-程序员宅基地

文章浏览阅读1.2k次。使用说明:开启Google的登陆二步验证(即Google Authenticator服务)后用户登陆时需要输入额外由手机客户端生成的一次性密码。实现Google Authenticator功能需要服务器端和客户端的支持。服务器端负责密钥的生成、验证一次性密码是否正确。客户端记录密钥后生成一次性密码。下载谷歌验证类库文件放到项目合适位置(我这边放在项目Vender下面)https://github.com/PHPGangsta/GoogleAuthenticatorPHP代码示例://引入谷_php otp 验证器

【Python】matplotlib.plot画图横坐标混乱及间隔处理_matplotlib更改横轴间距-程序员宅基地

文章浏览阅读4.3k次,点赞5次,收藏11次。matplotlib.plot画图横坐标混乱及间隔处理_matplotlib更改横轴间距

docker — 容器存储_docker 保存容器-程序员宅基地

文章浏览阅读2.2k次。①Storage driver 处理各镜像层及容器层的处理细节,实现了多层数据的堆叠,为用户 提供了多层数据合并后的统一视图②所有 Storage driver 都使用可堆叠图像层和写时复制(CoW)策略③docker info 命令可查看当系统上的 storage driver主要用于测试目的,不建议用于生成环境。_docker 保存容器

随便推点

网络拓扑结构_网络拓扑csdn-程序员宅基地

文章浏览阅读834次,点赞27次,收藏13次。网络拓扑结构是指计算机网络中各组件(如计算机、服务器、打印机、路由器、交换机等设备)及其连接线路在物理布局或逻辑构型上的排列形式。这种布局不仅描述了设备间的实际物理连接方式,也决定了数据在网络中流动的路径和方式。不同的网络拓扑结构影响着网络的性能、可靠性、可扩展性及管理维护的难易程度。_网络拓扑csdn

JS重写Date函数,兼容IOS系统_date.prototype 将所有 ios-程序员宅基地

文章浏览阅读1.8k次,点赞5次,收藏8次。IOS系统Date的坑要创建一个指定时间的new Date对象时,通常的做法是:new Date("2020-09-21 11:11:00")这行代码在 PC 端和安卓端都是正常的,而在 iOS 端则会提示 Invalid Date 无效日期。在IOS年月日中间的横岗许换成斜杠,也就是new Date("2020/09/21 11:11:00")通常为了兼容IOS的这个坑,需要做一些额外的特殊处理,笔者在开发的时候经常会忘了兼容IOS系统。所以就想试着重写Date函数,一劳永逸,避免每次ne_date.prototype 将所有 ios

如何将EXCEL表导入plsql数据库中-程序员宅基地

文章浏览阅读5.3k次。方法一:用PLSQL Developer工具。 1 在PLSQL Developer的sql window里输入select * from test for update; 2 按F8执行 3 打开锁, 再按一下加号. 鼠标点到第一列的列头,使全列成选中状态,然后粘贴,最后commit提交即可。(前提..._excel导入pl/sql

Git常用命令速查手册-程序员宅基地

文章浏览阅读83次。Git常用命令速查手册1、初始化仓库git init2、将文件添加到仓库git add 文件名 # 将工作区的某个文件添加到暂存区 git add -u # 添加所有被tracked文件中被修改或删除的文件信息到暂存区,不处理untracked的文件git add -A # 添加所有被tracked文件中被修改或删除的文件信息到暂存区,包括untracked的文件...

分享119个ASP.NET源码总有一个是你想要的_千博二手车源码v2023 build 1120-程序员宅基地

文章浏览阅读202次。分享119个ASP.NET源码总有一个是你想要的_千博二手车源码v2023 build 1120

【C++缺省函数】 空类默认产生的6个类成员函数_空类默认产生哪些类成员函数-程序员宅基地

文章浏览阅读1.8k次。版权声明:转载请注明出处 http://blog.csdn.net/irean_lau。目录(?)[+]1、缺省构造函数。2、缺省拷贝构造函数。3、 缺省析构函数。4、缺省赋值运算符。5、缺省取址运算符。6、 缺省取址运算符 const。[cpp] view plain copy_空类默认产生哪些类成员函数

推荐文章

热门文章

相关标签