【OCR】OCR前置工作——透视矫正，使用YOLOv8-pose分支在卡证文档图片上进行yolo关键点检测_卡证矫正-程序员宅基地

一、说明

如题，我的工作很多与OCR有关，主要就是针对卡证文档等图片进行OCR推理，我发现很多时候需要识别的信息因为拍摄或者扫描问题，导致信息与图片不在同一个水平面上，然后就需要一个预处理——透视矫正。

这里我先推荐两个我用过的开源方法

1.1 百度网盘AI大赛——表格检测参赛者分享的模型

进去《百度网盘AI大赛——表格检测》，然后看排行榜，有些参赛者会分享训练好的模型。
说明：这些模型可能在自己数据上表现不是很好，因为用的很多都是合成图片训练的。

2.2 阿里达摩院读光-票证检测矫正模型

进去《读光-票证检测矫正模型》，然后按照介绍上的modelscope的本地推理方法使用就可以了。
说明：这个模型矫正效果明显好了不少，但是只是针对卡证边缘进行了矫正，有些信息如果在一页文档但是内容是弯曲的，还是矫正不到位，这样需要用到OpenCV的透视变换。

二、针对自己数据训练一个YOLO-Pose模型

因为卡证文档类型样式多样，不可能一个模型就可以通用所有场景，所以要想达到自己的要求，还是在垂类场景下微调模型吧。
YOLOv8-Pose属于TOP-Down方法，这个应该也属于两阶段的，其实就是先检测主体，然后在主体中检测关键点。可以参考《yolov8-pose关键点检测，从数据集制作到训练测试》
因为YOLOv8-Pose原本专门用于人体姿态估计的，需要标注一个主体检测框和17个人体关键点，而我想用在卡证文档上所需信息集中的区域作为主体，然后可以标注区域的四个角点或者再加上四个角点之间的中点，即八个点，这样就减少了不少功夫。

下面我是介绍标注四个角点的，八个角点其实也是差不多的方法。

2.1 标注

关于YOLO的关键点检测我建议是使用labelme来进行，因为除了要标注关键信息区域，还要进行4个关键点的标注，那么4个关键点的标注就不能单纯用矩形框来标注了，需要使用能标注点的标注工具。
在这里插入图片描述

这里我用一张网上找到户口本图片作为示例，需要标注的是：

box：关键信息区域主题，使用矩形框包围，要全部包围。
tl：左上角点（图上面是lr，输入错了）
tr：右上角点
br：右下角点
bl：左下角点

标注完成后保存会生成一个与图片同名的JSON格式的标注文件，上面展示部分内容。

最后应该会得到多个标注文件，那么接下来需要把这些标注文件转换成yolo能够读取的文件。

在这里插入图片描述
一共17个数据，第一个数据是0，表示该目标的类别，即box；后面跟着的四个数据，表示矩形框的坐标；接下来的是4*3，表示4个关键点的坐标及是否可见。
其中 0.00000 表示没有显露出不可见，1.00000 表示被遮挡不可见，2.00000 表示可见。这个按图片情况具体修改。

2.2 标注文件处理

那么从labelme生成的JSON标注文件怎么转成yolo支持的像上面的形式呢。
我是先转成coco形式再转为yolo形式的，因为之前也有按照了《百度网盘AI大赛——表格检测》中的方法训练了一下，这里的数据格式一般是coco形式的。
其中有些小细节就不具体说了，网上还是有很多labelme导出标注文件转coco形式的，上面发的yolov8-pose流程参考中也有这个。下面给个使用coco转yolo形式的。

# 生成点坐标
def convert(size, box):
    dw = 1. / (size[0])
    dh = 1. / (size[1])
    x = box[0] + box[2] / 2.0
    y = box[1] + box[3] / 2.0
    w = box[2]
    h = box[3]

    x = round(x * dw, 6)
    w = round(w * dw, 6)
    y = round(y * dh, 6)
    h = round(h * dh, 6)
    return (x, y, w, h)
    
# json_file：COCO Object Instance 类型的标注
# ana_txt_save_path：设置.txt文件保存位置

data = json.load(open(json_file, 'r'))
if not os.path.exists(ana_txt_save_path):
    os.makedirs(ana_txt_save_path)

id_map = {}  # coco数据集的id不连续，需要重新映射一下
with open(os.path.join(ana_txt_save_path, 'classes.txt'), 'w') as f:
    # 写入classes.txt，这个其实只有一个“box”标签
    for i, category in enumerate(data['categories']):
        f.write(category['name']+"\n")
        id_map[category['id']] = i
    
for img in tqdm(data['images']):
        filename = img["file_name"]   # 获取图片文件名
        img_width = img["width"]		  # 获取图片的宽
        img_height = img["height"]	  # 获取图片的高
        img_id = img["id"] 				  # 获取图片id
        
        # yolo标注文件对应图片的txt名字，与jpg一致
        head, tail = os.path.splitext(filename) 
        ana_txt_name = head + ".txt"  	
        
        f_txt = open(os.path.join(ana_txt_save_path, ana_txt_name), 'w')
        for ann in data['annotations']:
            if ann['image_id'] == img_id:
                box = convert((img_width, img_height), ann["box"])
                f_txt.write("%s %s %s %s %s" % (id_map[ann["category_id"]], box[0], box[1], box[2], box[3]))
                counter=0
                for i in range(len(ann["points"])):
                    if ann["points"][i] == 2 or ann["points"][i] == 1 or ann["points"][i] == 0:
                        f_txt.write(" %s " % format(ann["points"][i] + 1,'6f'))
                        counter=0
                    else:
                        if counter==0:
                            f_txt.write(" %s " % round((ann["points"][i] / img_width),6))
                        else:
                            f_txt.write(" %s " % round((ann["points"][i] / img_height),6))
                        counter+=1
        f_txt.write("\n")
        f_txt.close()

这样就生成yolo支持的关键点检测标注数据了。

三、训练YOLOv8-pose

yolov8的项目《ultralytics项目》

编辑提供YOLO读取的数据文件posedata.yaml，可以不设置标签文件路径，可以像我这样放，目录分别放图片和标签文件
在这里插入图片描述
下一级目录如下，其中标注目录记得放一个类别文件classes.txt，其中只有一类，即“box”

然后yolo读取的数据文件posedata.yaml内容如下：

train: ……/data/keypoint/images/train
val: ……/data/keypoint/images/val

# Keypoints
kpt_shape: [4, 3]  # number of keypoints, number of dims (2 for x,y or 3 for x,y,visible)
flip_idx: [1,0,3,2] # 图像翻转后原关键点的ID对应原标签id的位置，比如0和1对称，原位置为[0,1]那么翻转后[1,0]

names:
  0: box

训练的话其实就是预训练模型换成pose分支的，比如

from ultralytics import YOLO

model = YOLO('yolov8m-pose.yaml').load('yolov8m-pose.pt')
model.train(data="posedata.yaml", ……)

得到的模型就能对卡证文档图片进行关键点检测了。

四、使用yolo关键点检测模型实现图片的矫正

最后就是进行透视矫正了，使用OpenCV实现，把所需信息区域矫正成在同一水平面。

point_result = keypoint.inference(img)
if point_result.shape[1] == 17: # 为什么是17可以看看标注文件txt
    for i in point_result:
        bbox, lt, rt, rb, lb = list(i[0:5]), list(i[5:8]), list(i[8:11]), list(i[11:14]), list(i[14:])
    if bbox[-1] > 0.7:
        point = [lt[:-1], rt[:-1], rb[:-1], lb[:-1]]
            
p1 = np.array(point, dtype=np.float32)	# point是yolo-pose检测出来的4个关键点(x,y)坐标
p2 = np.array([左上坐标(x,y)，右上坐标(x,y)，右下坐标(x,y)，左下坐标(x,y)], dtype=np.float32) # 这个看图片了，把检测的4个关键点拉到对应坐标
M = cv2.getPerspectiveTransform(p1,p2)
img = cv2.warpPerspective(img, M, (宽, 高), borderValue=(255, 255, 255))  # 将矩形图片映射为任意四边形
cv2.imwrite('test.jpg', img)

五、小结

对于ocr的前置工作之一的图片透视矫正就是这样完成，经过测试，这个效果还是可以的。

本文链接：https://blog.csdn.net/wzz981/article/details/135374061

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

c# 调用c++ lib静态库_c#调用lib-程序员宅基地

文章浏览阅读2w次，点赞7次，收藏51次。四个步骤1.创建C++ Win32项目动态库dll 2.在Win32项目动态库中添加外部依赖项 lib头文件和lib库3.导出C接口4.c#调用c++动态库开始你的表演...①创建一个空白的解决方案，在解决方案中添加 Visual C++ , Win32 项目空白解决方案的创建：添加Visual C++ , Win32 项目这......_c#调用lib

deepin/ubuntu安装苹方字体-程序员宅基地

文章浏览阅读4.6k次。苹方字体是苹果系统上的黑体，挺好看的。注重颜值的网站都会使用，例如知乎：font-family: -apple-system, BlinkMacSystemFont, Helvetica Neue, PingFang SC, Microsoft YaHei, Source Han Sans SC, Noto Sans CJK SC, W..._ubuntu pingfang

html表单常见操作汇总_html表单的处理程序有那些-程序员宅基地

文章浏览阅读159次。表单表单概述表单标签表单域按钮控件demo表单标签表单标签基本语法结构<form action="处理数据程序的url地址“ method=”get|post“ name="表单名称”></form><!--method将表单中的数据传送给服务器处理，get方式直接显示在url地址中，数据可以被缓存，且长度有限制；而post方式数据隐藏传输，_html表单的处理程序有那些

PHP设置谷歌验证器（Google Authenticator）实现操作二步验证_php otp 验证器-程序员宅基地

文章浏览阅读1.2k次。使用说明:开启Google的登陆二步验证（即Google Authenticator服务）后用户登陆时需要输入额外由手机客户端生成的一次性密码。实现Google Authenticator功能需要服务器端和客户端的支持。服务器端负责密钥的生成、验证一次性密码是否正确。客户端记录密钥后生成一次性密码。下载谷歌验证类库文件放到项目合适位置(我这边放在项目Vender下面)https://github.com/PHPGangsta/GoogleAuthenticatorPHP代码示例://引入谷_php otp 验证器

【Python】matplotlib.plot画图横坐标混乱及间隔处理_matplotlib更改横轴间距-程序员宅基地

文章浏览阅读4.3k次，点赞5次，收藏11次。matplotlib.plot画图横坐标混乱及间隔处理_matplotlib更改横轴间距

docker — 容器存储_docker 保存容器-程序员宅基地

文章浏览阅读2.2k次。①Storage driver 处理各镜像层及容器层的处理细节，实现了多层数据的堆叠，为用户提供了多层数据合并后的统一视图②所有 Storage driver 都使用可堆叠图像层和写时复制（CoW）策略③docker info 命令可查看当系统上的 storage driver主要用于测试目的，不建议用于生成环境。_docker 保存容器

随便推点

网络拓扑结构_网络拓扑csdn-程序员宅基地

文章浏览阅读834次，点赞27次，收藏13次。网络拓扑结构是指计算机网络中各组件（如计算机、服务器、打印机、路由器、交换机等设备）及其连接线路在物理布局或逻辑构型上的排列形式。这种布局不仅描述了设备间的实际物理连接方式，也决定了数据在网络中流动的路径和方式。不同的网络拓扑结构影响着网络的性能、可靠性、可扩展性及管理维护的难易程度。_网络拓扑csdn

JS重写Date函数，兼容IOS系统_date.prototype 将所有 ios-程序员宅基地

文章浏览阅读1.8k次，点赞5次，收藏8次。IOS系统Date的坑要创建一个指定时间的new Date对象时，通常的做法是：new Date("2020-09-21 11:11:00")这行代码在 PC 端和安卓端都是正常的，而在 iOS 端则会提示 Invalid Date 无效日期。在IOS年月日中间的横岗许换成斜杠，也就是new Date("2020/09/21 11:11:00")通常为了兼容IOS的这个坑，需要做一些额外的特殊处理，笔者在开发的时候经常会忘了兼容IOS系统。所以就想试着重写Date函数，一劳永逸，避免每次ne_date.prototype 将所有 ios