700字范文,内容丰富有趣,生活中的好帮手!
700字范文 > 端到端OCR-ABCNet论文笔记

端到端OCR-ABCNet论文笔记

时间:2020-05-04 18:58:47

相关推荐

端到端OCR-ABCNet论文笔记

为了准确地定位图像中面向的和弯曲的场景文本,首次引入了一种新的使用Bezier曲线的弯曲场景文本的简洁参数表示。它介绍了 与标准的边界框表示相比,其计算开销可以忽略不计。

网络结构

网络结构示意图如下,

检测head在feature map之后,包含了4个stride=1,padding=1的3*3卷积核。

贝塞尔曲线

论文使用贝塞尔曲线来拟合检测框的边界,贝塞尔曲线简介可以参考:/p/0c9b4b681724

论文基于三次贝塞尔曲线,将任意形状的场景文本检测简化为一个共包含8个控制点的bbox。贝塞尔曲线的数学公式如下:

GT生成

论文使用最小二乘法来生成GT。m代表曲线边界的标注点数量。

BezierAlign

论文提出了用于特征采样的BezierAlign。BezierAlign是从RoIAlign扩展而来的。Bezier的目的是在弯曲检测区域上对像素点进行采样,或者说,将弯曲特征图还原成矩形的特征图,从而能够送入CTC识别模型。

矩形特征图的尺寸为wout∗houtw_{out}*h_{out}wout​∗hout​,gi=(giw,gih)g_i=(g_iw, g_ih)gi​=(gi​w,gi​h)是特征图上的像素点,需要用弯曲检测区域上的像素值来填充。bpbpbp和tptptp分别为贝塞尔曲线的上下边界,因此每个采样点opopop就可以用以下公示计算出来。利用op的位置,可以很容易地应用双线性插值来计算结果。

之前的采样方法与BezierAlign的比较如图所示:

识别

ABCNet的识别部分是一个简单的CRNN+CTC,识别模型的网络结构如下:

识别的loss是CTCloss,论文好像没有给出检测loss的公式,以及检测和识别loss是如何组合的,二者之间的权重。

实验

使用resnet50作为主干网络,使用FPN提取特征。

预训练数据集为coco-text,ICDAR-MLT。与其他算法的对比如下:

弯曲文本数据集为CTW-1500。在弯曲文本数据集上的结果如下:

文章中使用的数据集都是英文数据集,所以无法确认是否适用于中文数据集。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。