700字范文 > 端到端OCR-ABCNet论文笔记

端到端OCR-ABCNet论文笔记

时间：2020-05-04 18:58:47

相关推荐

端到端OCR-ABCNet论文笔记

为了准确地定位图像中面向的和弯曲的场景文本，首次引入了一种新的使用Bezier曲线的弯曲场景文本的简洁参数表示。它介绍了与标准的边界框表示相比，其计算开销可以忽略不计。

网络结构

网络结构示意图如下，

检测head在feature map之后，包含了4个stride=1，padding=1的3*3卷积核。

贝塞尔曲线

论文使用贝塞尔曲线来拟合检测框的边界，贝塞尔曲线简介可以参考：/p/0c9b4b681724

论文基于三次贝塞尔曲线，将任意形状的场景文本检测简化为一个共包含8个控制点的bbox。贝塞尔曲线的数学公式如下：

GT生成

论文使用最小二乘法来生成GT。m代表曲线边界的标注点数量。

BezierAlign

论文提出了用于特征采样的BezierAlign。BezierAlign是从RoIAlign扩展而来的。Bezier的目的是在弯曲检测区域上对像素点进行采样，或者说，将弯曲特征图还原成矩形的特征图，从而能够送入CTC识别模型。

矩形特征图的尺寸为wout∗houtw_{out}*h_{out}wout∗hout，gi=(giw,gih)g_i=(g_iw, g_ih)gi=(giw,gih)是特征图上的像素点，需要用弯曲检测区域上的像素值来填充。bpbpbp和tptptp分别为贝塞尔曲线的上下边界，因此每个采样点opopop就可以用以下公示计算出来。利用op的位置，可以很容易地应用双线性插值来计算结果。

之前的采样方法与BezierAlign的比较如图所示：

识别

ABCNet的识别部分是一个简单的CRNN+CTC，识别模型的网络结构如下：

识别的loss是CTCloss，论文好像没有给出检测loss的公式，以及检测和识别loss是如何组合的，二者之间的权重。

实验

使用resnet50作为主干网络，使用FPN提取特征。

预训练数据集为coco-text，ICDAR-MLT。与其他算法的对比如下：

弯曲文本数据集为CTW-1500。在弯曲文本数据集上的结果如下：

文章中使用的数据集都是英文数据集，所以无法确认是否适用于中文数据集。

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。