一文学会使用OpenCV构建文档扫描仪

2023-03-15 原文

介绍

在本文中，我们将使用 OpenCV 库来开发 Python 文档扫描器。

OpenCV 的简要概述： OpenCV 是一个开源库，用于各种计算机语言的图像处理，包括 Python、C 等。它可用于检测照片（例如使用人脸检测系统的人脸）。

要了解更多关于 OpenCV 的信息，你可以在此处参考他们的官方文档：https://pypi.org/project/opencv-python/

我们的软件应该能够正确对齐文档，检测捕获图像的边界，提升文档的质量，并最终提供更好的图像作为输出。本质上，我们将输入一个文档，即用相机拍摄的未经编辑的图像。OpenCV 将处理该图像。

我们的基本工作流程是：

形态学运算
边缘和轮廓检测
识别角点
转变视角

执行形态学操作

形态学：是一系列图像处理程序和算法，根据图像的高度和宽度来处理图片。最重要的是它们的大小，而不是它们的相对像素值排序。

kernel = np.ones((5,5),np.uint8)
img = cv2.morphologyEx(img, cv2.MORPH_CLOSE, kernel, iterations= 3)

我们可以使用morphologyEx() 函数执行操作。Morphology 中的“close”操作与Erosion相同，在此之前是Dilation过程。

我们将创建一个空白文档，因为在处理边缘时图片里的内容会妨碍你，我们不想冒险删除它们。

从捕获的图像中删除背景

照片中非我们拍摄对象的部分也必须删除。与裁剪图像类似，我们将只专注于维护图像所需的部分。可以使用GrabCut库。

GrabCut 在接收到输入图片及其边界后，剔除边界外的所有元素。

为了利用 GrabCut 来识别背景，我们还可以为用户提供手动设置文档边框的选项。

不过，目前，GrabCut 将能够通过从图像的每个角落取 20 个像素作为背景来自动识别前景。

mask = np.zeros(img.shape[:2],np.uint8)
bgdModel = np.zeros((1,65),np.float64)
fgdModel = np.zeros((1,65),np.float64)
rect = (20,20,img.shape[1]-20,img.shape[0]-20)
cv2.grabCut(img,mask,rect,bgdModel,fgdModel,5,cv2.GC_INIT_WITH_RECT)
mask2 = np.where((mask==2)|(mask==0),0,1).astype('uint8')
img = img*mask2[:,:,np.newaxis]

这里的“rect”变量表示我们愿意分离的边界。你可能会遇到部分背景进入线条内部的情况，但这是可以接受的。我们的目标是对象的任何部分都不应超出边界。

边缘和轮廓检测

我们目前拥有一份与原始文件大小相同的空白文件。同样，我们将进行边缘检测。我们将为此使用Canny函数。

为了清理文档的噪声，我们还使用了高斯模糊。

（注意：Canny 函数仅适用于灰度图像，因此如果图像尚不存在，则将图像转换为灰度）。

gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
gray = cv2.GaussianBlur(gray, (11, 11), 0)
# Edge Detection.
canny = cv2.Canny(gray, 0, 200)
canny = cv2.dilate(canny, cv2.getStructuringElement(cv2.MORPH_ELLIPSE, (5, 5)))

我们在最后一行放大了图像。

在此之后，我们可以继续进行轮廓检测：

我们只会记录最大的轮廓并在一个新的空白文档上进行交互。

gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
gray = cv2.GaussianBlur(gray, (11, 11), 0)
# Edge Detection.
canny = cv2.Canny(gray, 0, 200)
canny = cv2.dilate(canny, cv2.getStructuringElement(cv2.MORPH_ELLIPSE, (5, 5)))

识别角点

我们将使用已经注意到的四个角对齐纸张。使用“ Douglas-Peucker ”方法和approxPolyDp()函数。

con = np.zeros_like(img)
# Loop over the contours.
for c in page:
  # Approximate the contour.
  epsilon = 0.02 * cv2.arcLength(c, True)
  corners = cv2.approxPolyDP(c, epsilon, True)
  # If our approximated contour has four points
  if len(corners) == 4:
      break
cv2.drawContours(con, c, -1, (0, 255, 255), 3)
cv2.drawContours(con, corners, -1, (0, 255, 0), 10)
corners = sorted(np.concatenate(corners).tolist())
for index, c in enumerate(corners):
  character = chr(65   index)
  cv2.putText(con, character, tuple(c), cv2.FONT_HERSHEY_SIMPLEX, 1, (255, 0, 0), 1, cv2.LINE_AA)

标准化四点定位

def order_points(pts):
    rect = np.zeros((4, 2), dtype='float32')
    pts = np.array(pts)
    s = pts.sum(axis=1)
    rect[0] = pts[np.argmin(s)]
    rect[2] = pts[np.argmax(s)]
    diff = np.diff(pts, axis=1)
    rect[1] = pts[np.argmin(diff)]
    rect[3] = pts[np.argmax(diff)]
    return rect.astype('int').tolist()

寻找目的地坐标：

最后一组坐标可以改变图像的视角。如果从通常的视角以一定角度拍摄，这将很有帮助。

(tl, tr, br, bl) = pts
# Finding the maximum width.
widthA = np.sqrt(((br[0] - bl[0]) ** 2)   ((br[1] - bl[1]) ** 2))
widthB = np.sqrt(((tr[0] - tl[0]) ** 2)   ((tr[1] - tl[1]) ** 2))
maxWidth = max(int(widthA), int(widthB))
# Finding the maximum height.    
heightA = np.sqrt(((tr[0] - br[0]) ** 2)   ((tr[1] - br[1]) ** 2))
heightB = np.sqrt(((tl[0] - bl[0]) ** 2)   ((tl[1] - bl[1]) ** 2))
maxHeight = max(int(heightA), int(heightB))
# Final destination co-ordinates.
destination_corners = [[0, 0], [maxWidth, 0], [maxWidth, maxHeight], [0, maxHeight]]

透视变换

源照片的坐标现在必须与我们事先发现的目标坐标对齐。完成此阶段后，图像看起来就像是从纸张的正上方拍摄的一样。

# Getting the homography.
M = cv2.getPerspectiveTransform(np.float32(corners), np.float32(destination_corners))
final = cv2.warpPerspective(orig_img, M, (destination_corners[2][0], destination_corners[2][1]), flags=cv2.INTER_LINEAR)

现在很明显，以一定角度拍摄的图像现在已经被完美地扫描出来了。

测试观察

已经在许多不同方向的照片上测试了这些代码，你也可以这样做。在每个样例上，它都表现出色。

即使图像的背景是白色（即类似于页面本身颜色的颜色），GrabCut 也有效且清晰地定义了边界线。

结论

本教程教我们如何使用 OpenCV 快速轻松地创建文档扫描仪。

总结：

上传图片后，执行了：

生成与原始文件高度和宽度相同的空白文档的形态学操作

从图像中删除了背景。

检测到图像中的轮廓和边界。

检测到的图像角点，以矩形的形式

变换图像的透视图（如果有）

此文档扫描仪的一些限制： 即使文档的一部分在捕获时位于边界框架之外，该项目也应正常运行。但它也会导致不准确的透视变换。

广泛使用的文档扫描仪应用程序采用了几种深度学习算法，因为它们的结果更加彻底和准确。

到此这篇关于使用OpenCV构建文档扫描仪的文章就介绍到这了,更多相关OpenCV构建文档扫描仪内容请搜索Devmax以前的文章或继续浏览下面的相关文章希望大家以后多多支持Devmax！

一文学会使用OpenCV构建文档扫描仪的更多相关文章

iOS使用openCV检测来自摄像头的矩形

如果我在处理它之前克隆matimage,通过记录它,它似乎处理图像甚至找到矩形,但矩形不会被绘制到图像输出到imageView.我很确定我错过了一些东西,可能是因为我没有正确传递某个对象,指向对象的指针等等,而我需要修改的对象则没有.无论如何,如果这不是正确的方法,我真的很感谢他们做这样的事情的教程或例子,使用openCV或GPUImage…它不需要尝试使用matimage来设置imageView.image,而只需要将matimage转换为在imageView中实际修改,因为CvVideoCamera已
使用Xcode为OS X Lion / Mountain Lion编译OpenCV(2.3.1)

任何人都可以为我提供一些如何使用Xcode在OSXLion上编译OpenCV2.3.1的详细指南吗？我对此感到生气…我得到了源码,使用cmake创建Xcode模板并尝试构建它,但它失败了大约200个错误.提前致谢,大教堂解答我的回答帖子.解决方法详细指南如何使用MacPorts在Xcode4.2.1的OSXLion下启动和运行OpenCV2.3.1编辑08/06/2012：这也适用于OpenCV2.4.1.只需确保您获得最新版本的Xcode并安装“命令行工具”.编辑15/08/2012：使用Mountai
ios – OpenCV构建问题,找不到ext/atomicity.h

我得到编译器错误抱怨在构建包含OpenCV的项目时.环境是针对iOS的Xcode4.5.它为模拟器编译良好,但在为设备构建时失败.这是错误文本：我正在使用opencv2.framework,使用指令here构建cmake.解决方法默认情况下,XCode4.5使用libc(支持C11的LLVMC标准库)生成要构建的新项目.但OpenCV期望针对GNUlibstd
从IOS / iPad / iPhone的最大速度

我使用OpenCVforiOS完成计算密集型应用程序.当然这很慢.但它比我的PC原型慢了200倍.所以我正在优化它.从最初的15秒,我能够获得0.4秒的速度.我想知道我是否找到了所有的东西以及别人想要分享的东西.我做了什么：>将OpenCV中的“double”数据类型替换为“float”.双倍是64位,32位cpu不能轻易处理,所以浮动给了我一些速度.OpenCV经常使用双倍.>为编译器选项添加了
在Swift iOS中使用OpenCV

在我的xcode项目中添加OpenCV2框架后，我试图搜索samlpes或教程与swift集成。有什么好的教程同样吗？OpenCV是用C编写的框架。苹果的reference告诉我们YoucannotimportC++codedirectlyintoSwift.Instead,createanObjective-CorCwrapperforC++code.所以你不能在一个swift项目中直接导入和使用OpenCV，但这实际上并不坏，因为你(需要)继续使用框架的C语法，这是在网络上有很多文档。那么你怎么进行呢
android – 如何使连接到手机/平板电脑的USB指纹扫描仪成功运行？

我是最后一年的学生..计划为我的最后一年项目做一个Android应用程序.我计划为讲师做一个考勤管理系统应用程序,我计划将USB指纹扫描仪连接到安卓2.3版及更高版本的(讲师)android手机/平板电脑上……
在Android Studio中解决已弃用的NDK警告

或者除了添加所有已编译的代码并设置我之前提到的标志之外,还有其他方法可以将OpenCV导入Android项目吗？任何有关这方面的帮助将不胜感激.解决方法我建议迁移到使用cmake的本机支持.您可以查看链接,该链接提供了使用cmake通过以下link添加OpenCV的分步教程.您的代码应该保持不变而不做任何更改,只有必要的操作才能弄清楚如何使用CMakeLists.txt将它们包含在构建过程中.
android – opencv管理器包没找到？如何自动安装？

我正在使用openCV,每当我运行代码时它都会给我包管理器没有安装,那么如何通过我的应用程序安装它.是必须从Play商店下载它还是我们可以在设备中自动安装它.请帮我.提前致谢.解决方法您需要使用静态初始化来包含apk中的所有OpenCV二进制文件.请参阅此文档：ApplicationDevelopmentwithStaticInitialization
如何从Android相机中找到框架的轮廓并将其转换为box2d实体？

使用openframeworks,OpenCV和Box2D,我能够以良好的帧速率实现它.使用Android似乎是一项更复杂的任务(部分原因是我是JAVA新手).这就是我的开始：>使用“OpenCV示例–图像处理”并删除除“canny”效果之外的所有内容,这会产生一个漂亮的黑色&白色图像,非常适合找到轮廓.>从“OpenCVSample–color-blob-detection”中我抓住了在Mat中
在Android上的OpenCV中逐帧处理视频

如果是的话,你知道任何例子.>编译适用于Android的FFMPEG也是一种选择.但是,我认为自己编写FrameGrabber和FrameRecorder有点过分.我认为除了JavaCV之外,还必须存在一些解决方案.>从API18开始,Android中有MediaCodec和Mediamuxer.也许他们可以帮助我？

随机推荐

10 个Python中Pip的使用技巧分享

众所周知，pip 可以安装、更新、卸载 Python 的第三方库，非常方便。本文小编为大家总结了Python中Pip的使用技巧，需要的可以参考一下
python数学建模之三大模型与十大常用算法详情

这篇文章主要介绍了python数学建模之三大模型与十大常用算法详情，文章围绕主题展开详细的内容介绍，具有一定的参考价值，感想取得小伙伴可以参考一下
Python爬取奶茶店数据分析哪家最好喝以及性价比

这篇文章主要介绍了用Python告诉你奶茶哪家最好喝性价比最高，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习吧
使用pyinstaller打包.exe文件的详细教程

PyInstaller是一个跨平台的Python应用打包工具，能够把 Python 脚本及其所在的 Python 解释器打包成可执行文件,下面这篇文章主要给大家介绍了关于使用pyinstaller打包.exe文件的相关资料,需要的朋友可以参考下
基于Python实现射击小游戏的制作

这篇文章主要介绍了如何利用Python制作一个自己专属的第一人称射击小游戏，文中的示例代码讲解详细，感兴趣的小伙伴可以跟随小编一起动手试一试
Python list append方法之给列表追加元素

这篇文章主要介绍了Python list append方法如何给列表追加元素，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
Pytest+Request+Allure+Jenkins实现接口自动化

这篇文章介绍了Pytest+Request+Allure+Jenkins实现接口自动化的方法，文中通过示例代码介绍的非常详细。对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
利用python实现简单的情感分析实例教程

商品评论挖掘、电影推荐、股市预测……情感分析大有用武之地,下面这篇文章主要给大家介绍了关于利用python实现简单的情感分析的相关资料,文中通过示例代码介绍的非常详细,需要的朋友可以参考下
利用Python上传日志并监控告警的方法详解

这篇文章将详细为大家介绍如何通过阿里云日志服务搭建一套通过Python上传日志、配置日志告警的监控服务，感兴趣的小伙伴可以了解一下
Pycharm中运行程序在Python console中执行,不是直接Run问题

这篇文章主要介绍了Pycharm中运行程序在Python console中执行,不是直接Run问题，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教