Python利用pdfplumber实现读取PDF写入Excel

2023-04-18 原文

一、Python操作PDF 13大库对比

PDF（Portable Document Format）是一种便携文档格式，便于跨操作系统传播文档。PDF文档遵循标准格式，因此存在很多可以操作PDF文档的工具，Python自然也不例外。

Python操作PDF模块对比图如下：

本文主要介绍pdfplumber专注PDF内容提取，例如文本（位置、字体及颜色等）和形状（矩形、直线、曲线），还有解析表格的功能。

二、pdfplumber模块

其他几个 Python 库帮助用户从 PDF 中提取信息。作为一个广泛的概述，pdfplumber它通过结合以下功能将自己与其他 PDF 处理库区分开来：

轻松访问有关每个 PDF 对象的详细信息
用于提取文本和表格的更高级别、可自定义的方法
紧密集成的可视化调试
其他有用的实用功能，例如通过裁剪框过滤对象 1.

1.安装

cmd控制台输入：

pip install pdfplumber

导包：

import pdfplumber

案例PDF截图（两页未截全）：

2. 加载PDF

读取PDF代码：pdfplumber.open("路径/文件名.pdf", password = "test", laparams = { "line_overlap": 0.7 })

参数解读：

password ：要加载受密码保护的 PDF，请传递password关键字参数
laparams：要将布局分析参数设置为pdfminer.six的布局引擎，请传递laparams关键字参数

案例代码：

import pdfplumber

with pdfplumber.open("./1.pdf") as pdf:
    print(pdf)
    print(type(pdf))

输出结果：

<pdfplumber.pdf.PDF object at 0x000001A56C323DC0>
<class 'pdfplumber.pdf.PDF'>

3. pdfplumber.PDF类

pdfplumber.PDF类表示单个 PDF，并具有两个主要属性：

属性	说明
.metadata	从PDF的Info中获取元数据键 /值对字典。通常包括“ CreationDate”，“ ModDate”，“ Producer”等
.pages	返回一个包含pdfplumber.Page实例的列表，每一个实例代表PDF每一页的信息

1. 读取PDF文档信息（.metadata）：

import pdfplumber

with pdfplumber.open("./1.pdf") as pdf:
    print(pdf.metadata)

运行结果：

{'Author': 'wangwangyuqing', 'Comments': '', 'Company': '', 'CreationDate': "D:20220330113508 03'35'", 'Creator': 'WPS 文字', 'Keywords': '', 'ModDate': "D:20220330113508 03'35'", 'Producer': '', 'SourceModified': "D:20220330113508 03'35'", 'Subject': '', 'Title': '', 'Trapped': 'False'}

2. 输出总页数

import pdfplumber

with pdfplumber.open("./1.pdf") as pdf:
    print(len(pdf.pages))

运行结果：

2

4. pdfplumber.Page类

pdfplumber.Page类是pdfplumber整个的核心，大多数操作都围绕这个类进行操作，它具有以下几个属性：

属性	说明
.page_number	顺序页码，从1第一页开始，从第二页开始2，依此类推
.width	页面的宽度
.height	页面的高度
.objects/.chars/.lines/.rects/.curves/.figures/.images	这些属性中的每一个都是一个列表，每个列表包含一个字典，用于嵌入页面上的每个此类对象。有关详细信息，请参阅下面的“对象”

常用方法如下：

方法名	说明
.extract_text()	用来提页面中的文本，将页面的所有字符对象整理为的那个字符串
.extract_words()	返回的是所有的单词及其相关信息
.extract_tables()	提取页面的表格
.to_image()	用于可视化调试时，返回PageImage类的一个实例
.close()	默认情况下，Page对象缓存其布局和对象信息，以避免重新处理它。但是，在解析大型 PDF 时，这些缓存的属性可能需要大量内存。您可以使用此方法刷新缓存并释放内存

方法名说明.extract_text()用来提页面中的文本，将页面的所有字符对象整理为的那个字符串.extract_words()返回的是所有的单词及其相关信息.extract_tables()提取页面的表格.to_image() 用于可视化调试时，返回PageImage类的一个实例.close()默认情况下，Page对象缓存其布局和对象信息，以避免重新处理它。但是，在解析大型 PDF 时，这些缓存的属性可能需要大量内存。您可以使用此方法刷新缓存并释放内存。

1. 读取第一页宽度、高度等信息

import pdfplumber

with pdfplumber.open("./1.pdf") as pdf:
    first_page = pdf.pages[0]  # pdfplumber.Page对象的第一页
    # 查看页码
    print('页码：', first_page.page_number)
    # 查看页宽
    print('页宽：', first_page.width)
    # 查看页高
    print('页高：', first_page.height)

运行结果：

页码： 1
页宽： 595.3
页高： 841.9

2. 读取文本第一页

import pdfplumber

with pdfplumber.open("./1.pdf") as pdf:
    first_page = pdf.pages[0]  # pdfplumber.Page对象的第一页
    text = first_page.extract_text()
    print(text)

运行结果：

店铺名价格销量地址
小罐茶旗舰店 449 474 安徽
零趣食品旗舰店 6.9 60000 福建
天猫超市 1304 3961 上海
天猫超市 139 25000 上海
天猫超市 930 692 上海
天猫超市 980 495 上海
天猫超市 139 100000 上海
三只松鼠旗舰店 288 25000 安徽
红小厨旗舰店 698 1767 北京
三只松鼠旗舰店 690 15000 安徽
一统领鲜旗舰店 1098 1580 上海
新大猩食品专营
9.8 7000 湖南
.......
舰店
蟹纳旗舰店 498 1905 上海
三只松鼠坚果at茶 188 35000 安徽
嘉禹沪晓旗舰店 598 1517 上海

3. 读取表格第一页

import pdfplumber
import xlwt

with pdfplumber.open("1.pdf") as pdf:
    page_one = pdf.pages[0]  # PDF第一页
    table_1 = page_one.extract_table()  # 读取表格数据
    # 1. 创建Excel表对象
    workbook = xlwt.Workbook(encoding='utf8')
    # 2. 新建sheet表
    worksheet = workbook.add_sheet('Sheet1')
    # 3. 自定义列名
    col1 = table_1[0]
    # print(col1)# ['店铺名', '价格', '销量', '地址']
    # 4. 将列属性元组col写进sheet表单中第一行
    for i in range(0, len(col1)):
        worksheet.write(0, i, col1[i])
    # 5. 将数据写进sheet表单中
    for i in range(0, len(table_1[1:])):
        data = table_1[1:][i]
        for j in range(0, len(col1)):
            worksheet.write(i   1, j, data[j])
    # 6. 保存文件分两种格式
    workbook.save('test.xls')

运行结果：

三、实战操作

1. 提取单个PDF全部页数

测试代码：

import pdfplumber
import xlwt

with pdfplumber.open("1.pdf") as pdf:
    # 1. 把所有页的数据存在一个临时列表中
    item = []
    for page in pdf.pages:
        text = page.extract_table()
        for i in text:
            item.append(i)
    # 2. 创建Excel表对象
    workbook = xlwt.Workbook(encoding='utf8')
    # 3. 新建sheet表
    worksheet = workbook.add_sheet('Sheet1')
    # 4. 自定义列名
    col1 = item[0]
    # print(col1)# ['店铺名', '价格', '销量', '地址']
    # 5. 将列属性元组col写进sheet表单中第一行
    for i in range(0, len(col1)):
        worksheet.write(0, i, col1[i])
    # 6. 将数据写进sheet表单中
    for i in range(0, len(item[1:])):
        data = item[1:][i]
        for j in range(0, len(col1)):
            worksheet.write(i   1, j, data[j])
    # 7. 保存文件分两种格式
    workbook.save('test.xls')

运行结果（上面得没截全）：

2. 批量提取多个PDF文件

测试代码：

import pdfplumber
import xlwt
import os

# 一、获取文件下所有pdf文件路径
file_dir = r'E:\Python学习\pdf文件'
file_list = []
for files in os.walk(file_dir):
    # print(files)
    # ('E:\\Python学习\\pdf文件', [],
    #  ['1.pdf', '1的副本.pdf', '1的副本10.pdf', '1的副本11.pdf', '1的副本2.pdf', '1的副本3.pdf', '1的副本4.pdf', '1的副本5.pdf', '1的副本6.pdf',
    #   '1的副本7.pdf', '1的副本8.pdf', '1的副本9.pdf'])
    for file in files[2]:
        # 以. 进行分割如果后缀为PDF或pdf就拼接地址存入file_list
        if file.split(".")[1] == 'pdf' or file.split(".")[1] == 'PDF':
            file_list.append(file_dir   '\\'   file)

# 二、存入Excel
# 1. 把所有PDF文件的所有页的数据存在一个临时列表中
item = []
for file_path in file_list:
    with pdfplumber.open(file_path) as pdf:
        for page in pdf.pages:
            text = page.extract_table()
            for i in text:
                item.append(i)

# 2. 创建Excel表对象
workbook = xlwt.Workbook(encoding='utf8')
# 3. 新建sheet表
worksheet = workbook.add_sheet('Sheet1')
# 4. 自定义列名
col1 = item[0]
# print(col1)# ['店铺名', '价格', '销量', '地址']
# 5. 将列属性元组col写进sheet表单中第一行
for i in range(0, len(col1)):
    worksheet.write(0, i, col1[i])
# 6. 将数据写进sheet表单中
for i in range(0, len(item[1:])):
    data = item[1:][i]
    for j in range(0, len(col1)):
        worksheet.write(i   1, j, data[j])
# 7. 保存文件分两种格式
workbook.save('test.xls')

运行结果（12个文件，一个文件50行总共600行）：

以上就是Python利用pdfplumber实现读取PDF写入Excel的详细内容，更多关于Python pdfplumber读取PDF写入Excel的资料请关注Devmax其它相关文章！

Python利用pdfplumber实现读取PDF写入Excel的更多相关文章

基于JavaScript编写一个图片转PDF转换器

本文为大家介绍了一个简单的 JavaScript 项目，可以将图片转换为 PDF 文件。你可以从本地选择任何一张图片，只需点击一下即可将其转换为 PDF 文件，感兴趣的可以动手尝试一下
ios – 将PDF文件附加到电子邮件 – Swift

我想发送带有PDF附件的电子邮件.我创建了PDF文件,然后我做了以下哪些错误我相信：在发送电子邮件之前,我可以看到附带的chart.pdf,但是当我发送电子邮件时,它是在没有附件的情况下发送的,这是因为我没有正确附加文件.解决方法您将错误的mimeType传递给addAttachmentData().使用application/pdf而不是pdf.
xcode – 无法在iOS8beta5中使用UIWebView打开PDF文件

如果是,请提供一些示例代码.解决方法我找到了一种在WebView中查看PDF的解决方法
iOS从UIWebview内容创建pdf

哪个是从webview内容中获取最佳质量pdf文档的最佳选择？
ios – 在Swift中将图像合并为PDF

我想创建一个应用程序,要求用户从设备相机上传图片,然后使用swift将这些图像合并为PDF.怎么能实现这一目标？
我们可以在IOS应用程序的UIWebview中将条款和条件作为PDF加载吗？

我在UIWebview中向我的应用添加了条款和条件.我真正想知道的是,我可以将其显示为逐页的pdf文档,还是应该使用任何其他方法？App商店会接受pdf格式吗？解决方法是的,这可以使用UIWebview完成,肯定会被Apple接受.如果您尝试从WebURL显示PDF文件,请使用以下代码.或者,如果您的应用程序中捆绑了PDF文件,请使用以下代码.
ios – 通过UIDocumentInteractionController与Mail交互

我正在通过UIDocumentInteractionController与其他应用共享PDF.在添加此功能之前,我使用MFMailComposeViewController定制了“发送到电子邮件”按钮–但现在我的UIDocumentInteractionController中还有一个Mail按钮,我想使用它来避免重复按钮.我的问题是,通过旧的邮件控制器,我曾经设置主题和内容文本,而如果我使用UID
Quicklook / QLPreviewController,iOS 8的一些问题,但一切都适用于iOS 7.1

我正在使用QuickLook查看PDF文件.它在iOS7.1中正常工作,但iOS8GM会出现一些问题.图片比文字好,我想告诉你问题：iOS7.1Xcode6使用QuickLook进行转换页面滚动,navigationBar隐藏得很好————————————————–————————而现在,iOS8GM与Xcode6使用QuickLook进行转换…页面滚动,navigationBar不隐藏,页面指示器隐藏在NavigationBar后面与iPhone模拟器,iPad模拟器,iPhone设备和iPad设备相同
如何选择PDF中的文本行然后突出显示它们？ (IOS)

我不想使用FastPDFKit,因为它显示徽标并且需要花钱,或者UIWebView,因为它对我们可以用它做的事情非常有限,而且我想学习如何自己做这些:-)谢谢！
如何在iOS上生成带有“真实”文本内容的PDF？

我想在iOS6应用程序中生成一个好看的PDF.我试过了：>UIView在上下文中渲染>使用CoreText>使用NsstringdrawInRect>使用UILabeldrawRect这是一个代码示例：呈现的UIViews只包含UIImageView一堆UILabel.我还尝试了在stackoverflow上找到的建议：继承UILabel并执行此操作：但这也没有改变任何事情.无论我做什么,当在预览中打开PDF时,文本部分可以选择作为块,但不是每个字符的字符,并且缩放pdf显示它实际上是位图图像.有什么建议

随机推荐

10 个Python中Pip的使用技巧分享

众所周知，pip 可以安装、更新、卸载 Python 的第三方库，非常方便。本文小编为大家总结了Python中Pip的使用技巧，需要的可以参考一下
python数学建模之三大模型与十大常用算法详情

这篇文章主要介绍了python数学建模之三大模型与十大常用算法详情，文章围绕主题展开详细的内容介绍，具有一定的参考价值，感想取得小伙伴可以参考一下
Python爬取奶茶店数据分析哪家最好喝以及性价比

这篇文章主要介绍了用Python告诉你奶茶哪家最好喝性价比最高，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习吧
使用pyinstaller打包.exe文件的详细教程

PyInstaller是一个跨平台的Python应用打包工具，能够把 Python 脚本及其所在的 Python 解释器打包成可执行文件,下面这篇文章主要给大家介绍了关于使用pyinstaller打包.exe文件的相关资料,需要的朋友可以参考下
基于Python实现射击小游戏的制作

这篇文章主要介绍了如何利用Python制作一个自己专属的第一人称射击小游戏，文中的示例代码讲解详细，感兴趣的小伙伴可以跟随小编一起动手试一试
Python list append方法之给列表追加元素

这篇文章主要介绍了Python list append方法如何给列表追加元素，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
Pytest+Request+Allure+Jenkins实现接口自动化

这篇文章介绍了Pytest+Request+Allure+Jenkins实现接口自动化的方法，文中通过示例代码介绍的非常详细。对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
利用python实现简单的情感分析实例教程

商品评论挖掘、电影推荐、股市预测……情感分析大有用武之地,下面这篇文章主要给大家介绍了关于利用python实现简单的情感分析的相关资料,文中通过示例代码介绍的非常详细,需要的朋友可以参考下
利用Python上传日志并监控告警的方法详解

这篇文章将详细为大家介绍如何通过阿里云日志服务搭建一套通过Python上传日志、配置日志告警的监控服务，感兴趣的小伙伴可以了解一下
Pycharm中运行程序在Python console中执行,不是直接Run问题

这篇文章主要介绍了Pycharm中运行程序在Python console中执行,不是直接Run问题，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教