打开PDF文件
pdf_file=打开(文件,'rb')
创建PDF阅读器对象
pdf_reader=PyPDF2.PdfFileReader(pdf_file)
获取PDF文件中的页数
pages=pdf_reader.numPages
初始化变量以存储提取的文本
文本=“”
循环浏览每一页
for page in range(pages):#获取当前页面pdf_page=pdf_reader.getPage(page)
# Extract the text from the page page_text = pdf_page.extractText() # If the page contains text, add it to the overall text if page_text: text += page_text
关闭PDF文件
pdf_file.close()
打印提取的文本
打印(文本)
**错误:**TypeError:“NumberObject”对象不可下标
尝试将pdf阅读器从WPF更改为Adobe Acrobat XI