pypdf2test.py 1.1 KB

1234567891011121314151617181920212223242526
  1. import PyPDF2
  2. import pdfplumber
  3. pdf_path = 'D:/mydocument/myproject/git/busscredit/闻海雁532329198801060347.pdf'
  4. def extract_content(pdf_path):
  5. # 内容提取,使用 pdfplumber 打开 PDF,用于提取文本
  6. with pdfplumber.open(pdf_path) as pdf_file:
  7. # 使用 PyPDF2 打开 PDF 用于提取图片
  8. pdf_image_reader = PyPDF2.PdfFileReader(open(pdf_path, "rb"))
  9. print(pdf_image_reader.getNumPages())
  10. content = ''
  11. # len(pdf.pages)为PDF文档页数,一页页解析
  12. for i in range(len(pdf_file.pages)):
  13. print("当前第 %s 页" % i)
  14. # pdf.pages[i] 是读取PDF文档第i+1页
  15. page_text = pdf_file.pages[i]
  16. # page.extract_text()函数即读取文本内容
  17. page_content = page_text.extract_text()
  18. if page_content:
  19. content = content + page_content + "\n"
  20. if(page_content.find("2020年01月—2020年02月的还款记录"))>=0:
  21. i=0;
  22. print(page_content)
  23. extract_content(pdf_path);