huabei
/
read_pdf_plt


			
				
					
						
						
							1234567891011121314151617181920212223242526
							import PyPDF2
import pdfplumber
pdf_path = 'D:/mydocument/myproject/git/busscredit/闻海雁532329198801060347.pdf'

def extract_content(pdf_path):
    # 内容提取，使用 pdfplumber 打开 PDF，用于提取文本
    with pdfplumber.open(pdf_path) as pdf_file:
        # 使用 PyPDF2 打开 PDF 用于提取图片
        pdf_image_reader = PyPDF2.PdfFileReader(open(pdf_path, "rb"))
        print(pdf_image_reader.getNumPages())

        content = ''
        # len(pdf.pages)为PDF文档页数，一页页解析
        for i in range(len(pdf_file.pages)):
            print("当前第 %s 页" % i)
            # pdf.pages[i] 是读取PDF文档第i+1页
            page_text = pdf_file.pages[i]
            # page.extract_text()函数即读取文本内容
            page_content = page_text.extract_text()
            if page_content:
                content = content + page_content + "\n"
                if(page_content.find("2020年01月—2020年02月的还款记录"))>=0:
                    i=0;

                print(page_content)
extract_content(pdf_path);