页,它的页码分别是 42、43 和 44,要取得这个文档的第一页,需要调用 pdfReader.getPage(0),而不是 getPage(42)或getPage(1)。 在取得 Page 对象后,调用它的extractText()方法,返回该页文本的字符串➌。文本提取并不完美:该PDF 中的文本Charles E.“Chas”Roemer, President,在函数返回的字符串中消失了,...
for pg_idx in range(0, Pdf_File.getNumPages()): page_Content = Pdf_File.getPage(pg_idx).extractText() for line in page_Content.split("\n"): self.Analyse_Line(line) 将错误抛出在extractText()行。
pageObj = pdf.getPage(i) extractedText = pageObj.extractText() content += extractedText + "\n" # return content.encode("ascii", "ignore") return content' 运行 4:The PdfFileWriter Class: 此类支持将PDF文件写出,给定由另一类产生的页面(通常为PdfFileReader) D = PyPDF2.PdfFileWriter() 其中...
page_one_text = page_one.extractText() #Finally the extractText() extracts the the texts in a text format of page 1. 如果你运行上述代码并希望查看page_one_text变量包含的内容,你将发现以下输出。 3.向pdf添加文本 我们无法使用Python编写PDF,因为Python的单字符串类型与PDF可能具有的各种字体、位置和...
print(page.extractText()) page的extractText()方法,可以提取出页面中的文字 pdfFile.close() 最后,关闭打开的example.pdf 注意:虽然PDF文件非常适合以一种便于打印和阅读的方式显示文本,但是对于软件来说,将其解析为纯文本并不容易。因此,PyPDF2在从PDF中提取文本时可能会出错,甚至可能根本无法打开某些PDF。不幸...
for page_num in range(num_pages): page = pdf_reader.getPage(page_num) text = page.extractText() new_text = text.replace('old_text', 'new_text') page.mergePage(new_text) pdf_writer.addPage(page) 这里的'old_text'是要替换的文本,'new_text'是替换后的文本。 保存修改后的PDF文件: 代...
pdfFileObj) print(pdfReader.numPages) pageObj = pdfReader.getPage(0) print(pageObj.extractText...
一、正常的情形: >>>importPyPDF2>>>pdfFileObj=open('meetingminutes.pdf','rb')>>>pdfReader=PyPDF2.PdfFileReader(pdfFileObj)>>>pdfReader.numPages19>>>pageObj=pdfReader.getPage(0)>>>pageObj.extractText()'OOFFFFIICCIIAALL BBOOAARRDD MMIINNUUTTEESS Meeting of \nMarch 7\n, 2014\n \n...
pdfReader#<PyPDF2.pdf.PdfFileReader at 0x10afe1cf8>#返回总页码数pdfReader.numPages#获取指定页面对象page = pdfReader.getPage(0)#提取出页面中的文字page.extractText() PDF的写入操作 将一个完整pdf拆分成两个单独的pdf文件进行保存,且去除不想要的指定页面 ...
print(page.extractText()) pdfFile.close() 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 在我的机子上输出如下: 241 Copyright © 201 7 by OriginLab Corporation All rights reserved. No part of the contents of this book may be reproduced or ...