python简历数据提取_如何使用pyPDF2从PDF格式的多页简历中提取文本数据?
我從PDF格式的多頁(yè)簡(jiǎn)歷中提取文本內(nèi)容,并嘗試使用pyPDF2將內(nèi)容寫入文本文件。但是我在嘗試寫內(nèi)容時(shí)收到了以下錯(cuò)誤消息。在
這是我的代碼:import PyPDF2
newFile = open('details.txt', 'w')
file = open("cv3.pdf", 'rb')
pdfreader = PyPDF2.PdfFileReader(file)
numPages = pdfreader.getNumPages()
print(numPages)
page_content = ""
for page_number in range(numPages):
page = pdfreader.getPage(page_number)
page_content += page.extractText()
newFile.write(page_content)
print(page_content)
file.close()
newFile.close()
錯(cuò)誤消息:Traceback (most recent call last): File
"C:/Users/HP/PycharmProjects/CVParser/pdf.py", line 16, in
newFile.write(page_content) File "C:\Program Files\Python37\lib\encodings\cp1252.py", line 19, in encode
return codecs.charmap_encode(input,self.errors,encoding_table)[0] UnicodeEncodeError: 'charmap' codec can't encode character '\u0141' in
position 827: character maps to
Process finished with exit code 1
這段代碼成功地處理了具有多個(gè)頁(yè)面的PDF文件(docx文件轉(zhuǎn)換為PDF)。在
如果有人知道解決辦法,請(qǐng)幫幫我。在
總結(jié)
以上是生活随笔為你收集整理的python简历数据提取_如何使用pyPDF2从PDF格式的多页简历中提取文本数据?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 单链表的逆序java_java 实现单链
- 下一篇: java logic_java logi