python读word文档doc公文标题_python – 从word doc中提取标题文本
我試圖從MS Word文檔(.docx文件)中的標題(任何級別)中提取文本.目前我正在嘗試使用python-docx來解決,但不幸的是我仍然無法弄清楚它是否在閱讀之后是否可行(也許我錯了).
我試圖在線尋找解決方案,但沒有發現我的任務特定.如果有人可以在這里指導我,那將是很棒的.
解決方法:
基本挑戰是確定標題段落.就讀者而言,沒有什么可以阻止作者將“常規”段落格式化為(并作為)標題.
但是,作者可靠地使用樣式來創建標題并不罕見,因為這樣做可以自動將這些標題編譯成目錄.
在這種情況下,您可以迭代段落,并選擇具有其中一種標題樣式的段落.
def iter_headings(paragraphs):
for paragraph in paragraphs:
if paragraph.style.name.startswith('Heading'):
yield paragraph
for heading in iter_headings(document.paragraphs):
print heading.text
如果標題級別保持默認值(例如“標題1”,“標題2”,……),則可以從完整樣式名稱中解析標題級別.
如果作者已重命名標題樣式,則可能需要對其進行調整.
有更復雜的方法更可靠(就樣式名稱而言),但那些沒有API支持,所以你需要深入研究內部代碼并直接與我期望的某些樣式XML交互.
標簽:python-docx,python,parsing,text,ms-word
來源: https://codeday.me/bug/20190828/1755379.html
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的python读word文档doc公文标题_python – 从word doc中提取标题文本的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 360压缩如何加密?360压缩加密设置方
- 下一篇: dml语句包括哪些_MySQL数据操作(