python删除txt指定内容_使用Python删除文本文件中的部分内容 | 学步园
為了學(xué)習(xí)英語,我把從網(wǎng)上下載下來的電影轉(zhuǎn)換成純MP3文件,放到iTouch里去了,這樣就可以直接練習(xí)聽力了,另外把下載下來的字幕也放進(jìn)去,聽不懂的時(shí)候可以看,但有一個(gè)問題,網(wǎng)上載下來的字幕格式都如下所示:
7
00:01:44,789 --> 00:01:51,019
片名:當(dāng)幸福來敲門 / 追求幸福
8
00:02:49,469 --> 00:02:52,839
馬上來了
Should be here soon.
9
00:03:38,819 --> 00:03:41,189
- 我想我該列個(gè)表 - 干嘛?
-I think I should make a list. -What do mean?
10
00:03:41,189 --> 00:03:43,789
- 想要的生日禮物? - 對呀
-For your birthday gifts? -Yeah.
如上,但存在兩個(gè)問題:1、每一句前面都帶有數(shù)字編號;2、帶有時(shí)間戳;
我只想要里面的中英文文本,數(shù)字編號和時(shí)間戳都不需要。由于最近正在學(xué)習(xí)Python當(dāng)然首先就想到了做個(gè)Python腳本來把時(shí)間戳和編號刪掉。實(shí)現(xiàn)很簡單,基本思路就是使用正則表達(dá)式匹配,把空行、純數(shù)字行及帶有“-->”的行刪掉,然后再先回文本文件。
完成后的代碼如下:
# -*- coding: utf-8 -*-
# code=cp936
import string, re
title_txt = open('I://pursuit_for_happiness(ch).txt', 'r+')
try:
full_txt = title_txt.readlines()
regex1 = "/A/d*[/n]/Z"
regex2 = "/d --> /d"
#print full_txt
new_txt = []
for line in full_txt:
#print line
if re.match(regex1, line) or re.search(regex2, line):
#print "match", line
continue
else:
new_txt.append(line)
title_txt.seek(0)
title_txt.truncate(0)
#for line in full_txt:
# title_txt.writelines(line)
title_txt.writelines(new_txt)
finally:
title_txt.close()
print "Over"
過程中遇到一個(gè)問題:
1、Python中沒辦法清空一個(gè)文件,亂看了一通,發(fā)現(xiàn)使用truncate()方法,傳入?yún)?shù)為0時(shí)可以搞定。
2、開始的時(shí)候直接使用for遍歷list中的元素,匹配到就刪除,發(fā)現(xiàn)需要執(zhí)行多次腳本才能刪完,且有些還始終刪不掉,最后終于搞明白了:使用for i in list:時(shí),如果一匹配到就刪除,則此時(shí)list中的元素會改變,進(jìn)入循環(huán)的下一輪時(shí)不出問題才怪。造孽,花了近一個(gè)小時(shí)才把這個(gè)問題搞定了。于是重新定義了一個(gè)空鏈表new_txt,使用它來存儲我要的字幕,循環(huán)完成后把new_txt寫回文件。大功告成!
爽,拷到我的iTouch里,開始學(xué)習(xí)英語了!
總結(jié)
以上是生活随笔為你收集整理的python删除txt指定内容_使用Python删除文本文件中的部分内容 | 学步园的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: JAVAWEB入门第一篇
- 下一篇: 解决Entry fileTemplate