python去掉html标签_python 去除html标签的几种方法
#! /usr/bin/python
# -*- coding:utf-8 -*-
'''
created on 2013-12-18
@author: java
'''
import re
from htmlparser import htmlparser
class filtertag():
def __init__(self):
pass
def filterhtmltag(self,htmlstr):
'''
過濾html中的標簽
:param htmlstr:html字符串 或是網頁源碼
'''
self.htmlstr = htmlstr
#先過濾cdata
re_cdata=re.compile('//]*//\]\]>',re.i) #匹配cdata
re_script=re.compile(']*>[^',re.i)#script
re_style=re.compile(']*>[^',re.i)#style
re_br=re.compile('
')#處理換行
re_h=re.compile(']*>')#html標簽
re_comment=re.compile(']*-->')#html注釋
s=re_cdata.sub('',htmlstr)#去掉cdata
s=re_script.sub('',s) #去掉script
s=re_style.sub('',s)#去掉style
s=re_br.sub('\n',s)#將br轉換為換行
blank_line=re.compile('\n+')#去掉多余的空行
s = blank_line.sub('\n',s)
s=re_h.sub('',s) #去掉html 標簽
s=re_comment.sub('',s)#去掉html注釋
#去掉多余的空行
blank_line=re.compile('\n+')
s=blank_line.sub('\n',s)
filtertag = filtertag()
s=filtertag.replacecharentity(s)#替換實體
print s
def replacecharentity(self,htmlstr):
'''
替換html中常用的字符實體
使用正常的字符替換html中特殊的字符實體
可以添加新的字符實體到char_entities 中
char_entities是一個字典前面是特殊字符實體 后面是其對應的正常字符
:param htmlstr:
'''
self.htmlstr = htmlstr
char_entities={'nbsp':' ','160':' ',
'lt':'','62':'>',
'amp':'&','38':'&',
'quot':'"','34':'"',}
re_charentity=re.compile(r'?(?p\w+);')
sz=re_charentity.search(htmlstr)
while sz:
entity=sz.group()#entity全稱,如>
key=sz.group('name')#去除&;后的字符如(" "--->key = "nbsp") 去除&;后entity,如>為gt
try:
htmlstr= re_charentity.sub(char_entities[key],htmlstr,1)
sz=re_charentity.search(htmlstr)
except keyerror:
#以空串代替
htmlstr=re_charentity.sub('',htmlstr,1)
sz=re_charentity.search(htmlstr)
return htmlstr
def replace(self,s,re_exp,repl_string):
return re_exp.sub(repl_string)
def strip_tags(self,htmlstr):
'''
使用htmlparser進行html標簽過濾
:param htmlstr:
'''
self.htmlstr = htmlstr
htmlstr = htmlstr.strip()
htmlstr = htmlstr.strip("\n")
result = []
parser = htmlparser()
parser.handle_data = result.append
parser.feed(htmlstr)
parser.close()
return ''.join(result)
def striptagsimple(self,htmlstr):
'''
最簡單的過濾html 標簽的方法 注意必須是 而不能單純是
:param htmlstr:
'''
self.htmlstr = htmlstr
# dr =re.compile(r']+>',re.s)
dr = re.compile(r']*>',re.s)
htmlstr =re.sub(dr,'',htmlstr)
return htmlstr
if __name__=='__main__':
# s = file('google.html').read()
filters = filtertag()
print filters.striptagsimple("你好")
如您對本文有疑問或者有任何想說的,請點擊進行留言回復,萬千網友為您解惑!
總結
以上是生活随笔為你收集整理的python去掉html标签_python 去除html标签的几种方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 0到100速度测试软件,【图】到底如何完
- 下一篇: 微信小程序python解析获取用户手机号