當前位置：首頁 > 编程语言 > python >内容正文

python

python去掉html标签_python 去除html标签的几种方法

發布時間：2025/3/11 python 11 豆豆

生活随笔收集整理的這篇文章主要介紹了 python去掉html标签_python 去除html标签的几种方法小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

#! /usr/bin/python

# -*- coding:utf-8 -*-

'''

created on 2013-12-18

@author: java

'''

import re

from htmlparser import htmlparser

class filtertag():

def __init__(self):

pass

def filterhtmltag(self,htmlstr):

'''

過濾html中的標簽

:param htmlstr:html字符串或是網頁源碼

'''

self.htmlstr = htmlstr

#先過濾cdata

re_cdata=re.compile('//]*//\]\]>',re.i) #匹配cdata

re_script=re.compile(']*>[^',re.i)#script

re_style=re.compile(']*>[^',re.i)#style

re_br=re.compile('

')#處理換行

re_h=re.compile(']*>')#html標簽

re_comment=re.compile(']*-->')#html注釋

s=re_cdata.sub('',htmlstr)#去掉cdata

s=re_script.sub('',s) #去掉script

s=re_style.sub('',s)#去掉style

s=re_br.sub('\n',s)#將br轉換為換行

blank_line=re.compile('\n+')#去掉多余的空行

s = blank_line.sub('\n',s)

s=re_h.sub('',s) #去掉html 標簽

s=re_comment.sub('',s)#去掉html注釋

#去掉多余的空行

blank_line=re.compile('\n+')

s=blank_line.sub('\n',s)

filtertag = filtertag()

s=filtertag.replacecharentity(s)#替換實體

print s

def replacecharentity(self,htmlstr):

'''

替換html中常用的字符實體

使用正常的字符替換html中特殊的字符實體

可以添加新的字符實體到char_entities 中

char_entities是一個字典前面是特殊字符實體后面是其對應的正常字符

:param htmlstr:

'''

self.htmlstr = htmlstr

char_entities={'nbsp':' ','160':' ',

'lt':'','62':'>',

'amp':'&','38':'&',

'quot':'"','34':'"',}

re_charentity=re.compile(r'?(?p\w+);')

sz=re_charentity.search(htmlstr)

while sz:

entity=sz.group()#entity全稱，如>

key=sz.group('name')#去除&;后的字符如(" "--->key = "nbsp") 去除&;后entity,如>為gt

try:

htmlstr= re_charentity.sub(char_entities[key],htmlstr,1)

sz=re_charentity.search(htmlstr)

except keyerror:

#以空串代替

htmlstr=re_charentity.sub('',htmlstr,1)

sz=re_charentity.search(htmlstr)

return htmlstr

def replace(self,s,re_exp,repl_string):

return re_exp.sub(repl_string)

def strip_tags(self,htmlstr):

'''

使用htmlparser進行html標簽過濾

:param htmlstr:

'''

self.htmlstr = htmlstr

htmlstr = htmlstr.strip()

htmlstr = htmlstr.strip("\n")

result = []

parser = htmlparser()

parser.handle_data = result.append

parser.feed(htmlstr)

parser.close()

return ''.join(result)

def striptagsimple(self,htmlstr):

'''

最簡單的過濾html 標簽的方法注意必須是而不能單純是

:param htmlstr:

'''

self.htmlstr = htmlstr

# dr =re.compile(r']+>',re.s)

dr = re.compile(r']*>',re.s)

htmlstr =re.sub(dr,'',htmlstr)

return htmlstr

if __name__=='__main__':

# s = file('google.html').read()

filters = filtertag()

print filters.striptagsimple("你好")

如您對本文有疑問或者有任何想說的，請點擊進行留言回復，萬千網友為您解惑！

總結

以上是生活随笔為你收集整理的python去掉html标签_python 去除html标签的几种方法的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： 0到100速度测试软件,【图】到底如何完
下一篇：微信小程序python解析获取用户手机号

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

python

python去掉html标签_python 去除html标签的几种方法

總結