html text全删,删除没有/ text()。extract()的HTML标记
首先,我對此非常陌生,所以請準備好從我復制/粘貼來自各種來源的代碼。
我希望能夠刪除scrapy返回的任何HTML代碼。我已經將所有內容存儲在MySQL中而沒有任何問題,但我無法開始工作的東西就是刪除了很多'< td>'和其他html標簽。我最初只使用/ text()。extract()運行,但隨機地會遇到以這種方式格式化的單元格:
TEXT Text Text Text Text我沒有選擇使用/ text或不使用的模式,我正在尋找初學者可以實現的最簡單的方法來解決所有問題。
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from scrapy.contrib.loader import XPathItemLoader
from scrapy.contrib.loader.processor import Join, MapCompose
import html2text
from scraper.items import LivingSocialDeal
class CFBDVRB(BaseSpider):
name = "cfbdvrb"
allowed_domains = ["url"]
start_urls = [
"url",
]
deals_list_xpath = '//table[@class="tbl data-table"]/tbody/tr'
item_fields = {
'title': './/td[1]',
'link': './/td[2]',
'location': './/td[3]',
'original_price': './/td[4]',
'price': './/td[5]',
}
def parse(self, response):
selector = HtmlXPathSelector(response)
for deal in selector.xpath(self.deals_list_xpath):
loader = XPathItemLoader(LivingSocialDeal(), selector=deal)
# define processors
loader.default_input_processor = MapCompose(unicode.strip)
loader.default_output_processor = Join()
# iterate over fields and add xpaths to the loader
for field, xpath in self.item_fields.iteritems():
loader.add_xpath(field, xpath)
converter = html2text.HTML2Text()
converter.ignore_links = True
yield loader.load_item()
converter = html2text是我最后一次嘗試刪除它的方式,我并不完全確定我是否正確實現了它但它沒有工作。
提前感謝您提供的任何幫助,如果我錯過了一些簡單的快速搜索可能會讓我感到抱歉,我也會道歉。
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的html text全删,删除没有/ text()。extract()的HTML标记的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 计算机科学AP考试,AP计算机科学A和计
- 下一篇: 平顶山学院计算机专业是几本,平顶山学院是