从BLOG到电子书——把wordpress备份的WXR转为epub
古人云,敝帚自珍。
雖然自己寫(xiě)的BLOG都是些沒(méi)營(yíng)養(yǎng)的東西,但還是想收藏起來(lái)。
花了點(diǎn)時(shí)間研究了一下epub格式,寫(xiě)了段轉(zhuǎn)換程序,把Wordpress導(dǎo)出的備份文件WXR轉(zhuǎn)成epub格式。
本想貼代碼湊數(shù),結(jié)果發(fā)現(xiàn)代碼還是多了點(diǎn),所以還是改成下載吧。
第一個(gè)是生成epub的庫(kù):epubbuilder.py
(源碼附后)
之后是解析WXR并調(diào)用epubbuilder生成epub的主程序:wxr2epub.py
(源碼附后)
下載:wxr2epub source code 5.4K(GPL)。
使用時(shí)在源目錄下放一個(gè)叫做wordpress.xml的WXR文件,再創(chuàng)建一個(gè)images的子目錄,里面放上文章中所有引用過(guò)的圖片,最好有一個(gè)叫cover.jpg的,這個(gè)圖片將會(huì)被作為電子書(shū)的封面。生成的電子書(shū)每一篇文章及其評(píng)論會(huì)作為電子書(shū)的一個(gè)章節(jié),文章多的話,目錄項(xiàng)會(huì)很多,某些電子書(shū)軟件可能無(wú)法完全顯示所有目錄項(xiàng)。
所以說(shuō),還是開(kāi)放好啊。Wordpress的WXR用的是開(kāi)放的XML格式,epub也是用開(kāi)放的zip+HTML+XML格式。
像CSDN BLOG這種自己開(kāi)發(fā)的平臺(tái)就沒(méi)辦法了……當(dāng)然也不是完全沒(méi)有辦法,可以自己寫(xiě)一個(gè)爬蟲(chóng)去把頁(yè)面全抓下來(lái),再用pyquery之類(lèi)的解析出內(nèi)容,然后生成epub。不過(guò)這就麻煩得多了,除了程序?qū)懫饋?lái)麻煩以外,還要防止爬得過(guò)猛被網(wǎng)站封IP之類(lèi)的副作用——這事我也干過(guò),不過(guò)不是對(duì)CSDN。
總結(jié)
以上是生活随笔為你收集整理的从BLOG到电子书——把wordpress备份的WXR转为epub的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: QT-2048小游戏
- 下一篇: SQL Server数据库的T-SQL高