nodejs 实现 磁力链接资源搜索 BT磁力链接爬虫
生活随笔
收集整理的這篇文章主要介紹了
nodejs 实现 磁力链接资源搜索 BT磁力链接爬虫
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
項目簡介
- 前端站點 項目效果預覽 http://findcl.com
- 使用 nodejs 實現磁力鏈接爬蟲 磁力鏈接解析成 torrent種子信息,保存到數據庫,利用 Elasticsearch 實現中文檢索。koa2 搭建磁力鏈接搜索引擎
- 源碼地址 https://github.com/ssstk/findcl
- 后端腳本 磁力鏈接獲取 磁力鏈接解析 入庫 Mongodb 定時同步 Elasticsearch
- 源碼地址 https://github.com/ssstk/mang...
- 此項目僅用學習交流技術使用 不做商業用途。
上線
- 2018-06-01 網站正式上線。暫時想不到什么名字 各位大大可以推薦下哦。域名是 http://findcl.com ,
- 兩臺 VPS (都是某些云做活動買的 配置低)
- 第一臺部署了 FindCl 站點本身( koa2、nginx )和單個節點的 Elasticsearch
- 第二臺部署了磁力鏈接爬蟲 hashinfo 解析 入庫 Mongodb
- Mongodb 數據庫在套路云(目前有 300W 數據庫,每日新收錄 3W+的數據)
項目依賴
- Mongodb
- mongoose
- Elasticsearch
- nginx
- koa2
- vue
- DHT BT 資源爬蟲 磁力鏈接解析 manget2torrent
- crontab 定時執行 Mongodb 與 Elasticsearch 的數據同步
- ...
存在的問題
manget2torrent
- 依賴的 dhtspider 爬蟲 長時間使用一個端口的時,由于 P2P 網絡的特性,越來越多的節點來訪問 會導致帶寬跑滿(其主要是活動買的云主機 1M 的),如果活力全開不做閑置 大概穩定在 10M 左右。解決方案就是 每次采集 5000 條不重復的磁力 hashindo 就暫停爬蟲,取解析獲取信息。等小于 1000 條時候,再隨機端口開啟服務。
- 解析磁力鏈接緩慢且成功率很低, 失敗的大概在 3 成左右且需要好幾秒
其他
有其他問題請新建issue交流。
總結
以上是生活随笔為你收集整理的nodejs 实现 磁力链接资源搜索 BT磁力链接爬虫的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 庖丁解牛TLD(二)——初始化工作(为算
- 下一篇: 免费的大数据学习资料,这一份就足够