Haystack
什么是Haystack
Haystack是django的開源全文搜索框架(全文檢索不同于特定字段的模糊查詢,使用全文檢索的效率更高 ),該框架支持Solr,Elasticsearch,Whoosh,?**Xapian搜索引擎它是一個可插拔的后端(很像Django的數據庫層),所以幾乎你所有寫的代碼都可以在不同搜索引擎之間便捷切換
pip install django-haystack
配置
添加Haystack到INSTALLED_APPS
跟大多數Django的應用一樣,你應該在你的設置文件(通常是settings.py)添加Haystack到INSTALLED_APPS. 示例:
INSTALLED_APPS = ['django.contrib.admin','django.contrib.auth','django.contrib.contenttypes','django.contrib.sessions','django.contrib.sites', ?# 添加'haystack', ?# 你的app'blog', ]修改settings.py
在你的settings.py中,你需要添加一個設置來指示站點配置文件正在使用的后端,以及其它的后端設置。 HAYSTACK——CONNECTIONS是必需的設置,并且應該至少是以下的一種:
Solr示例
HAYSTACK_CONNECTIONS = {'default': {'ENGINE': 'haystack.backends.solr_backend.SolrEngine','URL': 'http://127.0.0.1:8983/solr'# ...or for multicore...# 'URL': 'http://127.0.0.1:8983/solr/mysite', }, }Elasticsearch示例
HAYSTACK_CONNECTIONS = {'default': {'ENGINE': 'haystack.backends.elasticsearch_backend.ElasticsearchSearchEngine','URL': 'http://127.0.0.1:9200/','INDEX_NAME': 'haystack',}, }Whoosh示例
#需要設置PATH到你的Whoosh索引的文件系統位置 import os HAYSTACK_CONNECTIONS = {'default': {'ENGINE': 'haystack.backends.whoosh_backend.WhooshEngine','PATH': os.path.join(os.path.dirname(__file__), 'whoosh_index'),}, }Xapian示例
#首先安裝Xapian后端(http://github.com/notanumber/xapian-haystack/tree/master) #需要設置PATH到你的Xapian索引的文件系統位置。 import os HAYSTACK_CONNECTIONS = {'default': {'ENGINE': 'xapian_backend.XapianEngine','PATH': os.path.join(os.path.dirname(__file__), 'xapian_index'),}, }處理數據
創(chuàng)建SearchIndexes
SearchIndexes對象是Haystack決定那些數據應該放入索引和處理流數據的方式。你可以把它們看作是Django的Models或Forms,它們是基于字段和數據操作/存儲的。
你通常為你期望索引的每一個Model都創(chuàng)建一個唯一的SearchIndex。雖然你可以在不同的model中重復使用相同的SearchIndex,只要你小心的做并且字段名很規(guī)范。
為了建立SearchIndex,所有的都是indexes.SearchIndex和indexe.Indexable的子類。定義要存儲數據的字段,定義get_model方法。
我們會在下面創(chuàng)建和Note模型對應的NoteIndex。這個代碼通常在search_indexes.py中。盡管這不是必須的。這使得Haystack能自動的檢測到它。NoteIndex應該看起來像:
import datetime from haystack import indexes from myapp.models import Note ? class NoteIndex(indexes.SearchIndex, indexes.Indexable):text = indexes.CharField(document=True, use_template=True)author = indexes.CharField(model_attr='user')pub_date = indexes.DateTimeField(model_attr='pub_date') ?def get_model(self):return Note ?def index_queryset(self, using=None):"""Used when the entire index for model is updated."""return self.get_model().objects.filter(pub_date__lte=datetime.datetime.now())每個SerachIndex需要有一個(僅有一個)一個字段document=True.這個指示著Haystack和搜索引擎把那個字段作為主要的檢索。
當你選擇document=True字段時,它應該在你的SearchIndex類里面始終如一,以避免后端的混淆。一個便捷的命名是text。 在所有的樣例中這個text字段名并沒有什么特殊。它也可以是其他任何命名,你可以叫它pink_polka_dot也是沒有關系的。只是簡單便利的交做text。另外,我們在text字段上提供了use_template=True。這允許我們使用一個數據模板(而不是容易出錯的級聯)來構建文檔搜索引擎索引。你應該在模板目錄下建立新的模板search/indexes/myapp/note_text.txt,并將下面內容放在里面。
{{ object.title }} {{ object.user.get_full_name }} {{ object.body }}此外,我們增加了其他字段(author和pub_date)。當我們提供額外的過濾選項的時候這是很有用的。來至Haystack的多個SearchField類能處理大多數的數據。
一個常見的主題是允許管理員用戶在未來添加內容,而不馬上在網站展示,直到未來某個時間點。我們特別自定義了index_queryset方法來防止未來的這些項添加到索引。
設置視圖
添加SearchView到你的URLconf
在你的URLconf中添加下面一行:
(r'^search/', include('haystack.urls')),這會拉取Haystack的默認URLconf,它由單獨指向SearchView實例的URLconf組成。你可以通過傳遞幾個關鍵參數或者完全重新它來改變這個類的行為。
搜索模板
你的搜索模板(默認在search/search.html)將可能非常簡單。下面的足夠讓你的搜索運行(你的template/block應該會不同)
{% extends 'base.html' %}{% block content %}<h2>Search</h2><form method="get" action="."><table>{{ form.as_table }}<tr><td> </td><td><input type="submit" value="Search"></td></tr></table>{% if query %}<h3>Results</h3>{% for result in page.object_list %}<p><a href="{{ result.object.get_absolute_url }}">{{ result.object.title }}</a></p>{% empty %}<p>No results found.</p>{% endfor %}{% if page.has_previous or page.has_next %}<div>{% if page.has_previous %}<a href="?q={{ query }}&page={{ page.previous_page_number }}">{% endif %}« Previous{% if page.has_previous %}</a>{% endif %}|{% if page.has_next %}<a href="?q={{ query }}&page={{ page.next_page_number }}">{% endif %}Next »{% if page.has_next %}</a>{% endif %}</div>{% endif %}{% else %}{# Show some example queries to run, maybe query syntax, something else? #}{% endif %}</form> {% endblock %}需要注意的是page.object_list實際上是SearchResult對象的列表。這些對象返回索引的所有數據。它們可以通過{{result.object}}來訪問。所以{{ result.object.title}}實際使用的是數據庫中Note對象來訪問title字段的。
重建索引
這是最后一步,現在你已經配置好了所有的事情,是時候把數據庫中的數據放入索引了。Haystack附帶的一個命令行管理工具使它變得很容易。
簡單的運行./manage.py rebuild_index。你會得到有多少模型進行了處理并放進索引的統計。
??
轉載于:https://www.cnblogs.com/wanlei/p/10633527.html
總結
- 上一篇: 目标检测——Faster R_CNN使用
- 下一篇: 零基础代理神器allproxy