信息检索名词解释
·布爾查詢(Boolean query)
由詞項的布爾組合構成的查詢. 如"information and retrieval", "vision or
sight", "Clinton and (not Gore)".
·分類(Classificaiton)
確定給定文件所屬相應范疇的過程. 例如, 確定一篇文章該發到哪個News Group,
或是一個email消息該歸入哪個子目錄, 或是一篇文章的主題.
·聚類(Cluster)
相似文件的表示之分組. 在向量空間模型下, 檢索可通過對查詢向量和聚類重心之
比較來進行. 在一個聚類之內, 搜索可以更有針對性的方式繼續.
·協同過濾(Collaborative Filtering)
通過參考與特定用戶具有相似興趣和需求的其他用戶的選擇來決定如何為該用戶的
文件進行過濾的過程. 又叫"社會過濾(Social Filtering)".
·文件集(Collection)
用戶準備從中獲取信息的一組文件. 另見"測試文件集(test collection)".
·文件集融合(Collection Fusion)
取自多個文件集的搜索結果的綜合問題. 這里面有許多技巧, 因為有些指標在不同
文件集中是不同的, 如IDF. 而且, 如果一共只要求檢索固定個數的文件, 從哪個
文件集里該取多少也是不清楚的.
·基于內容的過濾(Content-Based Filtering)
從文件正文中抽取特征以確定文件的相關程度的過程. 另見"認知過濾(cognitive
filtering)".
·余弦相似度(Cosine Similarity)
見"相似度(Similarity)".
·文件(Document)
用戶可能要檢索的一條信息. 它可以是一個文本文件, 一個WWW page, Newsgroup
里的一篇文章, 一幅圖象, 或者是某本書里的一句話.
·標引(Indexing)
把文件集轉換成易于查找和檢索的合適形式的過程.
·信息抽取(Information Extraction)
試圖從格式不受限制的文本中找出語義結構及其他類型的信息的研究方向.
·信息過濾(Information Filtering)
從給定的大量數據中選出用戶所需要的數據. 這是信息檢索問題的標準形式.
·信息需求(Information Need)
用戶真正要知道的東西. 一個查詢是信息需求的一個近似表達.
·信息檢索(Information Retrieval)
研究對數據, 特別是對文本及其他非結構化形式的數據進行標引、搜索和查遍的系
統的學科.
·倒排頻度(Inverse Document Frequency)
簡稱IDF, 是反映一個特定的詞項在一個文件集中按文件統計出現的頻繁程度的指
標. 通常用log(文件集中文件總數/文件集中包含該詞項的文件數)來定義. 因此,
常用詞的倒排頻度很低, 只在唯一文件里出現的詞項的倒排頻度很高. 本指標在
為模型中的參數加權時非常有用.
·倒排文件(Inverted File)
文件集的一種表示形式, 本質上是一種索引. 它對每一個詞或詞項, 記錄其出現
的所有位置. 這種表示形式對于處理布爾查詢特別有用.
·查準率(Precision)
信息檢索的標準性能指標, 定義為: 查到的相關文件數/查到的文件總數. 例如, 設
在文件集里有80篇有關widgets的文件, 某系統查出60篇文件, 其中40篇與widgets
有關, 則該系統的查準率為40/60=76%. 最理想的查準率是100%. 這并不難做到(比
如只返回1篇文件). 然而, 信息檢索要求系統在查準率和查全率(recall)上要同時
做到盡可能地大.
·概率模型(Probabilistic Model)
任何考慮詞項或概念在文件中的出現概率或文件滿足信息需求的概率的模型都是
概率模型. 貝葉斯推理網絡是這類模型的很好的框架. INQUERY系統是其最成功的實
例.
·查詢(Query)
刻畫用戶的信息需求的一串詞. 注意它不必是和語法的自然語言句子.
·查詢擴充(Query Expansion)
根據原有查詢構造新的查詢的過程. 新詞可以是從其他文件里添加過來的相關反饋,
也可以是從某個主題詞表上添加過來的同義詞.
·問題解答(Question Answering)
從大規模文件集中尋找恰好能夠回答用戶用自然語言提出的問題的文件.
·查全率(Recall)
信息檢索的標準性能指標, 定義為: 查到的相關文件數/文件集中的相關文件總數.
例如, 設文件集里有80篇有關widgets的文件, 某系統查出60篇文件, 其中40篇與
widgets有關, 則該系統的查全率為40/80=50%. 最理想的查準率是100%. 這并不難
做到(比如把文件集里所有的文件都返回). 然而, 信息檢索要求系統在查準率和查
全率上要同時做到盡可能地大.
·相關(Relevance)
一個文件滿足用戶的信息需求的程度的抽象指標. 理想情況下, 系統可以把用戶需
要的相關文件都檢索出來. 可惜這是一個主觀的概念, 很難量化.
·相關反饋(Relevance Feedback)
對已知查詢結果進行求精的過程. 由用戶指定已知查詢結果中哪些是與其查詢最相
關的. 系統從用戶指定的文件里抽取共同詞項添加到原查詢上構成一個新查詢,
新查詢繼而給出新結果, 如此可循環任意多次, 直至用戶滿意為止.
·機器人(Robot)
見"網蟲"(Spider).
·分檢(Routing)
與信息過濾相似, 指從連續的輸入信息流中檢索出用戶需要的數據(即"長期信息過
濾").
·SIGIR
全稱是ACM信息過濾專題組(ACM special interest group on Information retrieval).
他們出版《SIGIR論壇》, 并舉辦年會.
·簽名文件(Signiture File)
是文件集的一種表示, 其中文件被散列成二進制位串. 這是一種壓縮技巧, 旨在提高
查找效率.
·相似度(Similarity)
度量兩個文件或一個文件與一個查詢之間相似程度的指標. 在向量空間模型中, 相似度
往往理解為兩個向量表示之間的靠近程度. 流行的方法是計算兩個向量夾角的余弦.
·"網蟲"(Spider)
也叫機器人, 是在Web上搜尋URL地址的程序. 它從特定的Web Page出發, 依次訪問從
該Page能訪問到的一切連接, 從而遍歷WWW組成的圖. 它可以在此過程中紀錄各服務器
上的信息, 以便建立索引或其他查找工具. 幾乎所有的查找工具都是用"網蟲"搞起來
的. 使用"網蟲"的一個問題是: 如果編程不當, 會在短時間內頻繁訪問同一服務器,
造成系統性能下降.
·詞根還原(Stemming)
從文件或查詢中去掉詞的前后綴, 用以形成和系統內部模型里一致的詞項. 做這件
事是為了把具有同樣概念意義的詞(如walk, walked, walker, walking)統一處理, 這
樣用戶查詢時就不必拘泥了. Porter是一個眾所周知的詞根還原算法.但是要小心: 把
"porter"這個詞送到Porter系統里去還原成"port"將導致把關于船和葡萄酒的文章也
都查出來! (在英語里, "porter"是搬運工的意思, "port"有港口和酒桶閥門的意思).
·停用詞(Stopword)
指象介詞或冠詞這類具有很少語義內容的詞. 也指在文件集的各個文件里都有很高出
現頻率的詞. 停用詞由于出現在很多文件里, 故對檢索沒什么貢獻. 這樣的詞一般都
要從文件的內部模型或查詢中去掉.
某些系統事先規定好哪些詞是它的"停用詞". 然而, 一個詞是否停用詞這件事可能是
與上下文有關的. 例如在有關計算機科學的文件集里, "computer"就被當做停用詞;
但在從《消費者報告》中選出的文章組成的文件集中, "computer"就不是停用詞.
·詞項(Term)
一個出現在文件或查詢中的單詞或概念. 有時也指原始文本里的詞.
·詞頻(Term Frequency)
簡拼為TF. 指特定詞項在給定文件或查詢中的出現次數. 可用于為模型中的參數加
權.
·測試文件集(Test Collection)
專門為評價實驗性信息檢索系統而建立的文件集. 通常伴隨一套查詢題庫, 以及由人
類專家做出的文件與查詢相關與否的標記(相當于標準答案). TIPSTER是當前最流行的
測試文件集.
·TIPSTER
一個正在進行中的項目, 集中了若干單位和組織的資源來對信息提取和分檢進行攻關.
總的框架是: 每個團隊負責一部分工作, 完成后只須插到總體結構即可. 該項目有一
個很大的測試文件集.
·TREC
全文是Text REtrieval Conference(文本檢索協會). 該組織為信息檢索研究者提供公
用測試文件集和公用評價系統. 這樣系統之間就可以在同樣數據的基礎上進行比較和對
照.
·向量空間模型(Vector Space Model)
文件或查詢轉換成向量的一種表示. 向量的特征通常是出現在對應文件或查詢中的詞,
當然經過了詞根還原并濾掉了停用詞. 向量往往做過加權處理, 以突出對確定意義因而
對信息檢索有典型貢獻的詞項. 在檢索過程中, 要拿查詢向量與每個文件向量作比較.
與查詢向量靠近的被認為是相似的, 作"查到"處理. SMART是使用向量空間模型的最有
名的系統.
·加權處理(Weighting)
通常對詞項而言, 指突出更重要的一些詞項的某些參數的過程. 在向量空間模型下,
此過程施用于向量的某些特征. 比較流行的加權方式是TF*IDF. 還有布爾方式(詞項
出現為1, 不出現為0)以及只用TF的方式. 在向量空間模型下, 權值往往進行歸一化(分
量總和為1), 或每個分量都除以所有分量的平方和的平方根(模為1).??????
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
- 上一篇: 影响中国发展的七大垂直搜索引擎
- 下一篇: 猪是这样养成的