當前位置：首頁 > 运维知识 > 数据库 >内容正文

数据库

使用NOSQL的MongoDB时建立索引需要注意的几点建议和Explain优化分析

發布時間：2024/8/26 数据库 32 豆豆

生活随笔收集整理的這篇文章主要介紹了使用NOSQL的MongoDB时建立索引需要注意的几点建议和Explain优化分析小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

第一,MongoDB索引和MySQL索引非常相似并且對于MySQL的索引優化有很多也適用于MongoDB。
第二，更重要的是，這些索引的建議對你的應用提高也是有限的。
對于應用的最佳索引策略應該基于很多的重要因素。包含了你期望查詢的類型，
數據讀取與寫入的比率，甚至于你服務器的空閑內存。意思就是，
需要對線上的產品做很多的測試剖析工作，才能調整出最佳的索引策略。
沒有什么好的方法可以替代實際經驗的。

索引策略

?

下面有些索引的基本法則

創建的索引要匹配查詢。

如果你僅僅要查詢單個字段。索引這個字段即可。如
db.posts.find({ slug : 'state-of-mongodb-2010' }) 這個例子中，唯一索引是最佳的
db.posts.ensureIndex({ slug: 1 }, {unique: true}); 然而，一般都查詢多個鍵并且排序結果。這種情況，組合索引是最佳的，例子如下
db.comments.find({ tags : 'mongodb'}).sort({ created_at : -1 }); 創建的索引如下
db.comments.ensureIndex({tags : 1, created_at : -1}); 要注意的是如果我們按照升序排序created_at。索引效率就低下了。

每個查詢一個索引。

有的時候查詢多個鍵，需要多個索引。在MongoDB中，這么做沒問題。
如果你有個查詢要匹配多個鍵，并且你想更有效地使用索引，請使用組合索引。

要確定所有的索引都在RAM中。

Shell中提供了一個查看索引大小的命令，如下:
db.comments.totalIndexSize(); 65443 如果你的查詢有點遲緩，你應該查看下索引是否都存入到RAM中了。
一個實例，如果你運行在4GB的RAM機器并且有3GB的索引，那么索引可能并不能全存在RAM中。
你需要添加RAM以及/或者校驗實際的索引使用量。

要小心單鍵索引的低選擇性。

假使你有個字段叫做'status'，就有兩個值new和processed。
如果在status上創建索引那么這就是個低選擇性的索引。
意味著，查詢中沒有什么優勢并且還占大量的空間。
一個更好一點的策略，當然依賴具體查詢需求，可以創建組合索引包括這個低選擇性的字段。
舉例來說，你可以創建一個組合索引在status和created_at字段上。
另一個選擇，當然也依賴你的需求,可以分離collection, 一個狀態一個。
當然這些建議一定要進行測試，選擇最優的方案。

使用explain.

MongoDB提供了一個explain命令，用來查看查詢的過程并且可以查看是否使用縮影。explain可以在驅動中使用，也可以在SHELL中使用：
db.comments.find({ tags : 'mongodb'}).sort({ created_at : -1 }).explain(); 返回了很多有用的信息。包含了檢索的條數，消耗的毫秒數，優化器嘗試的索引以及最終所使用的索引。
如果你從來沒有使用過explain，請開始使用吧。

理解explain的輸出.

explain輸出主要有三個字段：
cursor: 游標不是? BasicCursor就是 ? BtreeCursor . 第二種意味著使用了索引。
nscanned: 掃描document的行數。
n: 查詢返回的行數。你希望n的值和nsanned值接近。要避免做collection的掃描，
也就是訪問所有的document。
millis: 查詢完成的毫秒數。這個對于比較索引和非索引性能非常有用。

要關注應用讀/寫( read/write) 比率

這個很重要，因為，添加索引意味著添加，更新，刪除操作變慢。

如果你的應用是偏向于讀取，使用索引是非常好的事情。

但是如果你的應用偏向于寫，那么創建索引就要小心了。增加索引都很影響寫入的性能。

一般來說, 不要隨便添加索引。索引應該按照你的查詢來添加。

添加索引的理由總是很多的, 以及要進行大量的測試選擇合適的索引策略。

索引特性

組合索引有許多特性要記住。

下面的例子都假想在 a, b, c上創建組合索引。因此創建索引語句如下

db.foo.ensureIndex({a: 1, b: 1, c: 1})

1. 排序的列一定要在索引的最后。

好的:

find(a=1).sort(a)
find(a=1).sort(b)
find(a=1, b=2).sort(c)

不好的:

find(a=1).sort(c)
即使c是索引的最后一列，a列是所使用的最后一列，因此你只能通過a或者b列進行排序。

2，3 ，4在1.6+已經不適用了。推薦使用1.6+以上版本。
?

5. MongoDB's $ne 或者$nin 操作在索因傷是無效的。

當要排除很少的documents。最好的方法就是在MongoDB查詢出結果，在服務端進行排除。

=============

MongoDB范圍查詢的索引優化

http://blog.nosqlfan.com/html/4117.html

我們知道，MongoDB的索引是B-Tree結構的，和MySQL的索引非常類似。所以你應該聽過這樣的建議：創建索引的時候要考慮到sort操作，盡量把sort操作要用到的字段放到你的索引后面。但是有的情況下，這樣做反而會使你的查詢性能更低。

問題

比如我們進行下面這樣的查詢：

db.collection.find({"country": "A"}).sort({"carsOwned": 1})

查詢條件是 {“country”: “A”}，按 carsOwned 字段的正序排序。所以索引就很好建了，直接建立 country , carsOwned 兩個字段的聯合索引即可。像這樣：

db.collection.ensureIndex({"country": 1, "carsOwned": 1})

我們來看一個稍微復雜一點的查詢：

db.collection.find({"country": {"$in": ["A", "G"]}}).sort({"carsOwned": 1})

這回我們是要查詢 country 為 A 或者 G 的數據條目，結果同樣按 carsOwned 字段排序。

如果我們還使用上面的索引，并且使用 explain() 分析一下這個查詢，就會發現在輸出中有一個“scanAndOrder” : true 的字段，并且 nscanned 的值可能會比想象中的大很多，甚至指定了 limit 也沒什么效果。

原因

這是什么原因呢，我們先看下面這張圖：

如上圖所未，左邊一個是按 {“country”: 1, “carsOwned”: 1} 的順序建立的索引。而右邊是按{“carsOwned”: 1, ”country”: 1} 順序建立的索引。

如果我們執行上面的查詢，通過左邊的索引，我們需要將 country 值為A的（左圖的左邊一支）所有子節點以及country 值為G的（左圖的右邊一支）所有子節點都取也來。然后再對取出來的這些數據按 carsOwned 值進行一次排序操作。

所以說上面 explain 輸出了一個 “scanAndOrder” : true 的提示，就是說這次查詢，是先進行了scan獲取到數據，再進行了獨立的排序操作的。

那如果我們使用右邊的索引來做查詢，結果就不太一樣了。我們沒有將排序字段放在最后，而是放在了前面，相反把篩選字段放在了后面。那這樣的結果就是：我們會從值為1的節點開始遍歷（右圖的左邊一支），當發現有 country 值為 A 或 G 的，就直接放到結果集中。當完成指定數量（指定 limit 個數）的查找后。我們就可以直接將結果返回了，因為這時候，所有的結果本身就是按 carsOwned 正序排列的。

對于上面的數據集，如果我們需要2條結果。我們通過左圖的索引需要掃描到4條記錄，然后對4條記錄進行排序才能返回結果。而右邊只需要我們掃描2條結果就能直接返回了（因為查詢的過程就是按需要的順序去遍歷索引的）。

所以，在有范圍查詢（包括$in, $gt, $lt 等等）的時候，其實刻意在后面追加排序索引通常是沒有效果的。因為在進行范圍查詢的過程中，我們得到的結果集本身并不是按追加的這個字段來排的，還需要進行一次額外的排序才行。而在這種情況下，可能反序建立索引（排序字段在前、范圍查詢字段在后）反而會是一個比較優的選擇。當然，是否更優也和具體的數據集有關。

總結

總結一下，舉兩個栗子。

當查詢是：

db.test.find({a:1,b:2}).sort({c:1})

那么直接建立 {a:1, b:1, c:1} 或者 {b:1, a:1, c:1} 的聯合索引即可。

如果查詢是：

db.test.find({a:1,b:{$in:[1,2]}}).sort({c:1})

那么可能建立 {a:1, c:1, b:1} 的聯合索引會比較合適。當然，這里只是提供了多一種思路，具體是否采用還是需要視你的數據情況而定。

來源：architects.dzone.com

=======================MongoDB與傳統數據庫的使用區別——批量插入與批量查詢 http://blog.sina.com.cn/s/blog_56545fd301013zav. html

我在百X知道上回答問題時經常遇到類似與這樣的問題：MongoDB有沒有像MySQL一樣的ODBC驅動？MongoDB能不能像MySQL一樣獲取字段名稱或類型。

我的回答是：不行，因為MongoDB不是MySQL。這個回答顯得MongoDB太弱了，我的原意是你不能要求一個物理優秀教師幫你輔導數學，也許他能做到基本的教學，但他很難做到優秀數學教師那么全面。

今天討論的問題是：批量插入和批量查詢

昨天在百X知道上有人問起MongoDB的批量插入如何寫，這個我還真沒用過，一方面MongoDB的速度足夠快讓我從來沒有想過去找這種方法，另一方面MongoDB的官網以及API里也找不到這種方法。

那就帶來兩個問題。

問題1：這樣豈不是沒有速度更快的批量插入么？

這個問題毫無技術含量，MongoDB怎么可能會比MySQL慢？這里還是涉及到大家經常用到的傳統關系型數據庫和NoSQL的本質區別問題，NoSQL的每次操作都非常輕量級，小型化，除了數據的寫入外基本沒有多余的操作。再舉個栗子：MongoDB就是放東西（數據）時把東西扔入相應的柜子（數據庫）即可，而MySQL則要保持與送東西人的溝通（雙向連接保持），東西的折疊整理分格存儲（事務+有模式）。MySQL的批量插入就是減少了溝通以及分格等過程，而MongoDB本身就不存在這些過程，因此MongoDB就不存在批量插入這個概念了。結論就是，MongoDB的普通插入比MySQL的批量插入還要快，或者說MongoDB的普通插入就是批量插入。

問題2：把多個操作放入一個事務里一起執行不就不能實現了？

這個問題更沒有技術含量了，MongoDB有事務么？還是那句，不要把NoSQL當關系型數據庫用。那豈不是MongoDB的數據完整性和數據安全性會很差？這個，還得再重復一遍，MongoDB的設計是為了處理大規模數據的，所以對數據完整性要求不是那么嚴格。如果非要較真兒的話，MongoDB也可以處理這種情況，就是getLastError，它會犧牲性能以獲取數據操作是否正確，你可以在批量插入一批數據后調用一次這個方法，如果出錯，就把這批數據重新操作一遍，一批調用getLastError一次，既可保證性能，又可保證數據安全。

批量查詢

再來說一下批量查詢，這里的批量對應于官網上的batch select的概念，可以理解為一次查詢一批數據。很多人在使用數據庫的時候會用：

Statement stmt = a.createStatement();

ResultSet rs = stmt.executeQuery(sql);

for(int i = 1; i < 10000; i++){

//read data from rs

}

這樣操作，會把數據庫中的數據全部讀入內存還是每條數據都去數據庫中讀一次？實際上兩者都不是，MySQL會把部分數據放入內存，如果這部分數據讀完了，那么再讀入一部分。因為很久沒用MySQL了，我記得C++的驅動中確實有一個類是用于把全部數據都讀入內存的，不過這種方法很少人使用。

MongoDB的查詢是這樣的，你用Cursur去查詢，如果沒有設置batch size這個參數，那么MongoDB默認會返回101條數據，等到這101條數據讀完了，也就是說用戶想讀第102條數據，那么驅動會再次去MongoDB中獲取后面的一批數據，這批數據不是以個數記的，而是最大限制4M的大小，將這4M的數據返回供用戶繼續讀，讀完再申請4M。當然，你可以通過batch size來改變這一數值，如果設置了，那么每次返回都會返回batch size條數據。

轉載請注明出處：http://blog.sina.com.cn/s/blog_56545fd301013zav.html ==============如何使用mongoose對一個100萬+的mongodb的表進行遍歷操作 http://cnodejs.org/topic/51508570604b3d512113f1b3 ===================== MongoDB優化的幾點原則 http://nosqldb.org/topic/50cac0c8ee680fee79001566 1.查詢優化
確認你的查詢是否充分利用到了索引，用explain命令查看一下查詢執行的情況，添加必要的索引，避免掃表操作。
2.搞清你的熱數據大小
可能你的數據集非常大，但是這并不那么重要，重要的是你的熱數據集有多大，你經常訪問的數據有多大(包括經常訪問的數據和所有索引數據)。使用MongoDB，你最好保證你的熱數據在你機器的內存大小之下，保證內存能容納所有熱數據。
3.選擇正確的文件系統
MongoDB的數據文件是采用的預分配模式，并且在Replication里面，Master和Replica Sets的非Arbiter節點都是會預先創建足夠的空文件用以存儲操作日志。這些文件分配操作在一些文件系統上可能會非常慢，導致進程被Block。所以我們應該選擇那些空間分配快速的文件系統。這里的結論是盡量不要用ext3，用ext4或者xfs。
4.選擇合適的硬盤
這里的選擇包括了對磁盤RAID的選擇，也包括了磁盤與SSD的對比選擇。
5.盡量少用in的方式查詢，尤其是在shard上，他會讓你的查詢去被一個shand上跑一次，
如果逼不得已要用的話再每個shard上建索引。
優化in的方式是把in分解成一個一個的單一查詢。速度會提高40-50倍
6.合理設計sharding key
increamenting sharding key（增量sharding-key）適合于可劃分范圍的字段，比如integer、float、date類型的，查詢時比較快
random sharding key（隨機sharding-key）適用于寫操作頻繁的場景，而這種情況下如果在一個shard上進行會使得這個shard負載比其他高，不夠均衡，故而希望能hash查詢key，將寫分布在多個shard上進行
考慮復合key作為sharding key，總的原則是查詢快，盡量減少跨shard查詢，balance均衡次數少。
mongodb默認是單條記錄16M，尤其在使用GFS的時候，一定要注意shrading-key的設計。
不合理的sharding-key會出現，多個文檔，在一個chunks上，同時，因為GFS中存貯的往往是大文件，導致mongodb在做balance的時候無法通過sharding-key來把這多個文檔分開到不同的shard上，
這時候mongodb會不斷報錯
[conn27669] Uncaught std::exception: St9bad_alloc, terminating。最后導致mongodb倒掉。
解決辦法：加大chunks大小（治標），設計合理的sharding-key（治本）。
7.mongodb可以通過profile來監控數據，進行優化。
查看當前是否開啟profile功能
用命令db.getProfilingLevel() 返回level等級，值為0|1|2，分別代表意思：0代表關閉，1代表記錄慢命令，2代表全部
開啟profile功能命令為
db.setProfilingLevel(level); #level等級，值同上
level為1的時候，慢命令默認值為100ms，更改為db.setProfilingLevel(level,slowms)如db.setProfilingLevel(1,50)這樣就更改為50毫秒

通過db.system.profile.find() 查看當前的監控日志.

總結

以上是生活随笔為你收集整理的使用NOSQL的MongoDB时建立索引需要注意的几点建议和Explain优化分析的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： mongodb 索引建立问题
下一篇： PyCharm个性化设置及注意事项