mongodb查询值不为空_MongoDB使用规范(上)
MongoDB設計規范
1.1 mongoDB庫的設計
1.2 mongoDB集合的設計
1.3 mongoDB文檔的設計
1.4 mongoDB索引的設計
所有的查詢字段是索引的一部分
所有的查詢返回字段在同一個索引中
2. 備注-查詢會默認帶出_id
!盡量遵循最左前綴原則
l 索引名稱長度不要超過 128 字符
l 應盡量綜合評估查詢場景,通過評估盡可能的將單列索引并入組合索引以降低索引數量,結合上面2點
l 在創建組合索引的時候,應評估索引中包含的字段,盡量將數據基數大的字段放在組合索引的前面
l 在數據量較大的時候,MongoDB 索引的創建是一個緩慢的過程,所以應當在上前線或數據量變得很大前盡量評估,按需創建會用到的索引
l MongoDB 的索引創建是庫級鎖,在索引創建時該集合所在庫不可讀寫,所以如需添加索引,請聯系 DBA
l 特別注意基于地理位置的索引建立時會帶來的問題。
建議
盡量在創建集合時,規劃好索引,在集合為空的時候創建索引
針對已有大量數據的集合,盡量后臺建索引--后臺建索引時并不是 bulk cursor,而是使用普通的 cursor 逐條插入,故不會去競爭 checkpoint 的鎖
1.5 查詢優化
MongoDB可以自動對查詢進行優化并盡可能高效的對查詢進行評估。評估通常包括基于謂詞的數據選擇和基于排序類別的數據排序。查詢優化器會周期性的執行多種查詢計劃并選擇性能變現最好的索引。這種經驗式測試結果會以緩存查詢計劃存儲下來并周期性執行。
MongoDB有explain工具,可以顯示每個查詢優化前后的信息,包括:
l 文檔返回數
l 文檔讀取數
l 使用了哪個索引
l 查詢是否被覆蓋,如果覆蓋了,則文檔不需要讀取以返回數據
l 內存排序是否執行了,如果執行了,就意味著加入索引會更高效
l 索引掃描數量
l 查詢多長時間可以返回結果(僅限于使用executionStats模式)
l 那個可選擇的查詢方案被否決了(僅限于allPlansExecution模式)
如果查詢的過程花費不到1ms,那么解釋計劃會顯示0ms,通常,在一個優化過的系統中,查詢時間就不應該超過1ms。執行計劃確定后,之前的緩存查詢計劃就會放棄,但是多樣的測試索引計劃還是會重復執行保證最佳的執行計劃會得到實施。查詢計劃可以在不執行查詢的前提下對查詢過程進行估算并返回結果,DBA不需要等到查詢過程執行完就可以評估使用哪個查詢計劃。
1.6 注意點
每當你建立一個索引時,系統會為你添加一個索引表,用于索引指定的列,然而當你對已建立索引的列進行插入或修改時,數據庫則需要對原來的索引表進行重新排序,重新排序的過程非常消耗性能,但應對少量的索引壓力并不是很大,但如果索引的數量較多的話對于性能的影響可想而知。所以在創建索引時需要謹慎建立索引,要把每個索引的功能都要發揮到極致,也就是說在可以滿足索引需求的情況下,索引的數量越少越好。
2. 索引列顆粒越小越好
什么叫顆粒越小越好?在索引列中每個數據的重復數量稱為顆粒,也叫作索引的基數。如果數據的顆粒過大,索引就無法發揮該有的性能。例如,我們擁有一個"age"列索引,如果在"age"列中,20歲占了50%,如果現在要查詢一個20歲,名叫"Tom"的人,我們則需要在表的50%的數據中查詢,索引的作用大大降低。所以,我們在建立索引時要盡量將數據顆粒小的列放在索引左側,以保證索引發揮最大的作用。
1.7 shard key選擇
范圍分片,能很好的支持范圍分片
hash分片,讀寫更好的均分到各個shard
2. shard key選擇應結合實際業務需求,需要避免的問題
1. shard key 取值范圍太小(low cardinality)
2. shard key某個值的文檔特別多,這樣導致單個chunk特別大(jumbo chunk),會影響chunk遷移及負載均衡
3. 根據非shard key進行查詢,更新操作會變成scatter-gather查詢,影響效率
備注:執行創建片鍵時,若collection不為空,則需要提前創建好索引;反之,則為創建該索引
3 . 選擇片鍵設計
1. 對集合進行分片時,要選擇一或兩個字段用于拆分數據,這個鍵就叫做片鍵。
2. 拆分數據最常用的數據分發方式有三種:升序片鍵、隨機分發的片鍵和基于位置的片鍵。
1). 升序片鍵:升序片鍵通常有點類似于"date"字段或者是ObjectId,是一種隨著時間穩定增長的字段。缺點:例如ObjectId可能會導致接下來的所有的寫入操作都在同一塊分片上。
2). 隨機分發的片鍵:隨機分發的片鍵可以是用戶名,郵件地址,UDID,MD5散列值或者數據集中其他一些沒有規律的鍵。缺點:MongoDB在隨機訪問超出RAM大小的數據時效率不高。
3). 基于位置的片鍵:基于位置的片鍵可以是用戶的IP、經緯度、或者地址。這里的"位置"比較抽象,不必與實際的物理位置字段相關。
如果希望特定范圍內的塊出現在特定的分片中,可以為分片添加tag,然后為塊指定相應的tag
3.1 片鍵策略:
1). 散列片鍵:如果追求的是數據加載速度的極致,那么散列片鍵是最佳選擇。散列片鍵可使其他任何鍵隨機分發,因此,如果打算在大量查詢中使用使用升序鍵,但同時又希望寫入數據隨機分發的話,
散列片鍵會是一個非常好的選擇。缺點:無法使用散列片鍵做指定目標的范圍查找。
創建步驟: db.users.ensureIndex({"username":"hashed"}) , sh.shardCollection("app.users",{"username":"hashed"})
2). GridFS的散列片鍵
3). 流水策略:如果有一些服務器比其他服務器更強大,我們可能希望讓這些強大的服務器處理更多的負載。比如說:加入有一個使用SSD的分片能夠處理10倍于其他機器的負載。我們可以強制將所有新數據插入到SSD,然后讓均衡器將舊的塊移動到其他分片上。
a. 為SSD指定一個標簽:sh.addShardTag("shard-name","ssd")
b. 將升序鍵的當前值一直到正無窮范圍的塊都指定分布在SSD分片上:sh.addTagRange("dbName.collName",{"_id":ObjectId()},...{"_id":MaxKey},"ssd") ,所有插入請求均會路由到這個塊上,這個塊始終位于標簽的ssd的分片上。
c. 除非修改標簽范圍,否則從升序鍵的當前值一直到正無窮都被固定在這個分片上。可以創建一個定時任務每天更新一次標簽范圍:
use config
var tag =db.tags.findOne({"ns":"dbName.collName",..."max":{"shardKey":MaxKey}})
tag.min.shardKey = ObjectId()
db.tags.save(tag)
這樣前一天的數據就會被移動到其他分片上了。
此策略的另一個缺點:需要修改才能進行擴展。如果寫請求超出了SSD的處理能力,無法進行負載均衡。
4). 多熱點:寫請求分布在集群中時,分片是最高效的。這種技術會創建多個熱點(最好在每個分片上都創建幾個熱點),寫請求于是會均衡地分布在集群內,而在單個分片上則是以升序分布的。
為了實現這種方式,需使用復合片鍵。復合片鍵中的第一個值只是比較粗略的隨機值,勢也比較低。
3.2 片鍵規則和指導方針:
1). 片鍵限制:片鍵不可以是數組。文檔一旦插入,其片鍵就無法修改了。要修改文檔的片鍵值,就必須先刪除文檔。
2). 片鍵的勢:選擇一個值會變化的的鍵非常重要,即值很多,隨著數據量的增大可以分出更多的片鍵。分片在勢比較高的字段上性能更佳。
3.3 控制數據分發
1). 對多個數據庫和集合使用一個集群:通過tag標記,將重要的數據放到性能更好的服務器上,將不重要的數據放在性能一般的服務器上。
2). 手動分片:如果不希望數據被自動分發,可以關閉均衡器,使用moveChunk命令手動對數據進行遷移。
開發規范
1 模式設計
1.1不要按照關系型來設計表結構
MongoDB可以讓你像關系型數據庫一樣設計表結構,但是它不支持外鍵,也不支持復雜的Join!如果你的程序發現有大量使用JOIN的地方,那你的設計可能需要重新來過。參照以下相關模式設計建議。
1.2 數據庫集合(collection)的數量不宜太多
MongoDB的模式設計基于靈活豐富的JSON文檔模式。在很多情況下,一個MongoDB應用的數據庫內的集合(表)的數量應該遠遠小于使用關系數據庫的同類型應用。MongoDB表設計不遵從第三范式。MongoDB的數據模型非常接近于對象模型,所以基本上就是按照主要的Domain object的數量來建相應的集合。根據經驗,一般小型應用的集合數量通常在幾個之內,中大型的應用會在10多個或者最多幾十個。
1.3 不要害怕數據冗余
MongoDB模式設計不能按照第三范式,很多時候允許數據在多個文檔中重復,比如說,在每一個員工的文檔中重復他的部門名字,就是一個可以接受的做法。如果部門名字改了,可以執行一個update({},{}, {multi:true}) 的多文檔更新來一次性把部門名字更新掉。
1.4 適合和不適合冗余的數據類型
一般來說,如果某個字段的數據值經常會變,則不太適合被大量冗余到別的文檔或者別的集合里面去。舉例來說,如果我們是在做一些股票類型資產管理, 可能有很多人都購買了Apple的股票,但是如果把經常變動的股價冗余到客戶的文檔里,由于股票價格變動頻繁,會導致有大量的更新操作。從另外一個角度來說,如果是一些不經常變的字段,如客戶的姓名,地址,部門等,則可以盡管進行冗余
對 1:N(一些)的關系使用全部內嵌
對于一對多的關系,如一個人有幾個聯系方式,一本書有10幾個章節,等等,建議使用內嵌方式,把N的數據以數組形式來描述,如:(查詢性能優)
> db.person.findOne(){user_id: 'tjworks',name: 'TJ Tang', contact : [{ type: 'mobile', number: '1856783691' },{ type: 'wechat', number: 'tjtang826'}]}對 1: NN (很多) 的關系使用ID內嵌
有些時候這個一對多的多端數量較大, 比如說,一個部門內有多少員工。在華為一個三級部門可能有數千員工,這個時候如果把所有員工信息直接內嵌到部門內肯定不是個好的選擇,有可能會超出16MB的文檔限制。這個時候可以采用引用ID的方式:(更新性能優)
> db.departments.findOne() {name : 'Enterprise BG',president: 'Zhang San',employees : [ // array of references to Employee colletionObjectID('AAAA'), ObjectID('F17C'), ObjectID('D2AA'),// etc] }如果需要查詢部門下員工相關信息,你可以使用$lookup聚合操作符來把員工信息進行關聯并返回。
對 1: NNN (很多) 的關系使用
如果一對多情況下,這個多端數量無限大并會頻繁增長,比如說,一個測量儀的每分鐘讀數,一年下來有幾十萬條,這個時候即使是把ID放到數組里都會管理不便,這個時候就應該把多端的數據創建一個集合,并在那個集合的文檔里加入對主文檔的連接引用,如:
> db.sensors.findOne(){_id : ObjectID('AAAB'),name : 'engine temperature',vin : '4GD93039GI239',engine_id: '20394802',manuafacture: 'First Motor',production_date: '2014-02-01'...}>db.readings.findOne(){time : ISODate("2014-03-28T09:42:41.382Z"),sensor: ObjectID('AAAB'),reading: 67.4 }1.5把二進制大文件和元數據分集合存放
如果你有需要把PDF文件,圖片,甚至小視頻等二進制文件需要管理,建議使用MongoDB 的GridFS API 或者自己手動分集合來分開管理二進制數據和元數據。
1.6 經常更新的數據不要放在嵌套數組內
數組是用來表達 1對多關系的利器,但是MongoDB對嵌套的數組內元素缺乏直接更新能力。比如說:
{name: "Annice",courses: [{ name: "English", score: 97 },{ name: "Math", score: 89 },{ name: "Physics", score: 95 }] }這樣設計沒有嵌套數組,我們可以直接對 Math的score 修改為99:
db.students.update({name: "Annice", "courses.name":"Math"}, {$set:{"courses.$.score": 99 }})
注意數組定位符 $ 的用法,$ 表示當前匹配的第一個數組元素的在數組內的索引。
但是下面這種情況就涉及到了數組嵌套:
{name: "Annice",courses: [{ name: "Math", scores: [ {term: 1, score: 80} ,{term: 2, score: 90}] },{ name: "Physics", score: 95 }]}這個時候如果你想對Math course的term 1的Score進行修改,你就需要把 scores 這個數組整個調到內存然后在代碼里對這個嵌套數組的元素進行修改。這是因為MongoDB的數組定位符 $ 只對第一層數組有效。
當然,如果你的模型不需要修改嵌套的數組內元素,那么這條就不適用。
1.程序配置
1.1.1 設定合適的MongoDB連接池大小 (Connections Per Host)
Java驅動的默認連接池大小是100(具體默認值以 Driver 的文檔為準)。建議按照應用的實際情況做調整。對壓力較小的應用可以適當調小減少對應用服務器的資源占用。
舉個例子,Mongod 的連接數限制為2000(shard的maxConns),應用業務上有40個服務進程可能同時訪問這個Mongod,這時每個進程里的 MongoClient 的連接數則應該限制在 2000 / 40 = 50 以下 (連接復制集時,MongoClient 還要跟復制集的每個成員建立一條連接,用于監控復制集后端角色的變化情況)
1.1.2 正確使用寫關注設置(Write Concern)
MongoDB的建議最小部署是一個復制集,包含3個數據節點。默認情況下應用的寫操作(更新,插入或者刪除)在主節點上完成后就會立即返回。寫操作則通過OPLOG方式在后臺異步方式復制到其他節點。在極端情況下,這些寫操作可能還未在復制到從節點的時候主節點就出現宕機。這個時候發生主備節點切換,原主節點的寫操作會被回滾到文件而對應用不可見。為防止這種情況出現,MongoDB建議對重要的數據使用 {w: “marjority”} 的選項。{w:”majority”} 可以保證數據在復制到多數節點后才返回成功結果。使用該機制可以有效防止數據回滾的發生。
另外你可以使用 {j:1} (可以和 w:”majrotiy” 結合使用) 來指定數據必須在寫入WAL日志之后才向應用返回成功確認。這個會導致寫入性能有所下降,但是對于重要的數據可以考慮使用。
1.1.3 正確使用讀選項設置(Read Preference)
MongoDB由于是一個分布式系統,一份數據會在多個節點上進行復制。從哪個節點上讀數據,要根據應用讀數據的需求而定。以下是集中可以配置的讀選項:
primary: 默認,在主節點上讀數據
primaryPreferred: 先從主節點上讀,如果未成功再到任意一臺從節點上讀
secondary: 在從節點上讀數據(當有多臺節點的時候,隨機的使用某一臺從節點)
secondaryPreferred: 首先從從節點上讀,如果從節點由于某種原因不能提供服務,則從主節點上進行讀
nearest: 從距離最近的節點來讀。距離由ping操作的時間來決定。
除第一個選項之外,其他讀選項都存在讀到的數據不是最新的可能。原因是數據的復制是后臺異步完成的。
1.1.4 不要實例化多個MongoClient
MongoClient是個線程安全的類,自帶線程池。通常在一個JVM內不要實例化多個MongoClient實例,避免連接數過多和資源的不必要浪費。
1.1.5 對寫操作使用Retry機制
MongoDB使用復制集技術可以實現99.999%的高可用。當一臺主節點不能寫入時,系統會自動故障轉移到另一臺節點。轉移可能會耗時幾秒鐘,在這期間應用應該捕獲相應的Exception并執行重試操作。重試應該有backoff機制,例如,分別在1s,2s,4s,8s等時候進行重試。
1.1.6 避免使用太長的字段名
MongoDB 沒有表結構定義。每個文檔的結構由每個文檔內部的字段決定。所有字段名會在每個文檔內重復。使用太長的字段名字會導致對內存、網絡帶寬更多的需求。(由于壓縮技術,長字段名對硬盤上的存儲不會有太多占用)
1.1.7 使用有規律的命名方式
如: School, Course, StudentRecord
或者:school, course, stuent_record
1.1.8 正確使用更新語句
不要把MongoDB和普通的鍵值型數據庫(KV)視為等同。MongoDB支持和關系型數據庫update語句類似的in place update。你只需要在update語句中指定需要更新的字段,而不是整個文檔對象。
舉例來說,加入我想把用戶的名字從TJ改為Tang Jianfa.
不建議的做法:
user = db.users.findOne({_id: 101});
user.name="Tang Jianfa"
db.users.save(user);
建議的做法:
user = db.users.findOne({_id: 101});
// do certain things
db.users.update({_id:101}, {$set: {name: "Tang Jianfa"}});
使用投射 (projection)來減少返回的內容
MongoDB 支持類似于SQL語句里面的select,可以對返回的字段進行過濾。使用Projection可以減少返回的內容,降低網絡傳輸的量和代碼中轉化成對象所需的時間。
1.1.9 使用TTL來自動刪除過期的數據
很多時候我們用MongoDB來存儲一些時效性的數據,如7天的監控數據。與其自己寫個后臺腳本定期清理過期數據,你可以使用TTL索引來讓MongoDB自動刪除過期數據:
db.data.createIndex({create_time:1}, {expireAfterSeconds: 7*24*3600})
分表可采用drop的方式
1.1.10 使用execute命令來實現upsert
有些時候你不知道一條文檔數據是否已經在庫里存在。這個時候你要么先查詢一下,要么就是使用upsert語句。在SpringData下面upsert語句需要你把每個字段的值都在upsert語句中格式化出來。字段多的時候未免有些繁瑣。SpringData MongoDB里面的MongoTemplate有個execute方法可以用來實現一個DB調用,也不用繁瑣的把所有字段羅列出來的例子。
public boolean persistEmployee(Employee employee) throws Exception {BasicDBObject dbObject = new BasicDBObject();mongoTemplate.getConverter().write(employee, dbObject);mongoTemplate.execute(Employee.class, new CollectionCallback<Object>() {public Object doInCollection(DBCollection collection) throws MongoException, DataAccessException {collection.update(new Query(Criteria.where("name").is(employee.getName())).getQueryObject(),dbObject,true, // means upsert - truefalse // multi update – false);return null;}});return true;}Java API 操作
需要導入的文件:
import com.mongodb.MongoClient; import com.mongodb.MongoClientURI; import com.mongodb.ServerAddress; import com.mongodb.MongoCredential; import com.mongodb.MongoClientOptions; import java.util.Arrays;使用MongoClient連接MongoDB,該MongoClient實例表示到數據庫的連接池,即使你有多個線程,也只需使用一個MongoClient。如果創建了多個MongoClient,可以使用MongoClient.close()進行關閉。
1.1 連接單獨的MongoDB
可以實例化一個沒有任何參數的MongoClient對象來連接到在本地主機上運行的MongoDB實例(默認端口27017):
MongoClient mongoClient = new MongoClient(); 可以明確指定主機名以連接到在指定主機上運行的MongoDB實例(默認端口27017): MongoClient mongoClient = new MongoClient( "host1" );可以明確指定主機名和端口:
MongoClient mongoClient = new MongoClient( "host1" , 27017 );
可以指定MongoClientURI連接字符串
MongoClient mongoClient = new MongoClient(new MongoClientURI
("mongodb://host1:27017"));
1.2 連接副本集
可以使用MongoClientURI指定副本集成員:
1. 指定至少兩個成員:
MongoClient mongoClient = new MongoClient( new MongoClientURI( "mongodb://host1:27017,host2:27017,host3:27017"));2. 指定至少一個成員并且標明replicaSet:
MongoClient mongoClient = new MongoClient( new MongoClientURI( "mongodb://host1:27017,host2:27017,host3:27017/?replicaSet=myReplicaSet"));重點:MongoDB復制集里Primary節點是不固定的,當遇到復制集輪轉升級、Primary宕機、網絡分區等場景時,復制集可能會選舉出一個新的Primary,而原來的Primary則會降級為Secondary,即發生主備切換。總而言之,MongoDB復制集里Primary節點是不固定的。
當連接復制集時,如果只指定Primary的地址來連接,當時可能可以正確讀寫數據的,但一旦復制集發生主備切換,你連接的Primary會降級為Secondary,你將無法繼續執行寫操作,這將嚴重影響到你的線上服務。
所以生產環境千萬不要只連Primary。建議連接參數里面把所有主從節點都加上,使得能夠自動識別主節點。
1.3連接分片集群
連接單個mongos:
MongoClient mongoClient = new MongoClient( "localhost" , 27017 );MongoClient mongoClient = new MongoClient(new MongoClientURI( "mongodb://localhost:27017"));連接多個mongos:
MongoClient mongoClient = new MongoClient(new MongoClientURI( "mongodb://host1:27017,host2:27017"));重點:連接分片集群時,務必確保 MongoDB URI 里包含2個及以上的mongos地址,來實現負載均衡及高可用。客戶端會自動將請求分散到多個mongos 上,以實現負載均衡;同時,當URI 里 mongos 數量在2個及以上時,當有mongos故障時,客戶端能自動進行 failover,將請求都分散到狀態正常的 mongos 上。
1.4 數據庫和集合
MongoDB存儲的一條數據叫做文檔,文檔儲存在集合里,集合儲存在數據庫中。
進行之后操作前需要引入的文件:
import com.mongodb.MongoClient; import com.mongodb.client.MongoCollection; import com.mongodb.client.MongoDatabase; import static com.mongodb.client.model.Filters.*; import com.mongodb.client.model.CreateCollectionOptions; import com.mongodb.client.model.ValidationOptions;連接集合
首先連接MongoDB:
MongoClient mongoClient = new MongoClient();
一旦你有一個MongoClient實例連接到MongoDB部署,使用它的getDatabase()方法來訪問數據庫。
為該getDatabase()方法指定數據庫的名稱。如果數據庫不存在,那么MongoDB會在首次存儲該數據庫的數據時創建數據庫。
MongoDatabase database = mongoClient.getDatabase("test");
注意:MongoDatabase 實例是不可變的。
一旦你有一個MongoDatabase實例,使用它的getCollection() 方法來訪問一個集合。
為該getCollection()方法指定集合的名稱。如果一個集合不存在,當你第一次存儲該集合的數據時,MongoDB會創建該集合。
MongoCollection<Document> coll = database.getCollection("myTestCollection");
注意:MongoCollection實例是不可變的。
每次執行完后,切記要關閉連接
MongoClient.close()
總結
以上是生活随笔為你收集整理的mongodb查询值不为空_MongoDB使用规范(上)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python写后台接口请求出错_pyth
- 下一篇: 主线程 唤醒_Java等待唤醒机制统计子