大数据读书笔记(1)
1. 數據分片與路由
? ?抽象模型為兩級映射關系,第一級映射是key-partition映射,第二級映射是partition-machine映射。
? ? ?數據分片有哈希分片和范圍分片:
哈希分片只支持點查詢,如cassandra,voltmort,membase;
范圍分片支持范圍查詢,google的bigtable 和ms的azure;
同時支持兩種的yahoo的pnuts。
2.哈希分片時進行數據分片的常見手段,其中最常見的3中哈希分片方式分表是:輪詢、虛擬桶、一致哈希方法
? 2.1 輪詢也稱哈希取模方法
? ? ? ? H(key)=hash(key)modK
優點:實現簡單
缺點:缺乏靈活性,如新增或者減少一臺物理機時需要重新hash
? ? ?原因:將key-partition映射和partition-machine映射合二為一了,兩部分都由同一哈希函數完成,導致了機器和映射函數的緊耦合。
2.2 虛擬桶
key-partition映射采用哈希函數,partition-machine采用表格管理實現。
2.3 一致性哈希
分布式哈希表DHT(distributed hash table)
3. 范圍分片
? ? ?首先將所有記錄的主鍵進行排序,然后在排好序的主鍵空間里將記錄劃分成數據分片,每個數據分片存儲有序的主鍵空間片段內的所有記錄。
數據分片在物理機的管理方式往往采用LSM樹。
?
參考文獻:
【1】http://blog.csdn.net/gdhuyufei/article/details/42101231
?
轉載于:https://www.cnblogs.com/davidwang456/p/4931197.html
總結
以上是生活随笔為你收集整理的大数据读书笔记(1)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Want to archive tabl
- 下一篇: 大数据读书笔记(2)-流式计算