漫游Kafka设计篇之主从同步
原文地址:http://blog.csdn.net/honglei915/article/details/37565289
Kafka視頻教程同步首發,歡迎觀看!
Kafka允許topic的分區擁有若干副本,這個數量是可以配置的,你可以為每個topci配置副本的數量。Kafka會自動在每個個副本上備份數據,所以當一個節點down掉時數據依然是可用的。
Kafka的副本功能不是必須的,你可以配置只有一個副本,這樣其實就相當于只有一份數據。
創建副本的單位是topic的分區,每個分區都有一個leader和零或多個followers.所有的讀寫操作都由leader處理,一般分區的數量都比broker的數量多的多,各分區的leader均勻的分布在brokers中。所有的followers都復制leader的日志,日志中的消息和順序都和leader中的一致。flowers向普通的consumer那樣從leader那里拉取消息并保存在自己的日志文件中。許多分布式的消息系統自動的處理失敗的請求,它們對一個節點是否
著(alive)”有著清晰的定義。Kafka判斷一個節點是否活著有兩個條件:
只有當消息被所有的副本加入到日志中時,才算是“committed”,只有committed的消息才會發送給consumer,這樣就不用擔心一旦leader down掉了消息會丟失。Producer也可以選擇是否等待消息被提交的通知,這個是由參數request.required.acks決定的。
Kafka保證只要有一個“同步中”的節點,“committed”的消息就不會丟失。
Leader的選擇Kafka的核心是日志文件,日志文件在集群中的同步是分布式數據系統最基礎的要素。 ?
如果leaders永遠不會down的話我們就不需要followers了!一旦leader down掉了,需要在followers中選擇一個新的leader.但是followers本身有可能延時太久或者crash,所以必須選擇高質量的follower作為leader.必須保證,一旦一個消息被提交了,但是leader down掉了,新選出的leader必須可以提供這條消息。大部分的分布式系統采用了多數投票法則選擇新的leader,對于多數投票法則,就是根據所有副本節點的狀況動態的選擇最適合的作為leader.Kafka并不是使用這種方法。
Kafaka動態維護了一個同步狀態的副本的集合(a set of in-sync replicas),簡稱ISR,在這個集合中的節點都是和leader保持高度一致的,任何一條消息必須被這個集合中的每個節點讀取并追加到日志中了,才回通知外部這個消息已經被提交了。因此這個集合中的任何一個節點隨時都可以被選為leader.ISR在ZooKeeper中維護。ISR中有f+1個節點,就可以允許在f個節點down掉的情況下不會丟失消息并正常提供服。ISR的成員是動態的,如果一個節點被淘汰了,當它重新達到“同步中”的狀態時,他可以重新加入ISR.這種leader的選擇方式是非常快速的,適合kafka的應用場景。
一個邪惡的想法:如果所有節點都down掉了怎么辦?Kafka對于數據不會丟失的保證,是基于至少一個節點是存活的,一旦所有節點都down了,這個就不能保證了。實際應用中,當所有的副本都down掉時,必須及時作出反應。可以有以下兩種選擇:
這種窘境不只Kafka會遇到,幾乎所有的分布式數據系統都會遇到。
副本管理以上僅僅以一個topic一個分區為例子進行了討論,但實際上一個Kafka將會管理成千上萬的topic分區.Kafka盡量的使所有分區均勻的分布到集群所有的節點上而不是集中在某些節點上,另外主從關系也盡量均衡這樣每個幾點都會擔任一定比例的分區的leader.
優化leader的選擇過程也是很重要的,它決定了系統發生故障時的空窗期有多久。Kafka選擇一個節點作為“controller”,當發現有節點down掉的時候它負責在游泳分區的所有節點中選擇新的leader,這使得Kafka可以批量的高效的管理所有分區節點的主從關系。如果controller down掉了,活著的節點中的一個會備切換為新的controller.總結
以上是生活随笔為你收集整理的漫游Kafka设计篇之主从同步的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 漫游Kafka设计篇之Producer和
- 下一篇: 漫游Kafka实战篇之客户端编程实例