使用消息队列实现分布式事务-公认较为理想的分布式事务解决方案(转)
前陣子從支付寶轉賬1萬塊錢到余額寶,這是日常生活的一件普通小事,但作為互聯網研發人員的職業病,我就思考支付寶扣除1萬之后,如果系統掛掉怎么辦,這時余額寶賬戶并沒有增加1萬,數據就會出現不一致狀況了。
上述場景在各個類型的系統中都能找到相似影子,比如在電商系統中,當有用戶下單后,除了在訂單表插入一條記錄外,對應商品表的這個商品數量必須減1吧,怎么保證?!在搜索廣告系統中,當用戶點擊某廣告后,除了在點擊事件表中增加一條記錄外,還得去商家賬戶表中找到這個商家并扣除廣告費吧,怎么保證?!等等,相信大家或多或多少都能碰到相似情景。
本質上問題可以抽象為:當一個表數據更新后,怎么保證另一個表的數據也必須要更新成功。
1 本地事務
還是以支付寶轉賬余額寶為例,假設有
- 支付寶賬戶表:A(id,userId,amount)
- 余額寶賬戶表:B(id,userId,amount)
- 用戶的userId=1;
從支付寶轉賬1萬塊錢到余額寶的動作分為兩步:
- 1)支付寶表扣除1萬:update A set amount=amount-10000 where userId=1;
- 2)余額寶表增加1萬:update B set amount=amount+10000 where userId=1;
如何確保支付寶余額寶收支平衡呢?
有人說這個很簡單嘛,可以用事務解決。
BegintransactionupdateA setamount=amount-10000where userId=1;updateB setamount=amount+10000where userId=1;Endtransactioncommit;非常正確,如果你使用spring的話一個注解就能搞定上述事務功能。
@Transactional(rollbackFor=Exception.class)publicvoid update() {updateATable(); //更新A表updateBTable(); //更新B表}如果系統規模較小,數據表都在一個數據庫實例上,上述本地事務方式可以很好地運行,但是如果系統規模較大,比如支付寶賬戶表和余額寶賬戶表顯然不會在同一個數據庫實例上,他們往往分布在不同的物理節點上,這時本地事務已經失去用武之地。
既然本地事務失效,分布式事務自然就登上舞臺。
2 分布式事務—兩階段提交協議
兩階段提交協議(Two-phase Commit,2PC)經常被用來實現分布式事務。一般分為協調器C和若干事務執行者Si兩種角色,這里的事務執行者就是具體的數據庫,協調器可以和事務執行器在一臺機器上。
1) 我們的應用程序(client)發起一個開始請求到TC;
2) TC先將<prepare>消息寫到本地日志,之后向所有的Si發起<prepare>消息。以支付寶轉賬到余額寶為例,TC給A的prepare消息是通知支付寶數據庫相應賬目扣款1萬,TC給B的prepare消息是通知余額寶數據庫相應賬目增加1w。為什么在執行任務前需要先寫本地日志,主要是為了故障后恢復用,本地日志起到現實生活中憑證 的效果,如果沒有本地日志(憑證),出問題容易死無對證;
3) Si收到<prepare>消息后,執行具體本機事務,但不會進行commit,如果成功返回<yes>,不成功返回<no>。同理,返回前都應把要返回的消息寫到日志里,當作憑證。
4) TC收集所有執行器返回的消息,如果所有執行器都返回yes,那么給所有執行器發生送commit消息,執行器收到commit后執行本地事務的commit操作;如果有任一個執行器返回no,那么給所有執行器發送abort消息,執行器收到abort消息后執行事務abort操作。
注:TC或Si把發送或接收到的消息先寫到日志里,主要是為了故障后恢復用。如某一Si從故障中恢復后,先檢查本機的日志,如果已收到<commit >,則提交,如果<abort >則回滾。如果是<yes>,則再向TC詢問一下,確定下一步。如果什么都沒有,則很可能在<prepare>階段Si就崩潰了,因此需要回滾。
現如今實現基于兩階段提交的分布式事務也沒那么困難了,如果使用Java,那么可以使用開源軟件atomikos(http://www.atomikos.com/)來快速實現。
不過但凡使用過的上述兩階段提交的同學都可以發現性能實在是太差,根本不適合高并發的系統。為什么?
- 1)兩階段提交涉及多次節點間的網絡通信,通信時間太長!
- 2)事務時間相對于變長了,鎖定的資源的時間也變長了,造成資源等待時間也增加好多!
正是由于分布式事務存在很嚴重的性能問題,大部分高并發服務都在避免使用,往往通過其他途徑來解決數據一致性問題。
3 使用消息隊列來避免分布式事務
如果仔細觀察生活的話,生活的很多場景已經給了我們提示。
比如在北京很有名的姚記炒肝點了炒肝并付了錢后,他們并不會直接把你點的炒肝給你,而是給你一張小票,然后讓你拿著小票到出貨區排隊去取。為什么他們要將付錢和取貨兩個動作分開呢?原因很多,其中一個很重要的原因是為了使他們接待能力增強(并發量更高)。
還是回到我們的問題,只要這張小票在,你最終是能拿到炒肝的。同理轉賬服務也是如此,當支付寶賬戶扣除1萬后,我們只要生成一個憑證(消息)即可,這個憑證(消息)上寫著“讓余額寶賬戶增加 1萬”,只要這個憑證(消息)能可靠保存,我們最終是可以拿著這個憑證(消息)讓余額寶賬戶增加1萬的,即我們能依靠這個憑證(消息)完成最終一致性。
3.1 如何可靠保存憑證(消息)
有兩種方法:
3.1.1 業務與消息耦合的方式
支付寶在完成扣款的同時,同時記錄消息數據,這個消息數據與業務數據保存在同一數據庫實例里(消息記錄表表名為message)。
BegintransactionupdateA setamount=amount-10000where userId=1;insertinto message(userId, amount,status) values(1, 10000, 1);Endtransactioncommit;上述事務能保證只要支付寶賬戶里被扣了錢,消息一定能保存下來。
當上述事務提交成功后,我們通過實時消息服務將此消息通知余額寶,余額寶處理成功后發送回復成功消息,支付寶收到回復后刪除該條消息數據。
3.1.2 業務與消息解耦方式
上述保存消息的方式使得消息數據和業務數據緊耦合在一起,從架構上看不夠優雅,而且容易誘發其他問題。為了解耦,可以采用以下方式。
1)支付寶在扣款事務提交之前,向實時消息服務請求發送消息,實時消息服務只記錄消息數據,而不真正發送,只有消息發送成功后才會提交事務;
2)當支付寶扣款事務被提交成功后,向實時消息服務確認發送。只有在得到確認發送指令后,實時消息服務才真正發送該消息;
3)當支付寶扣款事務提交失敗回滾后,向實時消息服務取消發送。在得到取消發送指令后,該消息將不會被發送;
4)對于那些未確認的消息或者取消的消息,需要有一個消息狀態確認系統定時去支付寶系統查詢這個消息的狀態并進行更新。為什么需要這一步驟,舉個例子:假設在第2步支付寶扣款事務被成功提交后,系統掛了,此時消息狀態并未被更新為“確認發送”,從而導致消息不能被發送。
優點:消息數據獨立存儲,降低業務系統與消息系統間的耦合;
缺點:一次消息發送需要兩次請求;業務處理服務需要實現消息狀態回查接口。
3.2 如何解決消息重復投遞的問題
還有一個很嚴重的問題就是消息重復投遞,以我們支付寶轉賬到余額寶為例,如果相同的消息被重復投遞兩次,那么我們余額寶賬戶將會增加2萬而不是1萬了。
為什么相同的消息會被重復投遞?比如余額寶處理完消息msg后,發送了處理成功的消息給支付寶,正常情況下支付寶應該要刪除消息msg,但如果支付寶這時候悲劇的掛了,重啟后一看消息msg還在,就會繼續發送消息msg。
解決方法很簡單,在余額寶這邊增加消息應用狀態表(message_apply),通俗來說就是個賬本,用于記錄消息的消費情況,每次來一個消息,在真正執行之前,先去消息應用狀態表中查詢一遍,如果找到說明是重復消息,丟棄即可,如果沒找到才執行,同時插入到消息應用狀態表(同一事務)。
foreach msg inqueueBegintransactionselectcount(*) ascnt from message_apply where msg_id=msg.msg_id;ifcnt==0thenupdateB setamount=amount+10000where userId=1;insertinto message_apply(msg_id) values(msg.msg_id);Endtransactioncommit;ebay的研發人員其實在2008年就提出了應用消息狀態確認表來解決消息重復投遞的問題:http://queue.acm.org/detail.cfm?id=1394128。
?
補充:
之前看多阿里大神程立的一個關于分布式事務的文檔,目前使用較多的分布式事務解決方案有幾種:
一、結合MQ消息中間件實現的可靠消息最終一致性
二、TCC補償性事務解決方案
三、最大努力通知型方案
第一種方案:可靠消息最終一致性,需要業務系統結合MQ消息中間件實現,在實現過程中需要保證消息的成功發送及成功消費。即需要通過業務系統控制MQ的消息狀態
第二種方案:TCC補償性,分為三個階段TRYING-CONFIRMING-CANCELING。每個階段做不同的處理。
TRYING階段主要是對業務系統進行檢測及資源預留
CONFIRMING階段是做業務提交,通過TRYING階段執行成功后,再執行該階段。默認如果TRYING階段執行成功,CONFIRMING就一定能成功。
CANCELING階段是回對業務做回滾,在TRYING階段中,如果存在分支事務TRYING失敗,則需要調用CANCELING將已預留的資源進行釋放。
第三種方案:最大努力通知xing型,這種方案主要用在與第三方系統通訊時,比如:調用微信或支付寶支付后的支付結果通知。這種方案也是結合MQ進行實現,例如:通過MQ發送http請求,設置最大通知次數。達到通知次數后即不再通知。
具體的案例你也可以參考下這篇博客,它上面的這個案例就是結合電商支付做的系統分布式事務實現案例:http://www.roncoo.com/article/detail/124243
基于事務消息的MQ方案是目前公認的較為理想的分布式事務解決方案,各大電商都在應用這一方案。種方式適合的業務場景廣泛,而且比較可靠。不過這種方式技術實現的難度比較大。目前主流的開源MQ(ActiveMQ、RabbitMQ、Kafka)均未實現對事務消息的支持,所以需二次開發或者新造輪子。
轉載于:https://www.cnblogs.com/jobnet/articles/7430019.html
總結
以上是生活随笔為你收集整理的使用消息队列实现分布式事务-公认较为理想的分布式事务解决方案(转)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: .NET自动化测试工具链:Seleniu
- 下一篇: 一起学ASP.NET Core 2.0学