如何优化MySQL千万级大表
很好的一篇博客,轉(zhuǎn)載
如何優(yōu)化MySQL千萬級(jí)大表
原文鏈接::https://blog.csdn.net/yangjianrong1985/article/details/102675334
?
千萬級(jí)大表如何優(yōu)化,這是一個(gè)很有技術(shù)含量的問題,通常我們的直覺思維都會(huì)跳轉(zhuǎn)到拆分或者數(shù)據(jù)分區(qū),在此我想做一些補(bǔ)充和梳理,想和大家做一些這方面的經(jīng)驗(yàn)總結(jié),也歡迎大家提出建議。?
從一開始腦海里開始也是火光四現(xiàn),到不斷的自我批評(píng),后來也參考了一些團(tuán)隊(duì)的經(jīng)驗(yàn),我整理了下面的大綱內(nèi)容。
既然要吃透這個(gè)問題,我們勢(shì)必要回到本源,我把這個(gè)問題分為三部分:
“千萬級(jí)”,“大表”,“優(yōu)化”,
也分別對(duì)應(yīng)我們?cè)趫D中標(biāo)識(shí)的
“數(shù)據(jù)量”,“對(duì)象”和“目標(biāo)”。
我來逐步展開說明一下,從而給出一系列的解決方案。?
1.數(shù)據(jù)量:千萬級(jí)
千萬級(jí)其實(shí)只是一個(gè)感官的數(shù)字,就是我們印象中的數(shù)據(jù)量大。?這里我們需要把這個(gè)概念細(xì)化,因?yàn)殡S著業(yè)務(wù)和時(shí)間的變化,數(shù)據(jù)量也會(huì)有變化,我們應(yīng)該是帶著一種動(dòng)態(tài)思維來審視這個(gè)指標(biāo),從而對(duì)于不同的場(chǎng)景我們應(yīng)該有不同的處理策略。
?
1)?數(shù)據(jù)量為千萬級(jí),可能達(dá)到億級(jí)或者更高
通常是一些數(shù)據(jù)流水,日志記錄的業(yè)務(wù),里面的數(shù)據(jù)隨著時(shí)間的增長(zhǎng)會(huì)逐步增多,超過千萬門檻是很容易的一件事情。
2)?數(shù)據(jù)量為千萬級(jí),是一個(gè)相對(duì)穩(wěn)定的數(shù)據(jù)量
如果數(shù)據(jù)量相對(duì)穩(wěn)定,通常是在一些偏向于狀態(tài)的數(shù)據(jù),比如有1000萬用戶,那么這些用戶的信息在表中都有相應(yīng)的一行數(shù)據(jù)記錄,隨著業(yè)務(wù)的增長(zhǎng),這個(gè)量級(jí)相對(duì)是比較穩(wěn)定的。
3)?數(shù)據(jù)量為千萬級(jí),不應(yīng)該有這么多的數(shù)據(jù)
這種情況是我們被動(dòng)發(fā)現(xiàn)的居多,通常發(fā)現(xiàn)的時(shí)候已經(jīng)晚了,比如你看到一個(gè)配置表,數(shù)據(jù)量上千萬;或者說一些表里的數(shù)據(jù)已經(jīng)存儲(chǔ)了很久,99%的數(shù)據(jù)都屬于過期數(shù)據(jù)或者垃圾數(shù)據(jù)。
數(shù)據(jù)量是一個(gè)整體的認(rèn)識(shí),我們需要對(duì)數(shù)據(jù)做更近一層的理解,這就可以引出第二個(gè)部分的內(nèi)容。?
2.對(duì)象:數(shù)據(jù)表
數(shù)據(jù)操作的過程就好比數(shù)據(jù)庫中存在著多條管道,這些管道中都流淌著要處理的數(shù)據(jù),這些數(shù)據(jù)的用處和歸屬是不一樣的。
一般根據(jù)業(yè)務(wù)類型把數(shù)據(jù)分為三種:
(1)流水型數(shù)據(jù)
流水型數(shù)據(jù)是無狀態(tài)的,多筆業(yè)務(wù)之間沒有關(guān)聯(lián),每次業(yè)務(wù)過來的時(shí)候都會(huì)產(chǎn)生新的單據(jù),比如交易流水、支付流水,只要能插入新單據(jù)就能完成業(yè)務(wù),特點(diǎn)是后面的數(shù)據(jù)不依賴前面的數(shù)據(jù),所有的數(shù)據(jù)按時(shí)間流水進(jìn)入數(shù)據(jù)庫。
(2)狀態(tài)型數(shù)據(jù)
狀態(tài)型數(shù)據(jù)是有狀態(tài)的,多筆業(yè)務(wù)之間依賴于有狀態(tài)的數(shù)據(jù),而且要保證該數(shù)據(jù)的準(zhǔn)確性,比如充值時(shí)必須要拿到原來的余額,才能支付成功。
(3)配置型數(shù)據(jù)
此類型數(shù)據(jù)數(shù)據(jù)量較小,而且結(jié)構(gòu)簡(jiǎn)單,一般為靜態(tài)數(shù)據(jù),變化頻率很低。
至此,我們可以對(duì)整體的背景有一個(gè)認(rèn)識(shí)了,如果要做優(yōu)化,其實(shí)要面對(duì)的是這樣的3*3的矩陣,如果要考慮表的讀寫比例(讀多寫少,讀少寫多...),那么就會(huì)是3*3*4=24種,顯然做窮舉是不顯示的,而且也完全沒有必要,可以針對(duì)不同的數(shù)據(jù)存儲(chǔ)特性和業(yè)務(wù)特點(diǎn)來指定不同的業(yè)務(wù)策略。?
對(duì)此我們采取抓住重點(diǎn)的方式,把常見的一些優(yōu)化思路梳理出來,尤其是里面的核心思想,也是我們整個(gè)優(yōu)化設(shè)計(jì)的一把尺子,而難度決定了我們做這件事情的動(dòng)力和風(fēng)險(xiǎn)。
數(shù)據(jù)量增長(zhǎng)情況
而對(duì)于優(yōu)化方案,我想采用面向業(yè)務(wù)的維度來進(jìn)行闡述。?
3.目標(biāo):優(yōu)化
在這個(gè)階段,我們要說優(yōu)化的方案了,總結(jié)的有點(diǎn)多,相對(duì)來說是比較全了。
整體分為五個(gè)部分:
其實(shí)我們通常所說的分庫分表等方案只是其中的一小部分,如果展開之后就比較豐富了。
?
其實(shí)不難理解,我們要支撐的表數(shù)據(jù)量是千萬級(jí)別,相對(duì)來說是比較大了,DBA要維護(hù)的表肯定不止一張,如何能夠更好的管理,同時(shí)在業(yè)務(wù)發(fā)展中能夠支撐擴(kuò)展,同時(shí)保證性能,這是擺在我們面前的幾座大山。
我們分別來說一下這五類改進(jìn)方案:
優(yōu)化設(shè)計(jì)方案1.規(guī)范設(shè)計(jì)
在此我們先提到的是規(guī)范設(shè)計(jì),而不是其他高大上的設(shè)計(jì)方案。
黑格爾說:秩序是自由的第一條件。在分工協(xié)作的工作場(chǎng)景中尤其重要,否則團(tuán)隊(duì)之間互相牽制太多,問題多多。
規(guī)范設(shè)計(jì)我想提到如下的幾個(gè)規(guī)范,其實(shí)只是屬于開發(fā)規(guī)范的一部分內(nèi)容,可以作為參考。
?
規(guī)范的本質(zhì)不是解決問題,而是有效杜絕一些潛在問題,對(duì)于千萬級(jí)大表要遵守的規(guī)范,我梳理了如下的一些細(xì)則,基本可以涵蓋我們常見的一些設(shè)計(jì)和使用問題,比如表的字段設(shè)計(jì)不管三七二十一,都是varchar(500),其實(shí)是很不規(guī)范的一種實(shí)現(xiàn)方式,我們來展開說一下這幾個(gè)規(guī)范。
1)配置規(guī)范
(1)MySQL數(shù)據(jù)庫默認(rèn)使用InnoDB存儲(chǔ)引擎。
(2)保證字符集設(shè)置統(tǒng)一,MySQL數(shù)據(jù)庫相關(guān)系統(tǒng)、數(shù)據(jù)庫、表的字符集使都用UTF8,應(yīng)用程序連接、展示等可以設(shè)置字符集的地方也都統(tǒng)一設(shè)置為UTF8字符集。
注:UTF8格式是存儲(chǔ)不了表情類數(shù)據(jù),需要使用UTF8MB4,可在MySQL字符集里面設(shè)置。在8.0中已經(jīng)默認(rèn)為UTF8MB4,可以根據(jù)公司的業(yè)務(wù)情況進(jìn)行統(tǒng)一或者定制化設(shè)置。
(3)MySQL數(shù)據(jù)庫的事務(wù)隔離級(jí)別默認(rèn)為RR(Repeatable-Read),建議初始化時(shí)統(tǒng)一設(shè)置為RC(Read-Committed),對(duì)于OLTP業(yè)務(wù)更適合。
(4)數(shù)據(jù)庫中的表要合理規(guī)劃,控制單表數(shù)據(jù)量,對(duì)于MySQL數(shù)據(jù)庫來說,建議單表記錄數(shù)控制在2000W以內(nèi)。
(5)MySQL實(shí)例下,數(shù)據(jù)庫、表數(shù)量盡可能少;數(shù)據(jù)庫一般不超過50個(gè),每個(gè)數(shù)據(jù)庫下,數(shù)據(jù)表數(shù)量一般不超過500個(gè)(包括分區(qū)表)。
2)建表規(guī)范
(1)InnoDB禁止使用外鍵約束,可以通過程序?qū)用姹WC。
(2)存儲(chǔ)精確浮點(diǎn)數(shù)必須使用DECIMAL替代FLOAT和DOUBLE。
(3)整型定義中無需定義顯示寬度,比如:使用INT,而不是INT(4)。
(4)不建議使用ENUM類型,可使用TINYINT來代替。
(5)盡可能不使用TEXT、BLOB類型,如果必須使用,建議將過大字段或是不常用的描述型較大字段拆分到其他表中;另外,禁止用數(shù)據(jù)庫存儲(chǔ)圖片或文件。
(6)存儲(chǔ)年時(shí)使用YEAR(4),不使用YEAR(2)。
(7)建議字段定義為NOT NULL。
(8)建議DBA提供SQL審核工具,建表規(guī)范性需要通過審核工具審核后
3)命名規(guī)范
(1)庫、表、字段全部采用小寫。
(2)庫名、表名、字段名、索引名稱均使用小寫字母,并以“_”分割。
(3)庫名、表名、字段名建議不超過12個(gè)字符。(庫名、表名、字段名支持最多64個(gè)字符,但為了統(tǒng)一規(guī)范、易于辨識(shí)以及減少傳輸量,統(tǒng)一不超過12字符)
(4)庫名、表名、字段名見名知意,不需要添加注釋。
對(duì)于對(duì)象命名規(guī)范的一個(gè)簡(jiǎn)要總結(jié)如下表4-1所示,供參考。
命名列表
?
?
4)索引規(guī)范
(1)索引建議命名規(guī)則:idx_col1_col2[_colN]、uniq_col1_col2[_colN](如果字段過長(zhǎng)建議采用縮寫)。
(2)索引中的字段數(shù)建議不超過5個(gè)。
(3)單張表的索引個(gè)數(shù)控制在5個(gè)以內(nèi)。
(4)InnoDB表一般都建議有主鍵列,尤其在高可用集群方案中是作為必須項(xiàng)的。
(5)建立復(fù)合索引時(shí),優(yōu)先將選擇性高的字段放在前面。
(6)UPDATE、DELETE語句需要根據(jù)WHERE條件添加索引。
(7)不建議使用%前綴模糊查詢,例如LIKE “%weibo”,無法用到索引,會(huì)導(dǎo)致全表掃描。
(8)合理利用覆蓋索引,例如:
(9)SELECT email,uid FROM user_email WHERE uid=xx,如果uid不是主鍵,可以創(chuàng)建覆蓋索引idx_uid_email(uid,email)來提高查詢效率。
(10)避免在索引字段上使用函數(shù),否則會(huì)導(dǎo)致查詢時(shí)索引失效。
(11)確認(rèn)索引是否需要變更時(shí)要聯(lián)系DBA。
5)應(yīng)用規(guī)范
(1)避免使用存儲(chǔ)過程、觸發(fā)器、自定義函數(shù)等,容易將業(yè)務(wù)邏輯和DB耦合在一起,后期做分布式方案時(shí)會(huì)成為瓶頸。
(2)考慮使用UNION ALL,減少使用UNION,因?yàn)閁NION ALL不去重,而少了排序操作,速度相對(duì)比UNION要快,如果沒有去重的需求,優(yōu)先使用UNION ALL。
(3)考慮使用limit N,少用limit M,N,特別是大表或M比較大的時(shí)候。
(4)減少或避免排序,如:group by語句中如果不需要排序,可以增加order by null。
(5)統(tǒng)計(jì)表中記錄數(shù)時(shí)使用COUNT(*),而不是COUNT(primary_key)和COUNT(1);InnoDB表避免使用COUNT(*)操作,計(jì)數(shù)統(tǒng)計(jì)實(shí)時(shí)要求較強(qiáng)可以使用Memcache或者Redis,非實(shí)時(shí)統(tǒng)計(jì)可以使用單獨(dú)統(tǒng)計(jì)表,定時(shí)更新。
(6)做字段變更操作(modify column/change column)的時(shí)候必須加上原有的注釋屬性,否則修改后,注釋會(huì)丟失。
(7)使用prepared statement可以提高性能并且避免SQL注入。
(8)SQL語句中IN包含的值不應(yīng)過多。
(9)UPDATE、DELETE語句一定要有明確的WHERE條件。
(10)WHERE條件中的字段值需要符合該字段的數(shù)據(jù)類型,避免MySQL進(jìn)行隱式類型轉(zhuǎn)化。
(11)SELECT、INSERT語句必須顯式的指明字段名稱,禁止使用SELECT *?或是INSERT INTO table_name values()。
(12)INSERT語句使用batch提交(INSERT INTO table_name VALUES(),(),()……),values的個(gè)數(shù)不應(yīng)過多。
優(yōu)化設(shè)計(jì)方案2:業(yè)務(wù)層優(yōu)化
業(yè)務(wù)層優(yōu)化應(yīng)該是收益最高的優(yōu)化方式了,而且對(duì)于業(yè)務(wù)層完全可見,主要有業(yè)務(wù)拆分,數(shù)據(jù)拆分和兩類常見的優(yōu)化場(chǎng)景(讀多寫少,讀少寫多)
?
1)業(yè)務(wù)拆分
ü?將混合業(yè)務(wù)拆分為獨(dú)立業(yè)務(wù)
ü?將狀態(tài)和歷史數(shù)據(jù)分離
業(yè)務(wù)拆分其實(shí)是把一個(gè)混合的業(yè)務(wù)剝離成為更加清晰的獨(dú)立業(yè)務(wù),這樣業(yè)務(wù)1,業(yè)務(wù)2。。。獨(dú)立的業(yè)務(wù)使得業(yè)務(wù)總量依舊很大,但是每個(gè)部分都是相對(duì)獨(dú)立的,可靠性依然有保證。
對(duì)于狀態(tài)和歷史數(shù)據(jù)分離,我可以舉一個(gè)例子來說明。
例如:我們有一張表Account,假設(shè)用戶余額為100。
?
我們需要在發(fā)生數(shù)據(jù)變更后,能夠追溯數(shù)據(jù)變更的歷史信息,如果對(duì)賬戶更新狀態(tài)數(shù)據(jù),增加100的余額,這樣余額為200。
這個(gè)過程可能對(duì)應(yīng)一條update語句,一條insert語句。
對(duì)此我們可以改造為兩個(gè)不同的數(shù)據(jù)源,account和account_hist
在account_hist中就會(huì)是兩條insert記錄,如下:
?
而在account中則是一條update語句,如下:
?
這也是一種很基礎(chǔ)的冷熱分離,可以大大減少維護(hù)的復(fù)雜度,提高業(yè)務(wù)響應(yīng)效率。
2)數(shù)據(jù)拆分
2.1 按照日期拆分,這種使用方式比較普遍,尤其是按照日期維度的拆分,其實(shí)在程序?qū)用娴母膭?dòng)很小,但是擴(kuò)展性方面的收益很大。
數(shù)據(jù)按照日期維度拆分,如test_20191021
數(shù)據(jù)按照周月為維度拆分,如test_201910
數(shù)據(jù)按照季度,年維度拆分,如test_2019
2.2 采用分區(qū)模式,分區(qū)模式也是常見的使用方式,采用hash,range等方式會(huì)多一些,在MySQL中我是不大建議使用分區(qū)表的使用方式,因?yàn)殡S著存儲(chǔ)容量的增長(zhǎng),數(shù)據(jù)雖然做了垂直拆分,但是歸根結(jié)底,數(shù)據(jù)其實(shí)難以實(shí)現(xiàn)水平擴(kuò)展,在MySQL中是有更好的擴(kuò)展方式。
2.3 讀多寫少優(yōu)化場(chǎng)景
采用緩存,采用Redis技術(shù),將讀請(qǐng)求打在緩存層面,這樣可以大大降低MySQL層面的熱點(diǎn)數(shù)據(jù)查詢壓力。
2.4?讀少寫多優(yōu)化場(chǎng)景,可以采用三步走:
1)?采用異步提交模式,異步對(duì)于應(yīng)用層來說最直觀的就是性能的提升,產(chǎn)生最少的同步等待。
2)?使用隊(duì)列技術(shù),大量的寫請(qǐng)求可以通過隊(duì)列的方式來進(jìn)行擴(kuò)展,實(shí)現(xiàn)批量的數(shù)據(jù)寫入。
3)?降低寫入頻率,這個(gè)比較難理解,我舉個(gè)例子
對(duì)于業(yè)務(wù)數(shù)據(jù),比如積分類,相比于金額來說業(yè)務(wù)優(yōu)先級(jí)略低的場(chǎng)景,如果數(shù)據(jù)的更新過于頻繁,可以適度調(diào)整數(shù)據(jù)更新的范圍(比如從原來的每分鐘調(diào)整為10分鐘)來減少更新的頻率。
例如:更新狀態(tài)數(shù)據(jù),積分為200,如下圖所示
?
可以改造為,如下圖所示。
?
如果業(yè)務(wù)數(shù)據(jù)在短時(shí)間內(nèi)更新過于頻繁,比如1分鐘更新100次,積分從100到10000,則可以根據(jù)時(shí)間頻率批量提交。
例如:更新狀態(tài)數(shù)據(jù),積分為100,如下圖所示。
?
無需生成100個(gè)事務(wù)(200條SQL語句)可以改造為2條SQL語句,如下圖所示。
?
對(duì)于業(yè)務(wù)指標(biāo),比如更新頻率細(xì)節(jié)信息,可以根據(jù)具體業(yè)務(wù)場(chǎng)景來討論決定。
 優(yōu)化設(shè)計(jì)方案3:架構(gòu)層優(yōu)化
架構(gòu)層優(yōu)化其實(shí)就是我們認(rèn)為的那種技術(shù)含量很高的工作,我們需要根據(jù)業(yè)務(wù)場(chǎng)景在架構(gòu)層面引入一些新的花樣來。
?
 3.1.系統(tǒng)水平擴(kuò)展場(chǎng)景
3.1.1采用中間件技術(shù),可以實(shí)現(xiàn)數(shù)據(jù)路由,水平擴(kuò)展,常見的中間件有MyCAT,ShardingSphere,ProxySQL等
?
3.1.2 采用讀寫分離技術(shù),這是針對(duì)讀需求的擴(kuò)展,更側(cè)重于狀態(tài)表,在允許一定延遲的情況下,可以采用多副本的模式實(shí)現(xiàn)讀需求的水平擴(kuò)展,也可以采用中間件來實(shí)現(xiàn),如MyCAT,ProxySQL,MaxScale,MySQL?Router等
?
3.1.3 采用負(fù)載均衡技術(shù),常見的有LVS技術(shù)或者基于域名服務(wù)的Consul技術(shù)等
 3.2.兼顧OLTP+OLAP的業(yè)務(wù)場(chǎng)景,可以采用NewSQL,優(yōu)先兼容MySQL協(xié)議的HTAP技術(shù)棧,如TiDB
3.3.離線統(tǒng)計(jì)的業(yè)務(wù)場(chǎng)景,有幾類方案可供選擇。
3.3.1 采用NoSQL體系,主要有兩類,一類是適合兼容MySQL協(xié)議的數(shù)據(jù)倉庫體系,常見的有Infobright或者ColumnStore,另外一類是基于列式存儲(chǔ),屬于異構(gòu)方向,如HBase技術(shù)
3.3.2 采用數(shù)倉體系,基于MPP架構(gòu),如使用Greenplum統(tǒng)計(jì),如T+1統(tǒng)計(jì)
優(yōu)化設(shè)計(jì)方案4:數(shù)據(jù)庫優(yōu)化
數(shù)據(jù)庫優(yōu)化,其實(shí)可打的牌也不少,但是相對(duì)來說空間沒有那么大了,我們來逐個(gè)說一下。
?
 4.1 事務(wù)優(yōu)化
根據(jù)業(yè)務(wù)場(chǎng)景選擇事務(wù)模型,是否是強(qiáng)事務(wù)依賴
對(duì)于事務(wù)降維策略,我們來舉出幾個(gè)小例子來。
4.1.1 降維策略1:存儲(chǔ)過程調(diào)用轉(zhuǎn)換為透明的SQL調(diào)用
對(duì)于新業(yè)務(wù)而言,使用存儲(chǔ)過程顯然不是一個(gè)好主意,MySQL的存儲(chǔ)過程和其他商業(yè)數(shù)據(jù)庫相比,功能和性能都有待驗(yàn)證,而且在目前輕量化的業(yè)務(wù)處理中,存儲(chǔ)過程的處理方式太“重”了。
有些應(yīng)用架構(gòu)看起來是按照分布式部署的,但在數(shù)據(jù)庫層的調(diào)用方式是基于存儲(chǔ)過程,因?yàn)榇鎯?chǔ)過程封裝了大量的邏輯,難以調(diào)試,而且移植性不高,這樣業(yè)務(wù)邏輯和性能壓力都在數(shù)據(jù)庫層面了,使得數(shù)據(jù)庫層很容易成為瓶頸,而且難以實(shí)現(xiàn)真正的分布式。
所以有一個(gè)明確的改進(jìn)方向就是對(duì)于存儲(chǔ)過程的改造,把它改造為SQL調(diào)用的方式,可以極大地提高業(yè)務(wù)的處理效率,在數(shù)據(jù)庫的接口調(diào)用上足夠簡(jiǎn)單而且清晰可控。
4.1.2 降維策略2:DDL操作轉(zhuǎn)換為DML操作
有些業(yè)務(wù)經(jīng)常會(huì)有一種緊急需求,總是需要給一個(gè)表添加字段,搞得DBA和業(yè)務(wù)同學(xué)都挺累,可以想象一個(gè)表有上百個(gè)字段,而且基本都是name1,name2……name100,這種設(shè)計(jì)本身就是有問題的,更不用考慮性能了。究其原因,是因?yàn)闃I(yè)務(wù)的需求動(dòng)態(tài)變化,比如一個(gè)游戲裝備有20個(gè)屬性,可能過了一個(gè)月之后就增加到了40個(gè)屬性,這樣一來,所有的裝備都有40個(gè)屬性,不管用沒用到,而且這種方式也存在諸多的冗余。
我們?cè)谠O(shè)計(jì)規(guī)范里面也提到了一些設(shè)計(jì)的基本要素,在這些基礎(chǔ)上需要補(bǔ)充的是,保持有限的字段,如果要實(shí)現(xiàn)這些功能的擴(kuò)展,其實(shí)完全可以通過配置化的方式來實(shí)現(xiàn),比如把一些動(dòng)態(tài)添加的字段轉(zhuǎn)換為一些配置信息。配置信息可以通過DML的方式進(jìn)行修改和補(bǔ)充,對(duì)于數(shù)據(jù)入口也可以更加動(dòng)態(tài)、易擴(kuò)展。
4.1.3 降維策略3:Delete操作轉(zhuǎn)換為高效操作
有些業(yè)務(wù)需要定期來清理一些周期性數(shù)據(jù),比如表里的數(shù)據(jù)只保留一個(gè)月,那么超出時(shí)間范圍的數(shù)據(jù)就要清理掉了,而如果表的量級(jí)比較大的情況下,這種Delete操作的代價(jià)實(shí)在太高,我們可以有兩類解決方案來把Delete操作轉(zhuǎn)換為更為高效的方式。?
第一種是根據(jù)業(yè)務(wù)建立周期表,比如按照月表、周表、日表等維度來設(shè)計(jì),這樣數(shù)據(jù)的清理就是一個(gè)相對(duì)可控而且高效的方式了。?
第二種方案是使用MySQL rename的操作方式,比如一張2千萬的大表要清理99%的數(shù)據(jù),那么需要保留的1%的數(shù)據(jù)我們可以很快根據(jù)條件過濾補(bǔ)錄,實(shí)現(xiàn)“移形換位”。
4.2 SQL優(yōu)化
其實(shí)相對(duì)來說需要的極簡(jiǎn)的設(shè)計(jì),很多點(diǎn)都在規(guī)范設(shè)計(jì)里面了,如果遵守規(guī)范,八九不離十的問題都會(huì)杜絕掉,在此補(bǔ)充幾點(diǎn):
4.2.1 SQL語句簡(jiǎn)化,簡(jiǎn)化是SQL優(yōu)化的一大利器,因?yàn)楹?jiǎn)單,所以優(yōu)越。
4.2.2 盡可能避免或者杜絕多表復(fù)雜關(guān)聯(lián),大表關(guān)聯(lián)是大表處理的噩夢(mèng),一旦打開了這個(gè)口子,越來越多的需求需要關(guān)聯(lián),性能優(yōu)化就沒有回頭路了,更何況大表關(guān)聯(lián)是MySQL的弱項(xiàng),盡管Hash?Join才推出,不要像掌握了絕對(duì)大殺器一樣,在商業(yè)數(shù)據(jù)庫中早就存在,問題照樣層出不窮。
4.2.3 SQL中盡可能避免反連接,避免半連接,這是優(yōu)化器做得薄弱的一方面,什么是反連接,半連接?其實(shí)比較好理解,舉個(gè)例子,not?in?,not?exists就是反連接,in,exists就是半連接,在千萬級(jí)大表中出現(xiàn)這種問題,性能是幾個(gè)數(shù)量級(jí)的差異。?
4.3 索引優(yōu)化
應(yīng)該是大表優(yōu)化中需要把握的一個(gè)度。
4.3.1 首先必須有主鍵,規(guī)范設(shè)計(jì)中第一條就是,此處不接收反駁。
4.3.2 其次,SQL查詢基于索引或者唯一性索引,使得查詢模型盡可能簡(jiǎn)單。
4.3.3 最后,盡可能杜絕范圍數(shù)據(jù)的查詢,范圍掃描在千萬級(jí)大表情況下還是盡可能減少。
優(yōu)化設(shè)計(jì)方案4:管理優(yōu)化
這部分應(yīng)該是在所有的解決方案中最容易被忽視的部分了,我放在最后,在此也向運(yùn)維同事致敬,總是為很多認(rèn)為本應(yīng)該正常的問題盡職盡責(zé)(背鍋)。
?
千萬級(jí)大表的數(shù)據(jù)清理一般來說是比較耗時(shí)的,在此建議在設(shè)計(jì)中需要完善冷熱數(shù)據(jù)分離的策略,可能聽起來比較拗口,我來舉一個(gè)例子,把大表的Drop 操作轉(zhuǎn)換為可逆的DDL操作。
Drop操作是默認(rèn)提交的,而且是不可逆的,在數(shù)據(jù)庫操作中都是跑路的代名詞,MySQL層面目前沒有相應(yīng)的Drop操作恢復(fù)功能,除非通過備份來恢復(fù),但是我們可以考慮將Drop操作轉(zhuǎn)換為一種可逆的DDL操作。
MySQL中默認(rèn)每個(gè)表有一個(gè)對(duì)應(yīng)的ibd文件,其實(shí)可以把Drop操作轉(zhuǎn)換為一個(gè)rename操作,即把文件從testdb遷移到testdb_arch下面;從權(quán)限上來說,testdb_arch是業(yè)務(wù)不可見的,rename操作可以平滑的實(shí)現(xiàn)這個(gè)刪除功能,如果在一定時(shí)間后確認(rèn)可以清理,則數(shù)據(jù)清理對(duì)于已有的業(yè)務(wù)流程是不可見的,如下圖所示。
此外,還有兩個(gè)額外建議,一個(gè)是對(duì)于大表變更,盡可能考慮低峰時(shí)段的在線變更,比如使用pt-osc工具或者是維護(hù)時(shí)段的變更,就不再贅述了。
最后總結(jié)一下,其實(shí)就是一句話:
千萬級(jí)大表的優(yōu)化是根據(jù)業(yè)務(wù)場(chǎng)景,以成本為代價(jià)進(jìn)行優(yōu)化的,絕對(duì)不是孤立的一個(gè)層面的優(yōu)化。
 ————————————————
 版權(quán)聲明:本文為CSDN博主「jeanron100」的原創(chuàng)文章,遵循 CC 4.0 BY-SA 版權(quán)協(xié)議,轉(zhuǎn)載請(qǐng)附上原文出處鏈接及本聲明。
 原文鏈接:https://blog.csdn.net/yangjianrong1985/article/details/102675334
總結(jié)
以上是生活随笔為你收集整理的如何优化MySQL千万级大表的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: gzip 命令
- 下一篇: 如何优雅的实现DML批量操作
