SQL 查询语句总是先执行 SELECT?
點擊上方“朱小廝的博客”,選擇“設為星標”
后臺回復”1024“領取驚喜資料
很多 SQL 查詢都是以 SELECT 開始的。不過,最近我跟別人解釋什么是窗口函數,我在網上搜索”是否可以對窗口函數返回的結果進行過濾“這個問題,得出的結論是”窗口函數必須在 WHERE 和 GROUP BY 之后,所以不能”。于是我又想到了另一個問題:SQL 查詢的執行順序是怎樣的?
好像這個問題應該很好回答,畢竟自己已經寫了上萬個 SQL 查詢了,有一些還很復雜。但事實是,我仍然很難確切地說出它的順序是怎樣的。
SQL 查詢的執行順序
于是我研究了一下,發現順序大概是這樣的。SELECT 并不是最先執行的,而是在第五個。
這張圖回答了以下這些問題
這張圖與 SQL 查詢的語義有關,讓你知道一個查詢會返回什么,并回答了以下這些問題:
可以在 GRROUP BY 之后使用 WHERE 嗎?(不行,WHERE 是在 GROUP BY 之后!)
可以對窗口函數返回的結果進行過濾嗎?(不行,窗口函數是 SELECT 語句里,而 SELECT 是在 WHERE 和 GROUP BY 之后)
可以基于 GROUP BY 里的東西進行 ORDER BY 嗎?(可以,ORDER BY 基本上是在最后執行的,所以可以基于任何東西進行 ORDER BY)
LIMIT 是在什么時候執行?(在最后!)
但數據庫引擎并不一定嚴格按照這個順序執行 SQL 查詢,因為為了更快地執行查詢,它們會做出一些優化,這些問題會在以后的文章中解釋。
所以:
如果你想要知道一個查詢語句是否合法,或者想要知道一個查詢語句會返回什么,可以參考這張圖;
在涉及查詢性能或者與索引有關的東西時,這張圖就不適用了。
混合因素:列別名
有很多 SQL 實現允許你使用這樣的語法:
SELECT CONCAT(first_name, \' \', last_name) AS full_name, count(*)FROM tableGROUP BY full_name從這個語句來看,好像 GROUP BY 是在 SELECT 之后執行的,因為它引用了 SELECT 中的一個別名。但實際上不一定要這樣,數據庫引擎可以把查詢重寫成這樣:
SELECT CONCAT(first_name, \' \', last_name) AS full_name, count(*)FROM tableGROUP BY CONCAT(first_name, \' \', last_name)這樣 GROUP BY 仍然先執行。
數據庫引擎還會做一系列檢查,確保 SELECT 和 GROUP BY 中的東西是有效的,所以會在生成執行計劃之前對查詢做一次整體檢查。
數據庫可能不按照這個順序執行查詢(優化)
在實際當中,數據庫不一定會按照 JOIN、WHERE、GROUP BY 的順序來執行查詢,因為它們會進行一系列優化,把執行順序打亂,從而讓查詢執行得更快,只要不改變查詢結果。
這個查詢說明了為什么需要以不同的順序執行查詢:
SELECT * FROMowners LEFT JOIN cats ON owners.id = cats.ownerWHERE cats.name = \'mr darcy\'如果只需要找出名字叫“mr darcy”的貓,那就沒必要對兩張表的所有數據執行左連接,在連接之前先進行過濾,這樣查詢會快得多,而且對于這個查詢來說,先執行過濾并不會改變查詢結果。
數據庫引擎還會做出其他很多優化,按照不同的順序執行查詢,不過我并不是這方面的專家,所以這里就不多說了。
LINQ 的查詢以 FROM 開頭
LINQ(C#和 VB.NET 中的查詢語法)是按照 FROM…WHERE…SELECT 的順序來的。這里有一個 LINQ 查詢例子:
var teenAgerStudent = from s in studentList? ? ? ? ? ? ? ? ? ? ? where s.Age > 12 && s.Age < 20? ? ? ? ? ? ? ? ? ? ? select s;pandas 中的查詢也基本上是這樣的,不過你不一定要按照這個順序。我通常會像下面這樣寫 pandas 代碼:
df = thing1.join(thing2)? ? ? # JOINdf = df[df.created_at > 1000] # WHEREdf = df.groupby(\'something\', num_yes = (\'yes\', \'sum\')) # GROUP BYdf = df[df.num_yes > 2]? ? ? ?# HAVING, 對 GROUP BY 結果進行過濾df = df[[\'num_yes\', \'something1\', \'something\']] # SELECT, 選擇要顯示的列df.sort_values(\'sometthing\', ascending=True)[:30] # ORDER BY 和 LIMITdf[:30]這樣寫并不是因為 pandas 規定了這些規則,而是按照 JOIN/WHERE/GROUP BY/HAVING 這樣的順序來寫代碼會更有意義些。不過我經常會先寫 WHERE 來改進性能,而且我想大多數數據庫引擎也會這么做。
R 語言里的 dplyr 也允許開發人員使用不同的語法編寫 SQL 查詢語句,用來查詢 Postgre、MySQL 和 SQLite。
想知道更多?掃描下面的二維碼關注我
【限時推廣1】
極客時間專屬優惠碼:SIDANIUBI,使用這個優惠碼購買極客時間的任何一門課程都可以減20元,這是雙11的活動,優惠碼有效期至11.15,認準?SIDANIUBI?
【限時推廣2】
阿里云?新人專屬福利,服務器1折起,最低低至86元,拼團地址:http://suo.im/59kDxw,如有需要,直接掃碼也可以參與拼團。
朕已閱?
總結
以上是生活随笔為你收集整理的SQL 查询语句总是先执行 SELECT?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 漫画 | 程序员离职事件始末
- 下一篇: 2020年前必须掌握的数据库面试问题~