tableau 实战练习数据源分享_小白入行数据分析师3年-工作内容复盘分享含代码(二)-数据库及Tableau篇介绍...
前言
本文是對使用的數據庫以及Tableau的內容進行介紹,方便學習者了解數據庫方向有哪些內容是需要有所了解以及可以注意的,分享內容基于個人對這些技能的理解,如有錯誤請及時指出,我會立馬改進。
數據庫篇
數據庫這邊,我的公司使用了兩種一個是mysql,另一個是redshift,兩者有著不同的機制,對不同語句的支持效率也有區別,所以我會在分享的時候碰到不同的句子,也單獨拿出來說一下。話說,現在在使用久了redshift之后,真是很喜歡它的高效率了。
- 工具:Navicat,這是我使用最久的操作工具,有界面,使用起來也很方便,感覺做分析,直接抓重點,利用好已有的工具迅速開始學習重要部分是最好的。
- 常規增刪改查語句:查詢是最大的一部分內容,因為這個涉及到取出來的數據是否準確,而且只有取出數據才能談更改插入,修改等。我的分享會更多涉及到查詢中容易出現的一些問題,如何查詢對自己的思路有所梳理,更容易清晰明白的取出需要的數據。列舉一些我認為比較有用的語句:
redshift:
2.with語句
with t1 as ( select * from table) select * from t13.窗口語句
sum(1) over (partition by columns1 order by columns2 desc rows unbounded preceding4.查進程,殺進程
SELECTTRIM(pid) AS pid,TRIM(user_name) AS user_name,TRIM(db_name) AS db_name,(starttime + INTERVAL '8 HOUR') AS starttime,datediff(MINUTE,starttime,SYSDATE) AS run_second,TRIM(query) AS query FROM stv_recents WHERE status = 'Running' ORDER BY user_name, run_second DESC;cancel pid;5.exists:專門介紹這個是因為這個相比較于in和not in有很大提升
select name from t1 where not exists (select name from t2 where t1.name=t2.name);6.時間轉換,時間差以及當前時間:對時間進行統計可以說是使用相當多了。
time1 + interval '8 hour' datediff(day,time1,time2) current_datemysql:
1.創建排序
select (@i:=@i+1) number, date(completed_at + interval 8 hour) dt, sum() from wms_packages wp,(select @i:=0) Num order by 32.查進程、殺進程:
show processlist; kill pid;3.時間轉換,時間差以及當前時間:跟redshift的語句不同
time1 + interval 8 hour timestampdiff(day, time1,time2) 或者 datediff(time1,time2) now()- 表維護及優化語句:如何查看自己的sql執行效率,并對語句進行優化。優化方向可以從表的方向入手,也可以從語句入手,還可以從存儲的數據庫入手,由于不同數據庫的機制不同,對不同語句的資源占用和效率有所不同。大致幾種,建分區,分表,索引,改sql語句等。
- 指標的定義查詢方法:涉及到如何使用sql直接查詢指標的部分,工作中也有過通過數據庫中的表直接清洗數據,用到了正則匹配以及窗口函數,實現過程也比較有趣,會在之后的分享中給大家看下。
Tableau篇
Tableau是一個專注于做可視化的工具,圖表展示,字體等都比較美觀,而且可視化分析作為一種分析方法,是很有效率很直接的體現數據特征的一種方式,所以在對一些數據內容作判斷的時候,我會先拿到tableau上嘗試按照我的思路分析下,再根據圖表去對代碼中的參數進行修改。另外就是報表是需要業務方進行查看的,所以這個工具也是我們用來展示給業務方查看數據的平臺,tableau支持的交互操作也是十分方便。
一些圖表:
排名變化圖盒須圖差值圖內外集圖空間分析圖- 數據源連接:
1.包含數據源的實時,還是數據提取,實時在操作數據量較少的數據時足以滿足需求,但遇到大數量的數據,每次更改圖表,哪怕是改個篩選器,都要等很久,所以引用了數據提取方式,官方的介紹是在5億以內的數據還是可以保證效率的。數據提取還涉及到數據刷新,刷新方式等。
2.tableau支持的數據源非常之多,可以直連數據庫,也可以分析excel,另有tableau prep可以幫助進行數據清理,也是很好用的清理工具。
- 需要了解的名詞以及需要操作的:
1.基礎:維度、度量、計算字段、參數、集、函數
了解以上內容就可以制作出基礎的圖來了。
2.中級:頁面、工作表、看板、分析等。
了解中級內容后,可以作出儀表板,故事等有分析過程的內容,也可以對分析的數據做一個提前的分析,提供更多的分析思路,尤其是了解頁面這個位置放置時間字段后,可以作出圖表根據時間進行的動圖,已經是可以發b站的水平了。
使用參數的圖3.高級:lod表達式
include:include新增維度。
exclude:exclude是排除指定維度。
fix:fix是指定維度。
最重要的也是最難的部分,相當于tableau自己的一套計算函數,有點類似于數據庫中的窗口函數,理解這個之后,就可以隨心所欲的作出tableau的圖了。
4.tableau的優化:
這里就主要針對于數據量大,加載慢的情況了,我這邊主要做了數據處理,也會對加載的數據做參數字段篩選,當然還有很多其他方式可供選擇。
- 分析的圖表及實現方式:其實tableau能實現的圖表還是比較多的,也有很多高大上的作品在官方論壇里,但是作圖不一定非要高大上,而是要合適,所以我們對一些圖的具體使用場景都需要有所了解,所以我也會分享下我是如何選擇圖表的,而且也有一些圖表的制作方法,比如桑基圖的實現方式(說實話我更喜歡python的實現方法,簡單高效哈哈哈)。
總結
- 本文對我常使用的數據庫以及tableau進行了簡要介紹,也稍微說了下平常經常會用的部分,這些都會在我的分享中逐步都把詳細過程介紹出來。
- excel,linux以及git篇涉及到的部分實際上不是作為數據分析師的重點,只需要有所了解即可,所以我計劃先將前三部分內容分享完之后,再看大家的意愿進行分享后面的部分。不過說實話,光python就有很多的內容可說了,所以先慢慢來吧。
- 接下來我會先開始寫python部分的知識分享,有感興趣的同學可以持續關注哦。
- 還是那句話,希望大家有什么意見和建議都私聊我,我會努力繼續輸出高質量的東西給大家。感恩~
相關鏈接:
https://zhuanlan.zhihu.com/p/156716425?zhuanlan.zhihu.comhttps://zhuanlan.zhihu.com/p/157135461?zhuanlan.zhihu.com總結
以上是生活随笔為你收集整理的tableau 实战练习数据源分享_小白入行数据分析师3年-工作内容复盘分享含代码(二)-数据库及Tableau篇介绍...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 对我国的出口大降后,澳大利亚GDP大跌,
- 下一篇: 信用卡呆账异地怎么处理