大数据应用期末总评
?
刪除首行記錄
?????????????
生成txt文件
?
上傳到hdfs中:
?
在hive中創建數據表并把hdfs的數據導入表中
?
使用hive進行數據分析:
查詢總記錄數(如圖)由于以空行作為分隔符,因此實際數據量應當除以2,即16萬。
?
?
搜索量最高的是?
選取“搜索量”列進行降序排序,并選取排名前十的數據
從表中可以看出搜索量最高的是“劉愷威楊冪離婚”唯一一個搜索量突破2000萬,其次是“鹿晗關曉彤”“李詠去世” “趙麗穎馮紹峰結婚”,有趣的是:微博熱搜量排名前十的竟然有九個是明星事件,而且排名前五的事件竟有三條是明星戀情。據此,我們可以發現,微博用戶最為關注的事件是“明星戀情”。
?
?
微博熱搜搜索量和排名有怎樣的關系?是否僅根據微博搜索量來決定排名?
從排名來看,十條記錄中一條是排名第二,據此可以說明搜索量和排名呈正相關關系,但排名并非是完全由搜索量決定,或許還有其他因素。
查詢排名前十記錄:
?
按年份降序查詢:
?
按年份升序查詢:
?
因此該數據集是從2017年10月1日到2019年3月9日的數據,約為500天
?
查詢當天最高排名為1的記錄,約為7000條,根據計算
?
根據計算得出每天約有14條記錄能夠升到排名第一。
查詢排名第一的記錄并列出前十條:
?
?
?
?
?
?
查詢排名小于3的記錄,共1348條:
?
查詢2018年2月5日的記錄:
?
?
?
?
?
?
查詢微博熱搜內容包含春晚的記錄:
?
按最高排名進行分組:
?
按最高排名進行分組并篩選數量大于4000的記錄:
?
轉載于:https://www.cnblogs.com/huangjianke123/p/11037819.html
總結
 
                            
                        - 上一篇: 2019.6.16完成classstac
- 下一篇: rollup的学习
