當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Hive基本操作，DDL操作(创建表，修改表，显示命令)，DML操作(Load Insert Select),Hive Join,Hive Shell参数(内置运算符、内置函数)等

發布時間：2024/9/27 编程问答 31 豆豆

生活随笔收集整理的這篇文章主要介紹了 Hive基本操作，DDL操作(创建表，修改表，显示命令)，DML操作(Load Insert Select),Hive Join,Hive Shell参数(内置运算符、内置函数)等小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1.??Hive基本操作

1.1 ?DDL操作

1.1.1??? 創建表

建表語法

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name

?? [(col_name data_type[COMMENT col_comment], ...)] +

?? [COMMENT table_comment]

?? [PARTITIONED BY (col_namedata_type [COMMENT col_comment], ...)]

?? [CLUSTERED BY (col_name, col_name,...)

?? [SORTED BY (col_name[ASC|DESC], ...)] INTO num_buckets BUCKETS]

?? [ROW FORMAT row_format]

?? [STORED AS file_format]

?? [LOCATION hdfs_path]

說明：

1、CREATE TABLE 創建一個指定名字的表。如果相同名字的表已經存在，則拋出異常；用戶可以用 IF NOTEXISTS 選項來忽略這個異常。

2、EXTERNAL關鍵字可以讓用戶創建一個外部表，在建表的同時指定一個指向實際數據的路徑（LOCATION），Hive 創建內部表時，會將數據移動到數據倉庫指向的路徑；若創建外部表，僅記錄數據所在的路徑，不對數據的位置做任何改變。在刪除表的時候，內部表的元數據和數據會被一起刪除，而外部表只刪除元數據，不刪除數據。

3、 LIKE 允許用戶復制現有的表結構，但是不復制數據。

4、 ROW FORMAT

DELIMITED [FIELDS TERMINATED BY char] [COLLECTION ITEMSTERMINATED BY char]

??????? [MAP KEYSTERMINATED BY char] [LINES TERMINATED BY char]

?? | SERDEserde_name [WITH SERDEPROPERTIES (property_name=property_value,property_name=property_value, ...)]

用戶在建表的時候可以自定義 SerDe 或者使用自帶的 SerDe。如果沒有指定 ROW FORMAT 或者 ROW FORMAT DELIMITED，將會使用自帶的 SerDe。在建表的時候，用戶還需要為表指定列，用戶在指定表的列的同時也會指定自定義的 SerDe，Hive通過 SerDe 確定表的具體的列的數據。

5、 STORED AS

SEQUENCEFILE|TEXTFILE|RCFILE

如果文件數據是純文本，可以使用 STORED AS TEXTFILE。如果數據需要壓縮，使用 STORED ASSEQUENCEFILE。

6、CLUSTERED BY

對于每一個表（table）或者分區，Hive可以進一步組織成桶，也就是說桶是更為細粒度的數據范圍劃分。Hive也是針對某一列進行桶的組織。Hive采用對列值哈希，然后除以桶的個數求余的方式決定該條記錄存放在哪個桶當中。

把表（或者分區）組織成桶（Bucket）有兩個理由：

（1）獲得更高的查詢處理效率。桶為表加上了額外的結構，Hive 在處理有些查詢時能利用這個結構。具體而言，連接兩個在（包含連接列的）相同列上劃分了桶的表，可以使用 Map 端連接（Map-side join）高效的實現。比如JOIN操作。對于JOIN操作兩個表有一個相同的列，如果對這兩個表都進行了桶操作。那么將保存相同列值的桶進行JOIN操作就可以，可以大大較少JOIN的數據量。

（2）使取樣（sampling）更高效。在處理大規模數據集時，在開發和修改查詢的階段，如果能在數據集的一小部分數據上試運行查詢，會帶來很多方便。

具體實例

1、? 創建內部表mytable。

2、? 創建外部表pageview。

3、? 創建分區表invites。

create table student_p(Sno int,Sname string,Sex string,Sage int,Sdept string) partitioned by(part string) row format delimited fields terminated by ','stored as textfile;

4、? 創建帶桶的表student。

1.1.2?? 修改表

增加/刪除分區

ü? 語法結構

ALTER TABLE table_name ADD [IF NOT EXISTS] partition_spec [ LOCATION'location1' ] partition_spec [ LOCATION 'location2' ] ...

partition_spec:

: PARTITION (partition_col = partition_col_value, partition_col =partiton_col_value, ...)

ALTER TABLE table_name DROP partition_spec, partition_spec,...

ü? 具體實例

alter table student_p add partition(part='a') partition(part='b');

重命名表

ü? 語法結構

ALTER TABLE table_name RENAME TO new_table_name

ü? 具體實例

增加/更新列

ü? 語法結構

ALTER TABLE table_name ADD|REPLACE COLUMNS (col_name data_type[COMMENT col_comment], ...)

注：ADD是代表新增一字段，字段位置在所有列后面(partition列前)，REPLACE則是表示替換表中所有字段。

ALTER TABLE table_name CHANGE [COLUMN] col_old_name col_new_namecolumn_type [COMMENT col_comment] [FIRST|AFTER column_name]

ü? 具體實例

1.1.3?? 顯示命令

show tables

show databases

show partitions

show functions

desc extended t_name;

desc formatted table_name;

1.2 ?DML操作

1.2.1?? Load

? 語法結構

LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO

TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]

說明：

1、? Load操作只是單純的復制/移動操作，將數據文件移動到 Hive 表對應的位置。

2、? filepath：

相對路徑，例如：project/data1

絕對路徑，例如：/user/hive/project/data1

包含模式的完整 URI，列如：

hdfs://namenode:9000/user/hive/project/data1

3、? LOCAL關鍵字

如果指定了 LOCAL，load 命令會去查找本地文件系統中的 filepath。

如果沒有指定 LOCAL 關鍵字，則根據inpath中的uri[M1]?查找文件

4、? OVERWRITE關鍵字

如果使用了 OVERWRITE 關鍵字，則目標表（或者分區）中的內容會被刪除，然后再將 filepath 指向的文件/目錄中的內容添加到表/分區中。

如果目標表（分區）已經有一個文件，并且文件名和 filepath 中的文件名沖突，那么現有的文件會被新文件所替代。

? 具體實例

1、加載相對路徑數據。

2、加載絕對路徑數據。

3、加載包含模式數據。

4、 OVERWRITE關鍵字使用。

1.2.2???????Insert

? 將查詢結果插入Hive表

ü? 語法結構

利用查詢語句，將查詢結果插入新的表

INSERT OVERWRITE [INTO] TABLE tablename1 [PARTITION (partcol1=val1,partcol2=val2 ...)] select_statement1 FROM from_statement

插入一條數據

INSERT INTO TABLE VALUES(XX,YY,ZZ);

Multi Inserts多重插入:

FROM from_statement

INSERT OVERWRITE TABLE tablename1 [PARTITION (partcol1=val1,partcol2=val2 ...)] select_statement1

[INSERT OVERWRITE TABLE tablename2 [PARTITION ...]

select_statement2] ...

Dynamic partition inserts動態分區插入:

INSERT OVERWRITE TABLE tablename PARTITION (partcol1[=val1],partcol2[=val2] ...) select_statement FROM from_statement

ü? 具體實例

1、基本模式插入。

2、多插入模式。

3、自動分區模式。

v?導出表數據

ü? 語法結構

INSERT OVERWRITE [LOCAL] DIRECTORY directory1 SELECT ... FROM ...

multiple inserts:

FROM from_statement

INSERT OVERWRITE [LOCAL] DIRECTORY directory1 select_statement1

[INSERT OVERWRITE [LOCAL] DIRECTORY directory2 select_statement2]...

ü? 具體實例

1、導出文件到本地。

說明：

數據寫入到文件系統時進行文本序列化，且每列用^A來區分，\n為換行符。用more命令查看時不容易看出分割符，可以使用: sed-e 's/\x01/|/g' filename[dht2]?來查看。

2、導出數據到HDFS。

1.2.3???????SELECT

? 基本的Select操作

ü? 語法結構

SELECT [ALL | DISTINCT] select_expr, select_expr, ...

FROM table_reference

[WHERE where_condition]

[GROUP BY col_list [HAVING condition]]

[CLUSTERBY col_list

? | [DISTRIBUTE BY col_list] [SORT BY| ORDER BY col_list]

]

[LIMIT number]

注：1、order by 會對輸入做全局排序，因此只有一個reducer，會導致當輸入規模較大時，需要較長的計算時間。

2、sort by不是全局排序，其在數據進入reducer前完成排序。因此，如果用sortby進行排序，并且設置mapred.reduce.tasks>1，則sort by只保證每個reducer的輸出有序，不保證全局有序。

3、distribute by(字段)根據指定的字段將數據分到不同的reducer，且分發算法是hash散列。

4、Cluster by(字段) 除了具有Distributeby的功能外，還會對該字段進行排序。

因此，如果分桶和sort字段是同一個時，此時，cluster by = distribute by + sort by

分桶表的作用：最大的作用是用來提高join操作的效率；

（思考這個問題：

select a.id,a.name,b.addr from a join b ona.id = b.id;

如果a表和b表已經是分桶表，而且分桶的字段是id字段

做這個join操作時，還需要全表做笛卡爾積嗎？）

ü? 具體實例

1、獲取年齡大的3個學生。

2、查詢學生信息按年齡，降序排序。

3、按學生名稱匯總學生年齡。

2.3 Hive Join

? 語法結構

join_table:

? table_reference JOINtable_factor [join_condition]

? | table_reference{LEFT|RIGHT|FULL} [OUTER] JOIN table_reference join_condition

? | table_reference LEFT SEMIJOIN table_reference join_condition

Hive 支持等值連接（equality joins）、外連接（outer joins）和（left/right joins）。Hive 不支持非等值的連接，因為非等值連接非常難轉化到 map/reduce 任務。

另外，Hive 支持多于 2 個表的連接。

寫 join 查詢時，需要注意幾個關鍵點：

1. 只支持等值join

例如：

? SELECT a.* FROMa JOIN b ON (a.id = b.id)

? SELECT a.* FROM a JOIN b

??? ON (a.id = b.id AND a.department =b.department)

是正確的，然而:

? SELECT a.* FROM a JOIN b ON (a.id>b.id)

是錯誤的。

2. 可以 join 多于 2 個表。

例如

? SELECT a.val,b.val, c.val FROM a JOIN b

??? ON (a.key =b.key1) JOIN c ON (c.key = b.key2)

如果join中多個表的join key 是同一個，則 join 會被轉化為單個map/reduce 任務，例如：

? SELECT a.val,b.val, c.val FROM a JOIN b

??? ON (a.key =b.key1) JOIN c

??? ON (c.key =b.key1)

被轉化為單個 map/reduce 任務，因為 join 中只使用了 b.key1 作為 join key。

SELECT a.val, b.val, c.val FROM a JOIN b ON (a.key =b.key1)

? JOIN c ON(c.key = b.key2)

而這一 join 被轉化為2 個 map/reduce 任務。因為 b.key1 用于第一次 join 條件，而 b.key2 用于第二次 join。

3．join 時，每次 map/reduce 任務的邏輯：

??? reducer 會緩存 join 序列中除了最后一個表的所有表的記錄，再通過最后一個表將結果序列化到文件系統。這一實現有助于在 reduce 端減少內存的使用量。實踐中，應該把最大的那個表寫在最后（否則會因為緩存浪費大量內存）。例如：

?SELECT a.val, b.val, c.val FROM a

??? JOIN b ON(a.key = b.key1) JOIN c ON (c.key = b.key1)

所有表都使用同一個 join key（使用 1 次 map/reduce 任務計算）。Reduce 端會緩存 a 表和 b 表的記錄，然后每次取得一個 c 表的記錄就計算一次 join 結果，類似的還有：

? SELECT a.val,b.val, c.val FROM a

??? JOIN b ON(a.key = b.key1) JOIN c ON (c.key = b.key2)

這里用了 2 次map/reduce 任務。第一次緩存 a 表，用 b 表序列化；第二次緩存第一次 map/reduce 任務的結果，然后用 c 表序列化。

4．LEFT，RIGHT 和 FULLOUTER 關鍵字用于處理 join 中空記錄的情況

例如：

? SELECT a.val,b.val FROM

a LEFT OUTER ?JOIN b ON (a.key=b.key)

對應所有 a 表中的記錄都有一條記錄輸出。輸出的結果應該是 a.val, b.val，當 a.key=b.key 時，而當 b.key 中找不到等值的 a.key 記錄時也會輸出:

a.val, NULL

所以 a 表中的所有記錄都被保留了；

“a RIGHT OUTER JOIN b”會保留所有 b 表的記錄。

Join 發生在 WHERE 子句之前。如果你想限制 join 的輸出，應該在 WHERE 子句中寫過濾條件——或是在join 子句中寫。這里面一個容易混淆的問題是表分區的情況：

? SELECT a.val,b.val FROM a

? LEFT OUTER JOINb ON (a.key=b.key)

? WHEREa.ds='2009-07-07' AND b.ds='2009-07-07'

會 join a 表到 b 表（OUTER JOIN），列出 a.val 和 b.val 的記錄。WHERE 從句中可以使用其他列作為過濾條件。但是，如前所述，如果 b 表中找不到對應 a 表的記錄，b 表的所有列都會列出 NULL，包括 ds 列。也就是說，join 會過濾 b 表中不能找到匹配a 表 join key 的所有記錄。這樣的話，LEFTOUTER 就使得查詢結果與 WHERE 子句無關了。解決的辦法是在 OUTER JOIN 時使用以下語法：

? SELECT a.val,b.val FROM a LEFT OUTER JOIN b

? ON (a.key=b.keyAND

?????b.ds='2009-07-07' AND

?????a.ds='2009-07-07')

這一查詢的結果是預先在 join 階段過濾過的，所以不會存在上述問題。這一邏輯也可以應用于 RIGHT 和 FULL 類型的join 中。

Join 是不能交換位置的。無論是 LEFT 還是RIGHT join，都是左連接的。

? SELECT a.val1,a.val2, b.val, c.val

? FROM a

? JOIN b ON(a.key = b.key)

? LEFT OUTER JOINc ON (a.key = c.key)

先 join a 表到 b 表，丟棄掉所有 join key 中不匹配的記錄，然后用這一中間結果和 c 表做 join。這一表述有一個不太明顯的問題，就是當一個 key 在 a 表和 c 表都存在，但是 b 表中不存在的時候：整個記錄在第一次 join，即 a JOIN b 的時候都被丟掉了（包括a.val1，a.val2和a.key），然后我們再和 c 表 join 的時候，如果c.key 與 a.key 或 b.key 相等，就會得到這樣的結果：NULL, NULL, NULL, c.val

? 具體實例

1、? 獲取已經分配班級的學生姓名。

2、? 獲取尚未分配班級的學生姓名。

3、? LEFT ?SEMI ?JOIN是IN/EXISTS的高效實現。

3 Hive Shell參數

3.1 Hive命令行

? 語法結構

hive [-hiveconf x=y]* [<-i filename>]* [<-ffilename>|<-e query-string>] [-S]

說明：

1、? -i?從文件初始化HQL。

2、? -e從命令行執行指定的HQL

3、? -f執行HQL腳本

4、? -v輸出執行的HQL語句到控制臺

5、? -p<port> connect to Hive Server on port number

6、? -hiveconfx=y Use this to set hive/hadoop configuration variables.

? 具體實例

1、運行一個查詢。

2、運行一個文件。

3、運行參數文件。

3.2 Hive參數配置方式

Hive參數大全：

https://cwiki.apache.org/confluence/display/Hive/Configuration+Properties

開發Hive應用時，不可避免地需要設定Hive的參數。設定Hive的參數可以調優HQL代碼的執行效率，或幫助定位問題。然而實踐中經常遇到的一個問題是，為什么設定的參數沒有起作用？這通常是錯誤的設定方式導致的。

對于一般參數，有以下三種設定方式：

l?配置文件

l?命令行參數

l?參數聲明

配置文件：Hive的配置文件包括

l?用戶自定義配置文件：$HIVE_CONF_DIR/hive-site.xml

l?默認配置文件：$HIVE_CONF_DIR/hive-default.xml

用戶自定義配置會覆蓋默認配置。

另外，Hive也會讀入Hadoop的配置，因為Hive是作為Hadoop的客戶端啟動的，Hive的配置會覆蓋Hadoop的配置。

配置文件的設定對本機啟動的所有Hive進程都有效。

命令行參數：啟動Hive（客戶端或Server方式）時，可以在命令行添加-hiveconfparam=value來設定參數，例如：

bin/hive-hiveconf hive.root.logger=INFO,console

這一設定對本次啟動的Session（對于Server方式啟動，則是所有請求的Sessions）有效。

參數聲明：可以在HQL中使用SET關鍵字設定參數，例如：

setmapred.reduce.tasks=100;

這一設定的作用域也是session級的。

上述三種設定方式的優先級依次遞增。即參數聲明覆蓋命令行參數，命令行參數覆蓋配置文件設定。注意某些系統級的參數，例如log4j相關的設定，必須用前兩種方式設定，因為那些參數的讀取在Session建立以前已經完成了。

4. Hive函數

4.1 內置運算符

內容較多，見《Hive官方文檔》

4.2 內置函數

內容較多，見《Hive官方文檔》

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF

測試各種內置函數的快捷方法：

1、創建一個dual表

create table dual(id string);

2、load一個文件（一行，一個空格）到dual表

3、select substr('angelababy',2,3) from dual;

4.3 Hive自定義函數和Transform

當Hive提供的內置函數無法滿足你的業務處理需要時，此時就可以考慮使用用戶自定義函數（UDF：user-defined function）。

4.3.1 自定義函數類別

UDF? 作用于單個數據行，產生一個數據行作為輸出。（數學函數，字符串函數）

UDAF（用戶定義聚集函數）：接收多個輸入數據行，并產生一個輸出數據行。（count，max）

4.3.2 UDF開發實例

l? 簡單UDF示例

1、先開發一個java類，繼承UDF，并重載evaluate方法

package cn.itcast.bigdata.udf

import org.apache.hadoop.hive.ql.exec.UDF;

import org.apache.hadoop.io.Text;

public final class Lower extends UDF{

???? public Text evaluate(final Text s){

???? ???? if(s==null){return null;}

???? ???? return new Text(s.toString().toLowerCase());

???? }

}

2、打成jar包上傳到服務器

3、將jar包添加到hive的classpath

hive>add JAR /home/hadoop/udf.jar;

4、創建臨時函數與開發好的java class關聯

Hive>create temporary function tolowercase as 'cn.itcast.bigdata.udf.ToProvince';

5、即可在hql中使用自定義的函數tolowercase ip?

Select tolowercase(name),age from t_test;

l? Json數據解析UDF開發

作業：

有原始json數據如下：

{"movie":"1193","rate":"5","timeStamp":"978300760","uid":"1"}

{"movie":"661","rate":"3","timeStamp":"978302109","uid":"1"}

{"movie":"914","rate":"3","timeStamp":"978301968","uid":"1"}

{"movie":"3408","rate":"4","timeStamp":"978300275","uid":"1"}

{"movie":"2355","rate":"5","timeStamp":"978824291","uid":"1"}

{"movie":"1197","rate":"3","timeStamp":"978302268","uid":"1"}

{"movie":"1287","rate":"5","timeStamp":"978302039","uid":"1"}

需要將數據導入到hive數據倉庫中

我不管你中間用幾個表，最終我要得到一個結果表：

movie	rate	timestamp	uid
1197	3	978302268	1

注：全在hive中完成，可以用自定義函數

4.3.3 Transform實現

Hive的 TRANSFORM 關鍵字提供了在SQL中調用自寫腳本的功能

適合實現Hive中沒有的功能又不想寫UDF的情況

使用示例1：下面這句sql就是借用了weekday_mapper.py對數據進行了處理.

CREATE TABLE u_data_new (

? movieid INT,

? rating INT,

? weekday INT,

? userid INT)

ROW FORMAT DELIMITED

FIELDS TERMINATED BY '\t';

add FILE weekday_mapper.py;

INSERT OVERWRITE TABLE u_data_new

SELECT

? TRANSFORM (movieid , rate, timestring,uid)

? USING 'python weekday_mapper.py'

? AS (movieid, rating, weekday,userid)

FROM t_rating;

其中weekday_mapper.py內容如下

#!/bin/python

import sys

import datetime

for line in sys.stdin:

? line = line.strip()

? movieid, rating, unixtime,userid = line.split('\t')

? weekday = datetime.datetime.fromtimestamp(float(unixtime)).isoweekday()

? print '\t'.join([movieid, rating, str(weekday),userid])

5. Hive實戰

Hive 實戰案例1——數據ETL

需求：

ü?對web點擊流日志基礎數據表進行etl（按照倉庫模型設計）

ü?按各時間維度統計來源域名top10

已有數據表 “t_orgin_weblog”：

+------------------+------------+----------+--+

|???? col_name???? | data_type? | comment? |

+------------------+------------+----------+--+

| valid??????????? | string???? |????????? |

| remote_addr????? | string???? |????????? |

| remote_user????? | string???? |????????? |

| time_local?????? | string???? |????????? |

| request????????? | string???? |? ????????|

| status?????????? | string???? |????????? |

| body_bytes_sent? | string???? |????????? |

| http_referer???? | string???? |????????? |

| http_user_agent? | string???? |????????? |

+------------------+------------+----------+--+

數據示例：

| true|1.162.203.134| - | 18/Sep/2013:13:47:35| /images/my.jpg??????????????????????? | 200| 19939 | "http://www.angularjs.cn/A0d9"????????????????????? | "Mozilla/5.0 (Windows?? |

| true|1.202.186.37 | - | 18/Sep/2013:15:39:11| /wp-content/uploads/2013/08/windjs.png| 200| 34613 | "http://cnodejs.org/topic/521a30d4bee8d3cb1272ac0f" | "Mozilla/5.0 (Macintosh;|

實現步驟：

1、對原始數據進行抽取轉換

--將來訪url分離出host? path?query? query id

drop table if exists t_etl_referurl;

create table t_etl_referurl as

SELECT a.*,b.*

FROM t_orgin_weblog a LATERAL VIEW parse_url_tuple(regexp_replace(http_referer, "\"", ""), 'HOST', 'PATH','QUERY', 'QUERY:id') b as host, path, query, query_id

3、從前述步驟進一步分離出日期時間形成ETL明細表“t_etl_detail”??? day tm??

drop table if exists t_etl_detail;

create table t_etl_detail as

select b.*,substring(time_local,0,11) as daystr,

substring(time_local,13) as tmstr,

substring(time_local,4,3) as month,

substring(time_local,0,2) as day,

substring(time_local,13,2) as hour

from t_etl_referurl b;

3、對etl數據進行分區(包含所有數據的結構化信息)

drop table t_etl_detail_prt;

create table t_etl_detail_prt(

valid????????????? ?????string,

remote_addr??????????? string,

remote_user??????????? string,

time_local???????? ??????string,

request???????????? ????string,

status?????????????? ???string,

body_bytes_sent???? ????string,

http_referer???????? ????string,

http_user_agent??? ?????string,

host?????????????????? string,

path?????????????????? string,

query????????????????? string,

query_id?????????????? string,

daystr???????????????? string,

tmstr????????????????? string,

month????????????????? string,

day??????????????????? string,

hour?????????????????? string)

partitioned by (mm string,dd string);

導入數據

insert into table t_etl_detail_prt partition(mm='Sep',dd='18')

select * from t_etl_detail where daystr='18/Sep/2013';

insert into table t_etl_detail_prt partition(mm='Sep',dd='19')

select * from t_etl_detail where daystr='19/Sep/2013';

分個時間維度統計各referer_host的訪問次數并排序

create table t_refer_host_visit_top_tmp as

select referer_host,count(*) as counts,mm,dd,hh from t_display_referer_counts group by hh,dd,mm,referer_host order by hh asc,dd asc,mm asc,counts desc;

4、來源訪問次數topn各時間維度URL

取各時間維度的referer_host訪問次數topn

select * from (select referer_host,counts,concat(hh,dd),row_number() over (partition by concat(hh,dd) order by concat(hh,dd) asc) as od from t_refer_host_visit_top_tmp) t where od<=3;

Hive 實戰案例2——訪問時長統計

需求：

從web日志中統計每日訪客平均停留時間

實現步驟：

1、? 由于要從大量請求中分辨出用戶的各次訪問，邏輯相對復雜，通過hive直接實現有困難，因此編寫一個mr程序來求出訪客訪問信息（詳見代碼）

啟動mr程序獲取結果：

[hadoop@hdp-node-01 ~]$ hadoop jar weblog.jar cn.itcast.bigdata.hive.mr.UserStayTime /weblog/input /weblog/stayout

2、? 將mr的處理結果導入hive表

drop table t_display_access_info_tmp;

create table t_display_access_info_tmp(remote_addr string,firt_req_time string,last_req_time string,stay_long bigint)

row format delimited fields terminated by '\t';

load data inpath '/weblog/stayout4' into table t_display_access_info_tmp;

3、得出訪客訪問信息表 "t_display_access_info"

由于有一些訪問記錄是單條記錄，mr程序處理處的結果給的時長是0，所以考慮給單次請求的停留時間一個默認市場30秒

drop table t_display_access_info;

create table t_display_access_info as

select remote_addr,firt_req_time,last_req_time,

case stay_long

when 0 then 30000

else stay_long

end as stay_long

from t_display_access_info_tmp;

4、統計所有用戶停留時間平均值

select avg(stay_long) fromt_display_access_info;

Hive實戰案例3——級聯求和accumulate

需求：

有如下訪客訪問次數統計表t_access_times

訪客	月份	訪問次數
A	2015-01	5
A	2015-01	15
B	2015-01	5
A	2015-01	8
B	2015-01	25
A	2015-01	5
A	2015-02	4
A	2015-02	6
B	2015-02	10
B	2015-02	5
……	……	……

需要輸出報表：t_access_times_accumulate

訪客	月份	月訪問總計	累計訪問總計
A	2015-01	33	33
A	2015-02	10	43
…….	…….	…….	…….
B	2015-01	30	30
B	2015-02	15	45
…….	…….	…….	…….

實現步驟

可以用一個hql語句即可實現：

select A.username,A.month,max(A.salary) as salary,sum(B.salary) as accumulate

from

(select username,month,sum(salary) as salary from t_access_times group by username,month) A

inner join

(select username,month,sum(salary) as salary from t_access_times group by username,month) B

A.username=B.username

where B.month <= A.month

group by A.username,A.month

order by A.username,A.month;

如果指定了 LOCAL，那么：

load 命令會去查找本地文件系統中的 filepath。如果發現是相對路徑，則路徑會被解釋為相對于當前用戶的當前路徑。

load 命令會將 filepath中的文件復制到目標文件系統中。目標文件系統由表的位置屬性決定。被復制的數據文件移動到表的數據對應的位置。

如果沒有指定 LOCAL 關鍵字，如果 filepath 指向的是一個完整的 URI，hive 會直接使用這個 URI。否則：如果沒有指定 schema 或者 authority，Hive 會使用在 hadoop 配置文件中定義的 schema 和 authority，fs.default.name指定了 Namenode 的 URI。

如果路徑不是絕對的，Hive 相對于/user/進行解釋。

Hive 會將 filepath 中指定的文件內容移動到table （或者 partition）所指定的路徑中。

總結

以上是生活随笔為你收集整理的Hive基本操作，DDL操作(创建表，修改表，显示命令)，DML操作(Load Insert Select),Hive Join,Hive Shell参数(内置运算符、内置函数)等的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：制作系统时卷标怎么更改如何修改制作系统
下一篇：技嘉bios怎么正确设置方法技嘉BIO

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

编程问答

Hive基本操作，DDL操作(创建表，修改表，显示命令)，DML操作(Load Insert Select),Hive Join,Hive Shell参数(内置运算符、内置函数)等

1.??Hive基本操作

1.1 ?DDL操作

1.1.1??? 創建表

1.1.2?? 修改表

1.1.3?? 顯示命令

1.2 ?DML操作

1.2.1?? Load

1.2.2???????Insert

1.2.3???????SELECT

2.3 Hive Join

3 Hive Shell參數

3.1 Hive命令行

3.2 Hive參數配置方式

4. Hive函數

4.1 內置運算符

4.2 內置函數

4.3 Hive自定義函數和Transform

4.3.1 自定義函數類別

4.3.2 UDF開發實例

4.3.3 Transform實現

5. Hive實戰

Hive 實戰案例1——數據ETL

需求：

數據示例：

實現步驟：

Hive 實戰案例2——訪問時長統計

需求：

實現步驟：

Hive實戰案例3——級聯求和accumulate

需求：

實現步驟

總結