當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Struct复杂数据类型的UDF编写、兼容HIVE的GenericUDF编写

發布時間：2024/8/23 编程问答 27 豆豆

生活随笔收集整理的這篇文章主要介紹了 Struct复杂数据类型的UDF编写、兼容HIVE的GenericUDF编写小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

一、背景介紹：
MaxCompute 2.0版本升級后，Java UDF支持的數據類型從原來的BIGINT、STRING、DOUBLE、BOOLEAN擴展了更多基本的數據類型，同時還擴展支持了ARRAY、MAP、STRUCT等復雜類型，以及Writable參數。Java UDF使用復雜數據類型的方法，STRUCT對應com.aliyun.odps.data.Struct。com.aliyun.odps.data.Struct從反射看不出Field Name和Field Type，所以需要用@Resolve注解來輔助。即如果需要在UDF中使用STRUCT，要求在UDF Class上也標注上@Resolve注解。但是當我們Struct類型中的field有很多字段的時候，這個時候需要我們去手動的添加@Resolve注解就不是那么的友好。針對這一個問題，我們可以使用Hive 中的GenericUDF去實現。MaxCompute 2.0支持Hive風格的UDF，部分Hive UDF、UDTF可以直接在MaxCompute上使用。
二、復雜數據類型UDF示例
示例定義了一個有三個復雜數據類型的UDF，其中第一個用ARRAY作為參數，第二個用MAP作為參數，第三個用STRUCT作為參數。由于第三個Overloads用了STRUCT作為參數或者返回值，因此要求必須對UDF Class添加@Resolve注解，指定STRUCT的具體類型。
1.代碼編寫

@Resolve("struct<a:bigint>,string->string") public class UdfArray extends UDF { public String evaluate(List<String> vals, Long len) {return vals.get(len.intValue()); } public String evaluate(Map<String,String> map, String key) {return map.get(key); } public String evaluate(Struct struct, String key) {return struct.getFieldValue("a") + key; } }

2.打jar包添加資源

add jar UdfArray.jar

3.創建函數

create function my_index as 'UdfArray' using 'UdfArray.jar';

4.使用UDF函數

select id, my_index(array('red', 'yellow', 'green'), colorOrdinal) as color_name from colors;

三、使用Hive的GenericUDF
這里我們使用Struct復雜數據類型作為示例，主要處理的邏輯是當我們結構體中兩個字段前后沒有差異時不返回，如果前后有差異將新的字段及其值組成新的結構體返回。示例中Struct的Field為3個。使用GenericUDF方式可以解決需要手動添加@Resolve注解。
1.創建一個MaxCompute表

CREATE TABLE IF NOT EXISTS `tmp_ab_struct_type_1` ( `a1` struct<a:STRING,b:STRING,c:string>, `b1` struct<a:STRING,b:STRING,c:string> );

2.表中數據結構如下

insert into table tmp_ab_struct_type_1 SELECT named_struct('a',1,'b',3,'c','2019-12-17 16:27:00'), named_struct('a',5,'b',6,'c','2019-12-18 16:30:00');

查詢數據如下所示：

3.編寫GenericUDF處理邏輯
（1）QSC_DEMOO類

package com.aliyun.udf.struct;import org.apache.hadoop.hive.ql.exec.UDFArgumentException; import org.apache.hadoop.hive.ql.exec.UDFArgumentTypeException; import org.apache.hadoop.hive.ql.metadata.HiveException; import org.apache.hadoop.hive.ql.udf.generic.GenericUDF; import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector; import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspectorFactory; import org.apache.hadoop.hive.serde2.objectinspector.StructField; import org.apache.hadoop.hive.serde2.objectinspector.StructObjectInspector; import java.util.ArrayList; import java.util.List;/** * Created by ljw on 2019-12-17 * Description: */ @SuppressWarnings("Duplicates") public class QSC_DEMOO extends GenericUDF {StructObjectInspector soi1;StructObjectInspector soi2;/*** 避免頻繁Struct對象*/private PubSimpleStruct resultStruct = new PubSimpleStruct();private List<? extends StructField> allStructFieldRefs;//1. 這個方法只調用一次，并且在evaluate()方法之前調用。該方法接受的參數是一個arguments數組。該方法檢查接受正確的參數類型和參數個數。//2. 輸出類型的定義@Overridepublic ObjectInspector initialize(ObjectInspector[] arguments) throws UDFArgumentException {String error = "";//檢驗參數個數是否正確if (arguments.length != 2) {throw new UDFArgumentException("需要兩個參數");}//判斷參數類型是否正確-structObjectInspector.Category arg1 = arguments[0].getCategory();ObjectInspector.Category arg2 = arguments[1].getCategory();if (!(arg1.equals(ObjectInspector.Category.STRUCT))) {error += arguments[0].getClass().getSimpleName();throw new UDFArgumentTypeException(0, "\"array\" expected at function STRUCT_CONTAINS, but \"" +arg1.name() + "\" " + "is found" + "\n" + error);}if (!(arg2.equals(ObjectInspector.Category.STRUCT))) {error += arguments[1].getClass().getSimpleName();throw new UDFArgumentTypeException(0, "\"array\" expected at function STRUCT_CONTAINS, but \""+ arg2.name() + "\" " + "is found" + "\n" + error);}//輸出結構體定義ArrayList<String> structFieldNames = new ArrayList();ArrayList<ObjectInspector> structFieldObjectInspectors = new ArrayList();soi1 = (StructObjectInspector) arguments[0];soi2 = (StructObjectInspector) arguments[1];StructObjectInspector toValid = null;if (soi1 == null)toValid = soi2;else toValid = soi1;//設置返回類型allStructFieldRefs = toValid.getAllStructFieldRefs();for (StructField structField : allStructFieldRefs) {structFieldNames.add(structField.getFieldName());structFieldObjectInspectors.add(structField.getFieldObjectInspector());}return ObjectInspectorFactory.getStandardStructObjectInspector(structFieldNames, structFieldObjectInspectors);}//這個方法類似UDF的evaluate()方法。它處理真實的參數，并返回最終結果。@Overridepublic Object evaluate(DeferredObject[] deferredObjects) throws HiveException {//將hive中的struct類型轉換成com.aliyun.odps.data.Struct, 如果有錯誤,請調試,查看deferredObjects的數據是什么樣子的//然后自己進行重新封裝 !!!ArrayList list1 = (ArrayList) deferredObjects[0].get();ArrayList list2 = (ArrayList) deferredObjects[1].get();int len = list1.size();ArrayList fieldNames = new ArrayList<>();ArrayList fieldValues = new ArrayList<>();for (int i = 0; i < len ; i++) {if (!list1.get(i).equals(list2.get(i))) {fieldNames.add(allStructFieldRefs.get(i).getFieldName());fieldValues.add(list2.get(i));}}if (fieldValues.size() == 0) return null;return fieldValues;}//這個方法用于當實現的GenericUDF出錯的時候，打印出提示信息。而提示信息就是你實現該方法最后返回的字符串。@Overridepublic String getDisplayString(String[] strings) {return "Usage:" + this.getClass().getName() + "(" + strings[0] + ")";} }

（2）PubSimpleStruct類

package com.aliyun.udf.struct; import com.aliyun.odps.data.Struct; import com.aliyun.odps.type.StructTypeInfo; import com.aliyun.odps.type.TypeInfo; import java.util.List;public class PubSimpleStruct implements Struct {private StructTypeInfo typeInfo;private List<Object> fieldValues;public StructTypeInfo getTypeInfo() {return typeInfo;}public void setTypeInfo(StructTypeInfo typeInfo) {this.typeInfo = typeInfo;}public void setFieldValues(List<Object> fieldValues) {this.fieldValues = fieldValues;}public int getFieldCount() {return fieldValues.size();}public String getFieldName(int index) {return typeInfo.getFieldNames().get(index);}public TypeInfo getFieldTypeInfo(int index) {return typeInfo.getFieldTypeInfos().get(index);}public Object getFieldValue(int index) {return fieldValues.get(index);}public TypeInfo getFieldTypeInfo(String fieldName) {for (int i = 0; i < typeInfo.getFieldCount(); ++i) {if (typeInfo.getFieldNames().get(i).equalsIgnoreCase(fieldName)) {return typeInfo.getFieldTypeInfos().get(i);}}return null;}public Object getFieldValue(String fieldName) {for (int i = 0; i < typeInfo.getFieldCount(); ++i) {if (typeInfo.getFieldNames().get(i).equalsIgnoreCase(fieldName)) {return fieldValues.get(i);}}return null;}public List<Object> getFieldValues() {return fieldValues;}@Overridepublic String toString() {return "PubSimpleStruct{" +"typeInfo=" + typeInfo +", fieldValues=" + fieldValues +'}';} }

3、打jar包，添加資源

add jar test.jar;

4、創建函數

CREATE FUNCTION UDF_DEMO as 'com.aliyun.udf.test.UDF_DEMOO' using 'test.jar';

5、測試使用UDF函數

set odps.sql.hive.compatible=true; select UDF_DEMO(a1,b1) from tmp_ab_struct_type_1;

查詢結果如下所示：

注意：
（1）在使用兼容的Hive UDF的時候，需要在SQL前加set odps.sql.hive.compatible=true;語句，set語句和SQL語句一起提交執行。

（2）目前支持兼容的Hive版本為2.1.0，對應Hadoop版本為2.7.2。如果UDF是在其他版本的Hive/Hadoop開發的，則可能需要使用此Hive/Hadoop版本重新編譯。
有疑問可以咨詢阿里云MaxCompute技術支持：劉建偉

<dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-common</artifactId><version>2.7.2</version></dependency><dependency><groupId>org.apache.hive</groupId><artifactId>hive-exec</artifactId><version>2.1.0</version></dependency>

歡迎加入“MaxCompute開發者社區2群”,點擊鏈接申請加入或掃描二維碼
https://h5.dingtalk.com/invite-page/index.html?bizSource=____source____&corpId=dingb682fb31ec15e09f35c2f4657eb6378f&inviterUid=E3F28CD2308408A8&encodeDeptId=0054DC2B53AFE745

原文鏈接
本文為云棲社區原創內容，未經允許不得轉載。

總結

以上是生活随笔為你收集整理的Struct复杂数据类型的UDF编写、兼容HIVE的GenericUDF编写的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：远程工作和数字鸿沟
下一篇：阿里云专家赵伟教你在CDN边缘节点上构建

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

编程问答

Struct复杂数据类型的UDF编写、兼容HIVE的GenericUDF编写

總結