當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

hadoop join

發(fā)布時(shí)間：2023/12/10 编程问答 26 豆豆

生活随笔收集整理的這篇文章主要介紹了 hadoop join 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

在介紹這個(gè)實(shí)例之前，請(qǐng)各位參考：http://bjyjtdj.iteye.com/blog/1453410。

reduce side join是一種最簡(jiǎn)單的join方式，其主要思想如下：
?在map階段，map函數(shù)同時(shí)讀取兩個(gè)文件File1和File2，為了區(qū)分兩種來(lái)源的key/value數(shù)據(jù)對(duì)，對(duì)每條數(shù)據(jù)打一個(gè)標(biāo)簽（tag）,比如：tag=0表示來(lái)自文件File1，tag=2表示來(lái)自文件File2。即：map階段的主要任務(wù)是對(duì)不同文件中的數(shù)據(jù)打標(biāo)簽。在reduce階段，reduce函數(shù)獲取key相同的來(lái)自File1和File2文件的value list，然后對(duì)于同一個(gè)key，對(duì)File1和File2中的數(shù)據(jù)進(jìn)行join（笛卡爾乘積）。即：reduce階段進(jìn)行實(shí)際的連接操作。在這個(gè)例子中我們假設(shè)有兩個(gè)數(shù)據(jù)文件如下：

user.csv文件：

"ID","NAME","SEX"
"1","user1","0"
"2","user2","0"
"3","user3","0"
"4","user4","1"
"5","user5","0"
"6","user6","0"
"7","user7","1"
"8","user8","0"
"9","user9","0"

order.csv文件：

"USER_ID","NAME"
"1","order1"
"2","order2"
"3","order3"
"4","order4"
"7","order7"
"8","order8"
"9","order9"

目前網(wǎng)上的例子大多是基于0.20以前版本的API寫(xiě)的，所以咱們采用新的API來(lái)寫(xiě)，具體代碼如下：

public class MyJoin {public static class MapClass extends Mapper<LongWritable, Text, Text, Text>{//最好在map方法外定義變量，以減少map計(jì)算時(shí)創(chuàng)建對(duì)象的個(gè)數(shù)private Text key = new Text();private Text value = new Text();private String[] keyValue = null;@Overrideprotected void map(LongWritable key, Text value, Context context)throws IOException, InterruptedException{//采用的數(shù)據(jù)輸入格式是TextInputFormat，//文件被分為一系列以換行或者制表符結(jié)束的行，//key是每一行的位置（偏移量,LongWritable類(lèi)型），//value是每一行的內(nèi)容,Text類(lèi)型，所有我們要把key從value中解析出來(lái)keyValue = value.toString().split(",", 2);this.key.set(keyValue[0]);this.value.set(keyValue[1]);context.write(this.key, this.value);}}public static class Reduce extends Reducer<Text, Text, Text, Text>{//最好在reduce方法外定義變量，以減少reduce計(jì)算時(shí)創(chuàng)建對(duì)象的個(gè)數(shù)private Text value = new Text();@Overrideprotected void reduce(Text key, Iterable<Text> values, Context context)throws IOException, InterruptedException{StringBuilder valueStr = new StringBuilder();//values中的每一個(gè)值是不同數(shù)據(jù)文件中的具有相同key的值//即是map中輸出的多個(gè)文件相同key的value值集合for(Text val : values){valueStr.append(val);valueStr.append(",");}this.value.set(valueStr.deleteCharAt(valueStr.length()-1).toString());context.write(key, this.value);}}public static void main(String[] args) throws Exception{Configuration conf = new Configuration();Job job = new Job(conf, "MyJoin");job.setJarByClass(MyJoin.class);job.setMapperClass(MapClass.class);job.setReducerClass(Reduce.class);//job.setCombinerClass(Reduce.class);job.setOutputKeyClass(Text.class);job.setOutputValueClass(Text.class);//分別采用TextInputFormat和TextOutputFormat作為數(shù)據(jù)的輸入和輸出格式//如果不設(shè)置，這也是Hadoop默認(rèn)的操作方式j(luò)ob.setInputFormatClass(TextInputFormat.class);job.setOutputFormatClass(TextOutputFormat.class);FileInputFormat.addInputPath(job, new Path(args[0]));FileOutputFormat.setOutputPath(job, new Path(args[1]));System.exit(job.waitForCompletion(true) ? 0 : 1);} }

轉(zhuǎn)發(fā):https://blog.csdn.net/huashetianzu/article/details/7819244

總結(jié)

以上是生活随笔為你收集整理的hadoop join的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

Hadoop
join

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

编程问答

hadoop join

總結(jié)