TPC-H生成Spark测试用的伪数据集(转载)
生活随笔
收集整理的這篇文章主要介紹了
TPC-H生成Spark测试用的伪数据集(转载)
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
下載地址:
鏈接: https://pan.baidu.com/s/1MwVQY_T0vehm0pUUsuqstQ 提取碼: vsgu
步驟如下:
cd dbgen
cp makefile.suite makefile
subl?makefile
make
./dbgen -s 5?([1]表示想要生成5G大小的數據集,但是實際生成似乎不是那么大,一般都會偏小)
然后會生成數據集lineitem.tbl
丟給給Spark使用參考[2]
?
Reference:
[1]TPC-H生成測試數據集-Ubuntu
[2]Spark如何處理數據傾斜
總結
以上是生活随笔為你收集整理的TPC-H生成Spark测试用的伪数据集(转载)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 法师蓝色铭文哪个好
- 下一篇: 网易云音乐如何分享歌单(下载网易云音乐i