大数据量下的sort
生活随笔
收集整理的這篇文章主要介紹了
大数据量下的sort
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
http://blog.chinaunix.net/uid-23586172-id-3349317.html
sort在linux命令行下面是一個非常好用的工具,有人把它當做每個程序員都應該知道的8個Linux命令之一,http://news.cnblogs.com/n/157504/?。最近在處理大數據的時候發現兩點。
1. 用sort -u 而不是sort|uniq。? sort應該是按照歸并的思想來的,先分成一個個小文件,排序后再組合成最后拍好序的文件。所以,sort -u 要比sort | uniq 快。因為越早去除那些相同的元素,肯定是對后面歸并的速度有好處的。 具體的測試如下:
2.更換sort的臨時文件生成目錄。 上面所說的sort的臨時小文件是默認放在/tmp路徑下的,有時候/tmp的空間有限制,比如4G,那么,超過4G的文件就沒有辦法用sort了。可以用sort -T?Path?來臨時文件的目錄。不用擔心,歸并完以后小文件會自動刪除的。
3. 按鍵值排序 這點其實跟大數據量有多大關系,而是很好用,sort -k 按照鍵值來排序。
總結
以上是生活随笔為你收集整理的大数据量下的sort的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: windows7出现MTP usb设备驱
- 下一篇: 如何设置win7 锁屏不断网