[Reprint] 探寻C++最快的读取文件的方案
作者:BYVoid(https://www.byvoid.com/zhs/blog/fast-readfile)
版權協議:CC BY-NC-SA 3.0 Unported
在競賽中,遇到大數據時,往往讀文件成了程序運行速度的瓶頸,需要更快的讀取方式。相信幾乎所有的C++學習者都在cin機器緩慢的速度上栽過跟頭,于是從此以后發誓不用cin讀數據。還有人說Pascal的read語句的速度是C/C++中scanf比不上的,C++選手只能干著急。難道C++真的低Pascal一等嗎?答案是不言而喻的。一個進階的方法是把數據一下子讀進來,然后再轉化字符串,這種方法傳說中很不錯,但具體如何從沒試過,因此今天就索性把能想到的所有的讀數據的方式都測試了一邊,結果是驚人的。
競賽中讀數據的情況最多的莫過于讀一大堆整數了,于是我寫了一個程序,生成一千萬個隨機數到data.txt中,一共55MB。然后我寫了個程序主干計算運行時間,代碼如下:
#include <ctime> int main() {int start = clock();//DO SOMETHINGprintf("%.3lf\n",double(clock()-start)/CLOCKS_PER_SEC); }最簡單的方法就算寫一個循環scanf了,代碼如下:
const int MAXN = 10000000;int numbers[MAXN];void scanf_read() {freopen("data.txt","r",stdin);for (int i=0;i<MAXN;i++)scanf("%d",&numbers[i]); }可是效率如何呢?在我的電腦Linux平臺上測試結果為2.01秒。接下來是cin,代碼如下
const int MAXN = 10000000;int numbers[MAXN];void cin_read() {freopen("data.txt","r",stdin);for (int i=0;i<MAXN;i++)std::cin >> numbers[i]; }出乎我的意料,cin僅僅用了6.38秒,比我想象的要快。cin慢是有原因的,其實默認的時候,cin與stdin總是保持同步的,也就是說這兩種方法可以混用,而不必擔心文件指針混亂,同時cout和stdout也一樣,兩者混用不會輸出順序錯亂。正因為這個兼容性的特性,導致cin有許多額外的開銷,如何禁用這個特性呢?只需一個語句std::ios::sync_with_stdio(false);,這樣就可以取消cin于stdin的同步了。程序如下:
const int MAXN = 10000000;int numbers[MAXN];void cin_read_nosync() {freopen("data.txt","r",stdin);std::ios::sync_with_stdio(false);for (int i=0;i<MAXN;i++)std::cin >> numbers[i]; }取消同步后效率究竟如何?經測試運行時間銳減到了2.05秒,與scanf效率相差無幾了!有了這個以后可以放心使用cin和cout了。
接下來讓我們測試一下讀入整個文件再處理的方法,首先要寫一個字符串轉化為數組的函數,代碼如下
const int MAXS = 60*1024*1024; char buf[MAXS];void analyse(char *buf,int len = MAXS) {int i;numbers[i=0]=0;for (char *p=buf;*p && p-buf<len;p++)if (*p == ' ')numbers[++i]=0;elsenumbers[i] = numbers[i] * 10 + *p - '0'; }把整個文件讀入一個字符串最常用的方法是用fread,代碼如下:
const int MAXN = 10000000; const int MAXS = 60*1024*1024;int numbers[MAXN]; char buf[MAXS];void fread_analyse() {freopen("data.txt","rb",stdin);int len = fread(buf,1,MAXS,stdin);buf[len] = '\0';analyse(buf,len); }上述代碼有著驚人的效率,經測試讀取這10000000個數只用了0.29秒,效率提高了幾乎10倍!掌握著種方法簡直無敵了,不過,我記得fread是封裝過的read,如果直接使用read,是不是更快呢?代碼如下:
const int MAXN = 10000000; const int MAXS = 60*1024*1024;int numbers[MAXN]; char buf[MAXS];void read_analyse() {int fd = open("data.txt",O_RDONLY);int len = read(fd,buf,MAXS);buf[len] = '\0';analyse(buf,len); }測試發現運行時間仍然是0.29秒,可見read不具備特殊的優勢。到此已經結束了嗎?不,我可以調用Linux的底層函數mmap,這個函數的功能是將文件映射到內存,是所有讀文件方法都要封裝的基礎方法,直接使用mmap會怎樣呢?代碼如下:
const int MAXN = 10000000; const int MAXS = 60*1024*1024;int numbers[MAXN]; char buf[MAXS]; void mmap_analyse() {int fd = open("data.txt",O_RDONLY);int len = lseek(fd,0,SEEK_END);char *mbuf = (char *) mmap(NULL,len,PROT_READ,MAP_PRIVATE,fd,0); analyse(mbuf,len); }經測試,運行時間縮短到了0.25秒,效率繼續提高了14%。到此為止我已經沒有更好的方法繼續提高讀文件的速度了。回頭測一下Pascal的速度如何?結果令人大跌眼鏡,居然運行了2.16秒之多。程序如下:
constMAXN = 10000000; varnumbers :array[0..MAXN] of longint;i :longint; beginassign(input,'data.txt');reset(input);for i:=0 to MAXN doread(numbers[i]); end.為確保準確性,我又換到Windows平臺上測試了一下。結果如下表:
| scanf | 2.010 | 3.704 | 3.425 |
| cin | 6.380 | 64.003 | 19.208 |
| cin取消同步 | 2.050 | 6.004 | 19.616 |
| fread | 0.290 | 0.241 | 0.304 |
| read | 0.290 | 0.398 | 不支持 |
| mmap | 0.250 | 不支持 | 不支持 |
| Pascal read | 2.160 | 4.668 |
從上面可以看出幾個問題
希望此文能對大家有所啟發,歡迎與我繼續討論。
BYVoid原創 轉載請注明
轉載于:https://www.cnblogs.com/greyqz/p/7291650.html
總結
以上是生活随笔為你收集整理的[Reprint] 探寻C++最快的读取文件的方案的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 学习Bootstrap知识记录点----
- 下一篇: 逍遥法外第一季/全集How To Get