C++优化热点语句
優化熱點語句
提前計算固定值
先觀察下面的性能測試代碼:
static void find_blank(benchmark::State& state) {for (auto _: state) {char s[] = "This string has many space (0x20) chars. ";for (size_t i = 0; i < strlen(s); ++i)if (s[i] == ' ')s[i] = '*';} } BENCHMARK(find_blank);這段代碼對字符串中的每個字符都會判斷循環條件 i < strlen(s) 是否成立 1。調用strlen() 的開銷是昂貴的,遍歷參數字符串對它的字符計數使得這個算法的開銷從 O(n)變為了 O(n2)。這是一個在庫函數中隱藏了循環的典型例子
既然,每次strlen()調用都會導致一次遍歷,并且計算結果不會隨著函數的運行而改變,可以嘗試先求出strlen保存,然后后期就直接使用計算結果,而不是每次循環都進行計算,如下:
static void find_blank_init_length(benchmark::State& state) {for (auto _: state) {char s[] = "This string has many space (0x20) chars. ";for (size_t i = 0, len = strlen(s); i < len; ++i)if (s[i] == ' ')s[i] = '*';} }BENCHMARK(find_blank_init_length);測試結果如下:
----------------------------------------------------------------- Benchmark Time CPU Iterations ----------------------------------------------------------------- find_blank 191 ns 191 ns 3431752 find_blank_init_length 72.4 ns 72.4 ns 9635766在禁用變異優化的選項下編譯,從計算結果可以看出,更改之后整個函數性能提升了將近3倍左右。
使用更加高效的循環
通常for循環將會被編譯成如下的代碼:
初始化表達式; L1: if (!循環條件) goto L2;語句;繼續表達式;goto L1; L2:而do-while編譯之后一般為:
L1: 控制語句if (循環條件) goto L1;當然不同的編譯器可能實現不一樣,按照上述分析使用do-while肯定要比for循環要好很多,但是,在ubuntu20.04上實際測試for循環的速度基本上和do-while保持一致,也可能是for循環用的多,所以編譯器哪些大佬特意特意進行了優化。
do-while的實現:
static void find_blank_do_while(benchmark::State& state) {for (auto _: state) {char s[] = "This string has many space (0x20) chars. ";size_t i = 0, len = strlen(s);do {if (s[i] == ' ')s[i] = '*';++ i;}while (i < len);} }BENCHMARK(find_blank_do_while);實際測試結果:
----------------------------------------------------------------- Benchmark Time CPU Iterations ----------------------------------------------------------------- find_blank 191 ns 191 ns 3431752 find_blank_init_length 72.4 ns 72.4 ns 9635766 find_blank_do_while 71.6 ns 71.6 ns 9629498使用編譯器進行優化
在不更改代碼的情況下,可以更改優化選項,告訴編譯器可以對代碼進行優化,當編譯器選項由O0更改為O3之后的測試結果如下:
----------------------------------------------------------------- Benchmark Time CPU Iterations ----------------------------------------------------------------- find_blank 60.4 ns 60.4 ns 10536782 find_blank_init_length 34.6 ns 34.6 ns 20298248 find_blank_do_while 34.4 ns 34.4 ns 20249507 ----------------------------------------------------------------- Benchmark Time CPU Iterations ----------------------------------------------------------------- find_blank 60.2 ns 60.2 ns 9566706 find_blank_init_length 34.4 ns 34.4 ns 20362644 find_blank_do_while 34.6 ns 34.6 ns 20355712多次運行之后,使用for循環和使用do-while結構基本上沒有任何差別,而代價就是編譯過程慢了一點。
總結
- 上一篇: 作者:郑纬民
- 下一篇: 作者:钱卫宁,华东师范大学数据科学与工程