原文鏈接:http://blog.csdn.net/augusdi/article/details/12205435
作者專欄:http://blog.csdn.net/augusdi/article/category/1663451
(一): VS10設(shè)置
? ? 在開始學(xué)習(xí)之前,首先要做的就是找到一本好的教材,要知道一本好的教材可以讓我們更加輕松地入門。在看了一些個(gè)CUDA編程相關(guān)的教材之后,我向大家推薦的一本教材叫做《GPU高性能編程CUDA實(shí)戰(zhàn)》。本教材相比其他的教材而言,它講得比較細(xì),對于一些我們可能不太明白的知識(shí)點(diǎn)做了詳細(xì)的說明 。而且這本教材以層層深入的方式向我們展示了GPU的世界,從而引領(lǐng)我們進(jìn)入CUDA編程的大門。
?????? 其他的教材的話我建議的是《深入淺出談CUDA》以及《CUDA編程指南》,前一本書可以和《GPU高性能編程CUDA實(shí)戰(zhàn)》這本書一起看,我建議先看《深入淺出談CUDA》,然后再看《GPU高性能編程CUDA實(shí)戰(zhàn)》,這樣理解起來能夠更加的透徹。
????? ? CUDA5.5是集成的CUDA ToolKit和SDK于一身的軟件,可以到NVIDIA Developer Zone去下載,下載地址https://developer.nvidia.com/cuda-downloads,有了工具我們就可以進(jìn)行CUDA編程了。
????? ? CUDA安裝好之后,就可以配置VS2010的cuda環(huán)境了,此時(shí)cuda已經(jīng)和你的vs綁定好了,默認(rèn)安裝的VS10支持包。于是我們就可以開始我們的第一個(gè)cuda程序:
1.創(chuàng)建一個(gè)cuda項(xiàng)目
??????? 由于安裝cuda5.5的時(shí)候已經(jīng)和vs2010綁定,所以直接可以創(chuàng)建一個(gè)cuda項(xiàng)目。選擇cuda 5.5 runtime就可以。
??????? 此時(shí)vs2010會(huì)自動(dòng)為這個(gè)項(xiàng)目添加一個(gè)cuda程序:kernel.cu。直接編譯這個(gè).cu文件,可能會(huì)出現(xiàn)"轉(zhuǎn)換到 COFF 期間失敗: 文件無效或損壞"這樣的錯(cuò)誤信息,修改如下所示:
??????? 右鍵->工程屬性->配置屬性-> 清單工具->輸入和輸出->嵌入清單,選擇[否] 。
2.CUDA C/C++關(guān)鍵字和函數(shù)高亮顯示
??????? 在上面.cu文件中發(fā)現(xiàn)CUDA C/C++的關(guān)鍵字__global__等沒有高亮顯示,而且還有下劃曲線。下面進(jìn)行CUDA C/C++關(guān)鍵字和函數(shù)的語法高亮顯示,配置Visual AssistX 函數(shù)高亮,代碼提示等功能。
下面是關(guān)于代碼高亮的設(shè)置。共三個(gè)設(shè)置
2.1.cu文件中C/C++關(guān)鍵字高亮
這個(gè)設(shè)置是讓VS2010編輯.cu文件時(shí),把.cu文件里的C/C++語法高亮。
設(shè)置方法: 在VS2010的菜單 依次點(diǎn)擊:“工具|選項(xiàng)|文本編輯器|文件擴(kuò)展名”,在這個(gè)界面里: “編輯器”下拉框選“Microsoft Visual C++”,在“Extension”文本框輸入.cu 點(diǎn)擊“添加”按鈕 ,重復(fù)工作把.cuh 添加為vc++類型,點(diǎn)擊確定按鈕。 把全部.cu文件關(guān)閉,再打開,.cu文件C++關(guān)鍵字就高亮了。如果不行就重啟VS2010。但是CUDA的關(guān)鍵字還是黑色的,下一步把CUDA關(guān)鍵自高亮顯示。
2.2.CUDA關(guān)鍵字高亮
為了讓CUDA的關(guān)鍵字,如__device__、dim3之類的文字高亮,需要如下步驟:
把SDK_PATH\C\doc\syntax_highlighting\usertype.dat復(fù)制到X:\Program Files (X86)\Microsoft Visual Studio 10.0\Common7\IDE\ 目錄下?
這里 X:是安裝VS2010盤符,這是win7 64位下的路徑。
注意:win7 64系統(tǒng)不要復(fù)制到這個(gè)目錄里,復(fù)制到這里是不會(huì)CUDA關(guān)鍵字高亮的:
X:\Program Files \Microsoft Visual Studio 10.0\Common7\IDE\ (如果你的win7是32位的,可能正好是上面這個(gè)目錄,應(yīng)該會(huì)高亮的,這是win7 64位和32位的差別)
再次強(qiáng)調(diào):SDK_PATH要換成你安裝SDK的實(shí)際路徑,不要直接使用這個(gè)字符串。
VS2010需要重啟,重啟后打開.cu文件,CUDA的關(guān)鍵字應(yīng)該變成藍(lán)色了。
2.3. CUDA 函數(shù)高亮,及CUDA函數(shù)輸入代碼提示
實(shí)現(xiàn)這個(gè)功能就要使用VAssistX了。 首先安裝支持VS2010的Visual AssistX, 在CUDA 安裝前、后安裝都行。需要兩步實(shí)現(xiàn)需要的功能:
a) 讓Visual AssistX支持CUDA函數(shù)高亮和代碼完成。在VS2010菜單里依次點(diǎn)擊: “VAssistX->Visual assist X Options->Projects->C/C++Directories ”在這個(gè)界面的 “Platform”下拉框選 Custom,在“Show Directories for..“下拉框選 Other include files, 然后在下面的輸入框里,新建、添加三個(gè)路徑,點(diǎn)擊確定,三個(gè)路徑分別如下:
SDK_PATH的\c\common\inc ?????? SDK_PATH的\shared\inc ?????? X:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v4.0\include
這里SDK_PATH要用你安裝的SDK路徑代替,X:是你的CUDA toolkit安裝盤符。
這樣分別在這三個(gè)目錄里面的.h文件定義的函數(shù)和類型VAssistX會(huì)幫我們在編輯文件時(shí)候?qū)崿F(xiàn)高亮和完成代碼。如果少包含一個(gè)路徑,這個(gè)目錄里的.h定義的函數(shù)和類型就不會(huì)高亮和提示了。
b)讓Visual AssistX支持.cu文件,也就讓Visual AssistX幫我們實(shí)現(xiàn).cu文件高亮和代碼完成功能,需要編輯注冊表。首先關(guān)閉VS2010,點(diǎn)擊開始菜單輸入regedit打開注冊表,找到如下位置:HKEY_CURRENT_USER\Software\Whole Tomato\Visual Assist X\VANet10。在右邊找到ExtSource項(xiàng)目,鼠標(biāo)右鍵選修改,在原有文字后添加如下文字:.cu;.cuh; 確定后 關(guān)閉注冊表,重新打開vs2010,Visual AssistX開始支持.cu及.cuh文件的語法高亮及代碼完成。此時(shí).cu文件的CUDA函數(shù)是高亮的,使用函數(shù)名符號(hào)就會(huì)自動(dòng)提示函數(shù)全稱,參數(shù)類型等信息了。
經(jīng)過上面的安裝,開發(fā)程序應(yīng)該沒問題了,但會(huì)發(fā)現(xiàn)有如下的問題:
1. VS2010顯示.cu文件時(shí),有很多CUDA函數(shù)下有波浪線
2. 在.cu文件里使用VS2010的“Go to definition”功能查無法找到CUDA函數(shù)的定義。
這兩個(gè)問題的原因是VS2010不認(rèn)識(shí)這些函數(shù),沒有指定它們在那個(gè)頭文件里包含的。解決方法其實(shí)是一樣的,把CUDA tookit 和CUDA SDK的頭文件路徑加到VS2010的VC++目錄里面。
?
??????? CUDA編程主要做的就是和GPU打交道,在和這樣的一個(gè)陌生的家伙交流之前,我們需要做的就是先得認(rèn)識(shí)和熟悉這個(gè)家伙。
在深入研究如何編寫設(shè)備代碼之前,我們需要通過某種機(jī)制來判斷計(jì)算機(jī)中當(dāng)前有哪些設(shè)備,以及每個(gè)設(shè)備都支持哪些功能。幸運(yùn)的是,可以通過一個(gè)非常簡單的接口來獲得這種信息。首先,我們希望知道在系統(tǒng)中有多少個(gè)設(shè)備是支持CUDA架構(gòu)的,并且這些設(shè)備能夠運(yùn)行基于CUDA C編寫的核函數(shù)。要獲得CUDA設(shè)備的數(shù)量.可以調(diào)用cudaGetDeviceCount()。這個(gè)函數(shù)的作用從色的名字就可以看出來。在調(diào)用cudaGetDeviceCount()后,可以對每個(gè)設(shè)備進(jìn)行迭代、井查詢各個(gè)設(shè)備的相關(guān)信息。CUDA運(yùn)行時(shí)將返回一個(gè)cudaDevice Prop類型的結(jié)構(gòu),其中包含了設(shè)備的相關(guān)屬性。我們可以獲得哪些屬性?從CUDA 3.0開始,在cudaDeviceProp結(jié)構(gòu)中包含了以下信息:
[cpp] view plaincopy
struct ?cudaDeviceProp???{?? ????char ?name[256];??????????? ????size_t ?totalGlobalMem;???????????? ????size_t ?sharedMemPerBlock;????? ????int ?regsPerBlock;????????? ????int ?warpSize;????????????? ????size_t ?memPitch;????????/在內(nèi)存復(fù)制中最大的修正量(Pitch),單位為字節(jié)?? ????int ?maxThreadsPerBlock;??????? ????int ?maxThreadsDim[3];????????? ????int ?maxGridSize?[3];?????????? ????size_t ?totalConstMem;????????? ????int ?major;???????????? ????int ?minor;???????????? ????int ?clockRate;???????????? ????size_t ?textureAlignment;?????? ????int ?deviceoverlap;???????? ????int ?multiProcessorCount;?????? ????int ?kernelExecTimeoutEnabled;????? ????int ?integrated;??????????? ????int ?canMapHostMemory;????????? ????int ?computeMode;?????????? ????int ?maxTexture1D;????????? ????int ?maxTexture2D[2];?????????? ????int ?maxTexture3D[3];?????????? ????int ?maxTexture2DArray[3];????? ????int ?concurrentKernels?;??????? };??
設(shè)備屬性的使用
通過上面的結(jié)構(gòu)體,我們大致了解了設(shè)備的屬性,然后我們就可以通過這個(gè)結(jié)構(gòu)體來查詢設(shè)備屬性了。可能會(huì)有人問,到底我們需要這些設(shè)備屬性來干嘛,別著急,以后在編寫相關(guān)性能優(yōu)化的代碼的時(shí)候,就知道了解這些屬性的好處了。現(xiàn)在我們只需要知道方法就可以了。
首先我們可以通過兩個(gè)函數(shù),第一個(gè)就是上面的cudaGetDeviceCount()來選擇設(shè)備,然后循環(huán)地通過getDeviceProperties()來獲得設(shè)備的屬性,之后我們就可以通過這樣的一個(gè)結(jié)構(gòu)體變量將設(shè)備的屬性值獲取出來。
[cpp] view plaincopy
#include?<cuda_runtime.h> ??#include?<iostream> ??using ?namespace ?std;???? int ?main()??{?? ????cudaDeviceProp?prop;?? ?? ????int ?count;?? ????cudaGetDeviceCount(&count);?? ?? ????for (int ?i?=?0?;?i?<?count?;?i++)?? ????{?? ????????cudaGetDeviceProperties(&prop,i);?? ????????cout<<"the?information?for?the?device?:?" <<i<<endl;?? ????????cout<<"name:" <<prop.name<<endl;?? ????????cout<<"the?memory?information?for?the?device?:?" <<i<<endl;?? ????????cout<<"total?global?memory:" <<prop.totalGlobalMem<<endl;?? ????????cout<<"total?constant?memory:" <<prop.totalConstMem<<endl;?? ????????cout<<"threads?in?warps:" <<prop.warpSize<<endl;?? ????????cout<<"max?threads?per?block:" <<prop.maxThreadsPerBlock<<endl;?? ????????cout<<"max?threads?dims:" <<prop.maxThreadsDim[0]<<"??" <<prop.maxThreadsDim[1]<<?? ????????????"??" <<prop.maxThreadsDim[2]<<endl;?? ????????cout<<"max?grid?dims:" <<prop.maxGridSize[0]<<"??" <<?? ????????????prop.maxGridSize[1]<<"??" <<prop.maxGridSize[2]<<endl;?? ?? ????}?? ????return ?0;?? }??
我這邊只是獲取一部分的屬性值,只是和大家介紹一下,具體的屬性值可以按照這樣的方法來獲取。
(二):從入門到入門 :http://blog.csdn.net/augusdi/article/details/12833235
CUDA從入門到精通(一):環(huán)境搭建
NVIDIA于2006年推出CUDA(Compute Unified Devices Architecture),可以利用其推出的GPU進(jìn)行通用計(jì)算,將并行計(jì)算從大型集群擴(kuò)展到了普通顯卡,使得用戶只需要一臺(tái)帶有Geforce顯卡的筆記本就能跑較大規(guī)模的并行處理程序。
?
使用顯卡的好處是,和大型集群相比功耗非常低,成本也不高,但性能很突出。以我的筆記本為例,Geforce 610M,用DeviceQuery程序測試,可得到如下硬件參數(shù):
計(jì)算能力達(dá)48X0.95 = 45.6 GFLOPS。而筆記本的CPU參數(shù)如下:
CPU計(jì)算能力為(4核):2.5G*4 = 10GFLOPS,可見,顯卡計(jì)算性能是4核i5 CPU的4~5倍,因此我們可以充分利用這一資源來對一些耗時(shí)的應(yīng)用進(jìn)行加速。
?
好了,工欲善其事必先利其器,為了使用CUDA對GPU進(jìn)行編程,我們需要準(zhǔn)備以下必備工具:
1. 硬件平臺(tái),就是顯卡,如果你用的不是NVIDIA的顯卡,那么只能說抱歉,其他都不支持CUDA。
2. 操作系統(tǒng),我用過windows XP,Windows 7都沒問題,本博客用Windows7。
3. C編譯器,建議VS2008,和本博客一致。
4. CUDA編譯器NVCC,可以免費(fèi)免注冊免license從官網(wǎng)下載CUDA ToolkitCUDA下載,最新版本為5.0,本博客用的就是該版本。
5. 其他工具(如Visual Assist,輔助代碼高亮)
?
準(zhǔn)備完畢,開始安裝軟件。VS2008安裝比較費(fèi)時(shí)間,建議安裝完整版(NVIDIA官網(wǎng)說Express版也可以),過程不必詳述。CUDA Toolkit 5.0里面包含了NVCC編譯器、設(shè)計(jì)文檔、設(shè)計(jì)例程、CUDA運(yùn)行時(shí)庫、CUDA頭文件等必備的原材料。
安裝完畢,我們在桌面上發(fā)現(xiàn)這個(gè)圖標(biāo):
不錯(cuò),就是它,雙擊運(yùn)行,可以看到一大堆例程。我們找到Simple OpenGL這個(gè)運(yùn)行看看效果:
? 點(diǎn)右邊黃線標(biāo)記處的Run即可看到美妙的三維正弦曲面,鼠標(biāo)左鍵拖動(dòng)可以轉(zhuǎn)換角度,右鍵拖動(dòng)可以縮放。如果這個(gè)運(yùn)行成功,說明你的環(huán)境基本搭建成功。
出現(xiàn)問題的可能:
1. 你使用遠(yuǎn)程桌面連接登錄到另一臺(tái)服務(wù)器,該服務(wù)器上有顯卡支持CUDA,但你遠(yuǎn)程終端不能運(yùn)行CUDA程序。這是因?yàn)檫h(yuǎn)程登錄使用的是你本地顯卡資源,在遠(yuǎn)程登錄時(shí)看不到服務(wù)器端的顯卡,所以會(huì)報(bào)錯(cuò):沒有支持CUDA的顯卡!解決方法:1. 遠(yuǎn)程服務(wù)器裝兩塊顯卡,一塊只用于顯示,另一塊用于計(jì)算;2.不要用圖形界面登錄,而是用命令行界面如telnet登錄。
2.有兩個(gè)以上顯卡都支持CUDA的情況,如何區(qū)分是在哪個(gè)顯卡上運(yùn)行?這個(gè)需要你在程序里控制,選擇符合一定條件的顯卡,如較高的時(shí)鐘頻率、較大的顯存、較高的計(jì)算版本等。詳細(xì)操作見后面的博客。
好了,先說這么多,下一節(jié)我們介紹如何在VS2008中給GPU編程。
CUDA從入門到精通(二):第一個(gè)CUDA程序
書接上回,我們既然直接運(yùn)行例程成功了,接下來就是了解如何實(shí)現(xiàn)例程中的每個(gè)環(huán)節(jié)。當(dāng)然,我們先從簡單的做起,一般編程語言都會(huì)找個(gè)helloworld例子,而我們的顯卡是不會(huì)說話的,只能做一些簡單的加減乘除運(yùn)算。所以,CUDA程序的helloworld,我想應(yīng)該最合適不過的就是向量加了。
打開VS2008,選擇File->New->Project,彈出下面對話框,設(shè)置如下:
之后點(diǎn)OK,直接進(jìn)入工程界面。
工程中,我們看到只有一個(gè).cu文件,內(nèi)容如下:
[cpp] view plaincopy
#include?"cuda_runtime.h" ??#include?"device_launch_parameters.h" ???? #include?<stdio.h> ???? cudaError_t?addWithCuda(int ?*c,?const ?int ?*a,?const ?int ?*b,?size_t ?size);?? ?? __global__?void ?addKernel(int ?*c,?const ?int ?*a,?const ?int ?*b)?? {?? ????int ?i?=?threadIdx.x;?? ????c[i]?=?a[i]?+?b[i];?? }?? ?? int ?main()??{?? ????const ?int ?arraySize?=?5;?? ????const ?int ?a[arraySize]?=?{?1,?2,?3,?4,?5?};?? ????const ?int ?b[arraySize]?=?{?10,?20,?30,?40,?50?};?? ????int ?c[arraySize]?=?{?0?};?? ?? ?????? ????cudaError_t?cudaStatus?=?addWithCuda(c,?a,?b,?arraySize);?? ????if ?(cudaStatus?!=?cudaSuccess)?{?? ????????fprintf(stderr,?"addWithCuda?failed!" );?? ????????return ?1;?? ????}?? ?? ????printf("{1,2,3,4,5}?+?{10,20,30,40,50}?=?{%d,%d,%d,%d,%d}\n" ,?? ????????c[0],?c[1],?c[2],?c[3],?c[4]);?? ?? ?????? ?????? ????cudaStatus?=?cudaThreadExit();?? ????if ?(cudaStatus?!=?cudaSuccess)?{?? ????????fprintf(stderr,?"cudaThreadExit?failed!" );?? ????????return ?1;?? ????}?? ?? ????return ?0;?? }?? ?? ?? cudaError_t?addWithCuda(int ?*c,?const ?int ?*a,?const ?int ?*b,?size_t ?size)?? {?? ????int ?*dev_a?=?0;?? ????int ?*dev_b?=?0;?? ????int ?*dev_c?=?0;?? ????cudaError_t?cudaStatus;?? ?? ?????? ????cudaStatus?=?cudaSetDevice(0);?? ????if ?(cudaStatus?!=?cudaSuccess)?{?? ????????fprintf(stderr,?"cudaSetDevice?failed!??Do?you?have?a?CUDA-capable?GPU?installed?" );?? ????????goto ?Error;?? ????}?? ?? ?????? ????cudaStatus?=?cudaMalloc((void **)&dev_c,?size?*?sizeof (int ));?? ????if ?(cudaStatus?!=?cudaSuccess)?{?? ????????fprintf(stderr,?"cudaMalloc?failed!" );?? ????????goto ?Error;?? ????}?? ?? ????cudaStatus?=?cudaMalloc((void **)&dev_a,?size?*?sizeof (int ));?? ????if ?(cudaStatus?!=?cudaSuccess)?{?? ????????fprintf(stderr,?"cudaMalloc?failed!" );?? ????????goto ?Error;?? ????}?? ?? ????cudaStatus?=?cudaMalloc((void **)&dev_b,?size?*?sizeof (int ));?? ????if ?(cudaStatus?!=?cudaSuccess)?{?? ????????fprintf(stderr,?"cudaMalloc?failed!" );?? ????????goto ?Error;?? ????}?? ?? ?????? ????cudaStatus?=?cudaMemcpy(dev_a,?a,?size?*?sizeof (int ),?cudaMemcpyHostToDevice);?? ????if ?(cudaStatus?!=?cudaSuccess)?{?? ????????fprintf(stderr,?"cudaMemcpy?failed!" );?? ????????goto ?Error;?? ????}?? ?? ????cudaStatus?=?cudaMemcpy(dev_b,?b,?size?*?sizeof (int ),?cudaMemcpyHostToDevice);?? ????if ?(cudaStatus?!=?cudaSuccess)?{?? ????????fprintf(stderr,?"cudaMemcpy?failed!" );?? ????????goto ?Error;?? ????}?? ?? ?????? ????addKernel<<<1,?size>>>(dev_c,?dev_a,?dev_b);?? ?? ?????? ?????? ????cudaStatus?=?cudaThreadSynchronize();?? ????if ?(cudaStatus?!=?cudaSuccess)?{?? ????????fprintf(stderr,?"cudaThreadSynchronize?returned?error?code?%d?after?launching?addKernel!\n" ,?cudaStatus);?? ????????goto ?Error;?? ????}?? ?? ?????? ????cudaStatus?=?cudaMemcpy(c,?dev_c,?size?*?sizeof (int ),?cudaMemcpyDeviceToHost);?? ????if ?(cudaStatus?!=?cudaSuccess)?{?? ????????fprintf(stderr,?"cudaMemcpy?failed!" );?? ????????goto ?Error;?? ????}?? ?? Error:?? ????cudaFree(dev_c);?? ????cudaFree(dev_a);?? ????cudaFree(dev_b);?? ?????? ????return ?cudaStatus;?? }??
?可以看出,CUDA程序和C程序并無區(qū)別,只是多了一些以"cuda"開頭的一些庫函數(shù)和一個(gè)特殊聲明的函數(shù):
[cpp] view plaincopy
__global__?void ?addKernel(int ?*c,?const ?int ?*a,?const ?int ?*b)?? {?? ????int ?i?=?threadIdx.x;?? ????c[i]?=?a[i]?+?b[i];?? }??
這個(gè)函數(shù)就是在GPU上運(yùn)行的函數(shù),稱之為核函數(shù),英文名Kernel Function,注意要和操作系統(tǒng)內(nèi)核函數(shù)區(qū)分開來。
我們直接按F7編譯,可以得到如下輸出:
[html] view plaincopy
1> ------?Build?started:?Project:?cuda_helloworld,?Configuration:?Debug?Win32?------???? 1> Compiling?with?CUDA?Build?Rule...???? 1> "C:\Program?Files\NVIDIA?GPU?Computing?Toolkit\CUDA\v5.0\\bin\nvcc.exe"??-G???-gencode =arch =compute_10,code =\"sm_10,compute_10\"?-gencode =arch =compute_20,code =\"sm_20,compute_20\"??--machine?32?-ccbin?"C:\Program?Files?(x86)\Microsoft?Visual?Studio?9.0\VC\bin"????-Xcompiler?"/EHsc?/W3?/nologo?/O2?/Zi???/MT??"??-I"C:\Program?Files\NVIDIA?GPU?Computing?Toolkit\CUDA\v5.0\\include"?-maxrregcount =0 ???--compile?-o?"Debug/kernel.cu.obj"?kernel.cu?????? 1> tmpxft_000000ec_00000000-8_kernel.compute_10.cudafe1.gpu???? 1> tmpxft_000000ec_00000000-14_kernel.compute_10.cudafe2.gpu???? 1> tmpxft_000000ec_00000000-5_kernel.compute_20.cudafe1.gpu???? 1> tmpxft_000000ec_00000000-17_kernel.compute_20.cudafe2.gpu???? 1> kernel.cu???? 1> kernel.cu???? 1> tmpxft_000000ec_00000000-8_kernel.compute_10.cudafe1.cpp???? 1> tmpxft_000000ec_00000000-24_kernel.compute_10.ii???? 1> Linking...???? 1> Embedding?manifest...???? 1> Performing?Post-Build?Event...???? 1> copy?"C:\Program?Files\NVIDIA?GPU?Computing?Toolkit\CUDA\v5.0\\bin\cudart*.dll"?"C:\Users\DongXiaoman\Documents\Visual?Studio?2008\Projects\cuda_helloworld\Debug"???? 1> C:\Program?Files\NVIDIA?GPU?Computing?Toolkit\CUDA\v5.0\\bin\cudart32_50_35.dll???? 1> C:\Program?Files\NVIDIA?GPU?Computing?Toolkit\CUDA\v5.0\\bin\cudart64_50_35.dll???? 1> 已復(fù)制?????????2?個(gè)文件。???? 1> Build?log?was?saved?at?"file://c:\Users\DongXiaoman\Documents\Visual?Studio?2008\Projects\cuda_helloworld\cuda_helloworld\Debug\BuildLog.htm"???? 1> cuda_helloworld?-?0?error(s),?105?warning(s)???? ==========?Build:?1?succeeded,?0?failed,?0?up-to-date,?0?skipped ?==========????
可見,編譯.cu文件需要利用nvcc工具。該工具的詳細(xì)使用見后面博客。
直接運(yùn)行,可以得到結(jié)果圖如下:
如果顯示正確,那么我們的第一個(gè)程序宣告成功!
CUDA從入門到精通(三):必備資料
剛?cè)腴TCUDA,跑過幾個(gè)官方提供的例程,看了看人家的代碼,覺得并不難,但自己動(dòng)手寫代碼時(shí),總是不知道要先干什么,后干什么,也不知道從哪個(gè)知識(shí)點(diǎn)學(xué)起。這時(shí)就需要有一本能提供指導(dǎo)的書籍或者教程,一步步跟著做下去,直到真正掌握。
一般講述CUDA的書,我認(rèn)為不錯(cuò)的有下面這幾本:
初學(xué)者可以先看美國人寫的這本《GPU高性能編程CUDA實(shí)戰(zhàn)》,可操作性很強(qiáng),但不要期望能全看懂(Ps:里面有些概念其實(shí)我現(xiàn)在還是不怎么懂),但不影響你進(jìn)一步學(xué)習(xí)。如果想更全面地學(xué)習(xí)CUDA,《GPGPU編程技術(shù)》比較客觀詳細(xì)地介紹了通用GPU編程的策略,看過這本書,可以對顯卡有更深入的了解,揭開GPU的神秘面紗。后面《OpenGL編程指南》完全是為了體驗(yàn)圖形交互帶來的樂趣,可以有選擇地看;《GPU高性能運(yùn)算之CUDA》這本是師兄給的,適合快速查詢(感覺是將官方編程手冊翻譯了一遍)一些關(guān)鍵技術(shù)和概念。
有了這些指導(dǎo)材料還不夠,我們在做項(xiàng)目的時(shí)候,遇到的問題在這些書上肯定找不到,所以還需要有下面這些利器:
這里面有很多工具的使用手冊,如CUDA_GDB,Nsight,CUDA_Profiler等,方便調(diào)試程序;還有一些有用的庫,如CUFFT是專門用來做快速傅里葉變換的,CUBLAS是專用于線性代數(shù)(矩陣、向量計(jì)算)的,CUSPASE是專用于稀疏矩陣表示和計(jì)算的庫。這些庫的使用可以降低我們設(shè)計(jì)算法的難度,提高開發(fā)效率。另外還有些入門教程也是值得一讀的,你會(huì)對NVCC編譯器有更近距離的接觸。
好了,前言就這么多,本博主計(jì)劃按如下順序來講述CUDA:
1.了解設(shè)備
2.線程并行
3.塊并行
4.流并行
5.線程通信
6.線程通信實(shí)例:規(guī)約
7.存儲(chǔ)模型
8.常數(shù)內(nèi)存
9.紋理內(nèi)存
10.主機(jī)頁鎖定內(nèi)存
11.圖形互操作
12.優(yōu)化準(zhǔn)則
13.CUDA與MATLAB接口
14.CUDA與MFC接口
CUDA從入門到精通(四):加深對設(shè)備的認(rèn)識(shí)
前面三節(jié)已經(jīng)對CUDA做了一個(gè)簡單的介紹,這一節(jié)開始真正進(jìn)入編程環(huán)節(jié)。
首先,初學(xué)者應(yīng)該對自己使用的設(shè)備有較為扎實(shí)的理解和掌握,這樣對后面學(xué)習(xí)并行程序優(yōu)化很有幫助,了解硬件詳細(xì)參數(shù)可以通過上節(jié)介紹的幾本書和官方資料獲得,但如果仍然覺得不夠直觀,那么我們可以自己動(dòng)手獲得這些內(nèi)容。
以第二節(jié)例程為模板,我們稍加改動(dòng)的部分代碼如下:
[cpp] view plaincopy
?? cudaError_t?cudaStatus;?? int ?num?=?0;??cudaDeviceProp?prop;?? cudaStatus?=?cudaGetDeviceCount(&num);?? for (int ?i?=?0;i<num;i++)??{?? ????cudaGetDeviceProperties(&prop,i);?? }?? cudaStatus?=?addWithCuda(c,?a,?b,?arraySize);??
這個(gè)改動(dòng)的目的是讓我們的程序自動(dòng)通過調(diào)用cuda API函數(shù)獲得設(shè)備數(shù)目和屬性,所謂“知己知彼,百戰(zhàn)不殆”。
cudaError_t 是cuda錯(cuò)誤類型,取值為整數(shù)。
cudaDeviceProp為設(shè)備屬性結(jié)構(gòu)體,其定義可以從cuda Toolkit安裝目錄中找到,我的路徑為:C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v5.0\include\driver_types.h,找到定義為:
[cpp] view plaincopy
? ? ?? struct ?__device_builtin__?cudaDeviceProp??{?? ????char ???name[256];???????????????????? ????size_t ?totalGlobalMem;??????????????? ????size_t ?sharedMemPerBlock;???????????? ????int ????regsPerBlock;????????????????? ????int ????warpSize;????????????????????? ????size_t ?memPitch;????????????????????? ????int ????maxThreadsPerBlock;??????????? ????int ????maxThreadsDim[3];????????????? ????int ????maxGridSize[3];??????????????? ????int ????clockRate;???????????????????? ????size_t ?totalConstMem;???????????????? ????int ????major;???????????????????????? ????int ????minor;???????????????????????? ????size_t ?textureAlignment;????????????? ????size_t ?texturePitchAlignment;???????? ????int ????deviceOverlap;???????????????? ????int ????multiProcessorCount;?????????? ????int ????kernelExecTimeoutEnabled;????? ????int ????integrated;??????????????????? ????int ????canMapHostMemory;????????????? ????int ????computeMode;?????????????????? ????int ????maxTexture1D;????????????????? ????int ????maxTexture1DMipmap;??????????? ????int ????maxTexture1DLinear;??????????? ????int ????maxTexture2D[2];?????????????? ????int ????maxTexture2DMipmap[2];???????? ????int ????maxTexture2DLinear[3];???????? ????int ????maxTexture2DGather[2];???????? ????int ????maxTexture3D[3];?????????????? ????int ????maxTextureCubemap;???????????? ????int ????maxTexture1DLayered[2];??????? ????int ????maxTexture2DLayered[3];??????? ????int ????maxTextureCubemapLayered[2];?? ????int ????maxSurface1D;????????????????? ????int ????maxSurface2D[2];?????????????? ????int ????maxSurface3D[3];?????????????? ????int ????maxSurface1DLayered[2];??????? ????int ????maxSurface2DLayered[3];??????? ????int ????maxSurfaceCubemap;???????????? ????int ????maxSurfaceCubemapLayered[2];?? ????size_t ?surfaceAlignment;????????????? ????int ????concurrentKernels;???????????? ????int ????ECCEnabled;??????????????????? ????int ????pciBusID;????????????????????? ????int ????pciDeviceID;?????????????????? ????int ????pciDomainID;?????????????????? ????int ????tccDriver;???????????????????? ????int ????asyncEngineCount;????????????? ????int ????unifiedAddressing;???????????? ????int ????memoryClockRate;?????????????? ????int ????memoryBusWidth;??????????????? ????int ????l2CacheSize;?????????????????? ????int ????maxThreadsPerMultiProcessor;?? };??
后面的注釋已經(jīng)說明了其字段代表意義,可能有些術(shù)語對于初學(xué)者理解起來還是有一定困難,沒關(guān)系,我們現(xiàn)在只需要關(guān)注以下幾個(gè)指標(biāo):
name:就是設(shè)備名稱;
totalGlobalMem:就是顯存大小;
major,minor:CUDA設(shè)備版本號(hào),有1.1, 1.2, 1.3, 2.0, 2.1等多個(gè)版本;
clockRate:GPU時(shí)鐘頻率;
multiProcessorCount:GPU大核數(shù),一個(gè)大核(專業(yè)點(diǎn)稱為流多處理器,SM,Stream-Multiprocessor)包含多個(gè)小核(流處理器,SP,Stream-Processor)
編譯,運(yùn)行,我們在VS2008工程的cudaGetDeviceProperties()函數(shù)處放一個(gè)斷點(diǎn),單步執(zhí)行這一函數(shù),然后用Watch窗口,切換到Auto頁,展開+,在我的筆記本上得到如下結(jié)果:
可以看到,設(shè)備名為GeForce 610M,顯存1GB,設(shè)備版本2.1(比較高端了,哈哈),時(shí)鐘頻率為950MHz(注意950000單位為kHz),大核數(shù)為1。在一些高性能GPU上(如Tesla,Kepler系列),大核數(shù)可能達(dá)到幾十甚至上百,可以做更大規(guī)模的并行處理。
PS:今天看SDK代碼時(shí)發(fā)現(xiàn)在help_cuda.h中有個(gè)函數(shù)實(shí)現(xiàn)從CUDA設(shè)備版本查詢相應(yīng)大核中小核的數(shù)目,覺得很有用,以后編程序可以借鑒,摘抄如下:
[cpp] view plaincopy
?? inline ?int ?_ConvertSMVer2Cores(int ?major,?int ?minor)??{?? ?????? ????typedef ?struct ?? ????{?? ????????int ?SM;??? ????????int ?Cores;?? ????}?sSMtoCores;?? ?? ????sSMtoCores?nGpuArchCoresPerSM[]?=?? ????{?? ????????{?0x10,??8?},??? ????????{?0x11,??8?},??? ????????{?0x12,??8?},??? ????????{?0x13,??8?},??? ????????{?0x20,?32?},??? ????????{?0x21,?48?},??? ????????{?0x30,?192},??? ????????{?0x35,?192},??? ????????{???-1,?-1?}?? ????};?? ?? ????int ?index?=?0;?? ?? ????while ?(nGpuArchCoresPerSM[index].SM?!=?-1)?? ????{?? ????????if ?(nGpuArchCoresPerSM[index].SM?==?((major?<<?4)?+?minor))?? ????????{?? ????????????return ?nGpuArchCoresPerSM[index].Cores;?? ????????}?? ?? ????????index++;?? ????}?? ?? ?????? ????printf("MapSMtoCores?for?SM?%d.%d?is?undefined.??Default?to?use?%d?Cores/SM\n" ,?major,?minor,?nGpuArchCoresPerSM[7].Cores);?? ????return ?nGpuArchCoresPerSM[7].Cores;?? }?? ??
可見,設(shè)備版本2.1的一個(gè)大核有48個(gè)小核,而版本3.0以上的一個(gè)大核有192個(gè)小核!
前文說到過,當(dāng)我們用的電腦上有多個(gè)顯卡支持CUDA時(shí),怎么來區(qū)分在哪個(gè)上運(yùn)行呢?這里我們看一下addWithCuda這個(gè)函數(shù)是怎么做的。
[cpp] view plaincopy
cudaError_t?cudaStatus;?? ?? ?? cudaStatus?=?cudaSetDevice(0);?? if ?(cudaStatus?!=?cudaSuccess)?{??????fprintf(stderr,?"cudaSetDevice?failed!??Do?you?have?a?CUDA-capable?GPU?installed?" );?? ????goto ?Error;?? }??
使用了cudaSetDevice(0)這個(gè)操作,0表示能搜索到的第一個(gè)設(shè)備號(hào),如果有多個(gè)設(shè)備,則編號(hào)為0,1,2...。
再看我們本節(jié)添加的代碼,有個(gè)函數(shù)cudaGetDeviceCount(&num),這個(gè)函數(shù)用來獲取設(shè)備總數(shù),這樣我們選擇運(yùn)行CUDA程序的設(shè)備號(hào)取值就是0,1,...num-1,于是可以一個(gè)個(gè)枚舉設(shè)備,利用cudaGetDeviceProperties(&prop)獲得其屬性,然后利用一定排序、篩選算法,找到最符合我們應(yīng)用的那個(gè)設(shè)備號(hào)opt,然后調(diào)用cudaSetDevice(opt)即可選擇該設(shè)備。選擇標(biāo)準(zhǔn)可以從處理能力、版本控制、名稱等各個(gè)角度出發(fā)。后面講述流并發(fā)過程時(shí),還要用到這些API。
如果希望了解更多硬件內(nèi)容可以結(jié)合http://www.geforce.cn/hardware獲取。
CUDA從入門到精通(五):線程并行
多線程我們應(yīng)該都不陌生,在操作系統(tǒng)中,進(jìn)程是資源分配的基本單元,而線程是CPU時(shí)間調(diào)度的基本單元(這里假設(shè)只有1個(gè)CPU)。
將線程的概念引申到CUDA程序設(shè)計(jì)中,我們可以認(rèn)為線程就是執(zhí)行CUDA程序的最小單元,前面我們建立的工程代碼中,有個(gè)核函數(shù)概念不知各位童鞋還記得沒有,在GPU上每個(gè)線程都會(huì)運(yùn)行一次該核函數(shù)。
但GPU上的線程調(diào)度方式與CPU有很大不同。CPU上會(huì)有優(yōu)先級(jí)分配,從高到低,同樣優(yōu)先級(jí)的可以采用時(shí)間片輪轉(zhuǎn)法實(shí)現(xiàn)線程調(diào)度。GPU上線程沒有優(yōu)先級(jí)概念,所有線程機(jī)會(huì)均等,線程狀態(tài)只有等待資源和執(zhí)行兩種狀態(tài),如果資源未就緒,那么就等待;一旦就緒,立即執(zhí)行。當(dāng)GPU資源很充裕時(shí),所有線程都是并發(fā)執(zhí)行的,這樣加速效果很接近理論加速比;而GPU資源少于總線程個(gè)數(shù)時(shí),有一部分線程就會(huì)等待前面執(zhí)行的線程釋放資源,從而變?yōu)榇谢瘓?zhí)行。
代碼還是用上一節(jié)的吧,改動(dòng)很少,再貼一遍:
[cpp] view plaincopy
#include?"cuda_runtime.h"???????????//CUDA運(yùn)行時(shí)API ??#include?"device_launch_parameters.h"??? ??#include?<stdio.h> ??cudaError_t?addWithCuda(int ?*c,?const ?int ?*a,?const ?int ?*b,?size_t ?size);?? __global__?void ?addKernel(int ?*c,?const ?int ?*a,?const ?int ?*b)?? {?? ????int ?i?=?threadIdx.x;?? ????c[i]?=?a[i]?+?b[i];?? }?? int ?main()??{?? ????const ?int ?arraySize?=?5;?? ????const ?int ?a[arraySize]?=?{?1,?2,?3,?4,?5?};?? ????const ?int ?b[arraySize]?=?{?10,?20,?30,?40,?50?};?? ????int ?c[arraySize]?=?{?0?};?? ?????? ????cudaError_t?cudaStatus;?? ????int ?num?=?0;?? ????cudaDeviceProp?prop;?? ????cudaStatus?=?cudaGetDeviceCount(&num);?? ????for (int ?i?=?0;i<num;i++)?? ????{?? ????????cudaGetDeviceProperties(&prop,i);?? ????}?? ????cudaStatus?=?addWithCuda(c,?a,?b,?arraySize);?? ????if ?(cudaStatus?!=?cudaSuccess)??? ????{?? ????????fprintf(stderr,?"addWithCuda?failed!" );?? ????????return ?1;?? ????}?? ????printf("{1,2,3,4,5}?+?{10,20,30,40,50}?=?{%d,%d,%d,%d,%d}\n" ,c[0],c[1],c[2],c[3],c[4]);?? ?????? ?????? ????cudaStatus?=?cudaThreadExit();?? ????if ?(cudaStatus?!=?cudaSuccess)??? ????{?? ????????fprintf(stderr,?"cudaThreadExit?failed!" );?? ????????return ?1;?? ????}?? ????return ?0;?? }?? ?? cudaError_t?addWithCuda(int ?*c,?const ?int ?*a,?const ?int ?*b,?size_t ?size)?? {?? ????int ?*dev_a?=?0;??? ????int ?*dev_b?=?0;?? ????int ?*dev_c?=?0;?? ????cudaError_t?cudaStatus;??????? ?? ?????? ????cudaStatus?=?cudaSetDevice(0);???? ????if ?(cudaStatus?!=?cudaSuccess)??? ????{?? ????????fprintf(stderr,?"cudaSetDevice?failed!??Do?you?have?a?CUDA-capable?GPU?installed?" );?? ????????goto ?Error;?? ????}?? ?????? ????cudaStatus?=?cudaMalloc((void **)&dev_c,?size?*?sizeof (int ));?? ????if ?(cudaStatus?!=?cudaSuccess)??? ????{?? ????????fprintf(stderr,?"cudaMalloc?failed!" );?? ????????goto ?Error;?? ????}?? ????cudaStatus?=?cudaMalloc((void **)&dev_a,?size?*?sizeof (int ));?? ????if ?(cudaStatus?!=?cudaSuccess)??? ????{?? ????????fprintf(stderr,?"cudaMalloc?failed!" );?? ????????goto ?Error;?? ????}?? ????cudaStatus?=?cudaMalloc((void **)&dev_b,?size?*?sizeof (int ));?? ????if ?(cudaStatus?!=?cudaSuccess)??? ????{?? ????????fprintf(stderr,?"cudaMalloc?failed!" );?? ????????goto ?Error;?? ????}?? ?????? ????cudaStatus?=?cudaMemcpy(dev_a,?a,?size?*?sizeof (int ),?cudaMemcpyHostToDevice);?? ????if ?(cudaStatus?!=?cudaSuccess)??? ????{?? ????????fprintf(stderr,?"cudaMemcpy?failed!" );?? ????????goto ?Error;?? ????}?? ????cudaStatus?=?cudaMemcpy(dev_b,?b,?size?*?sizeof (int ),?cudaMemcpyHostToDevice);?? ????if ?(cudaStatus?!=?cudaSuccess)??? ????{?? ????????fprintf(stderr,?"cudaMemcpy?failed!" );?? ????????goto ?Error;?? ????}?? ?????? <span?style="BACKGROUND-COLOR:?#ff6666" ><strong>????addKernel<<<1,?size>>>(dev_c,?dev_a,?dev_b);</strong>?? </span>?????? ?????? ????cudaStatus?=?cudaThreadSynchronize();????? ????if ?(cudaStatus?!=?cudaSuccess)??? ????{?? ????????fprintf(stderr,?"cudaThreadSynchronize?returned?error?code?%d?after?launching?addKernel!\n" ,?cudaStatus);?? ????????goto ?Error;?? ????}?? ?????? ????cudaStatus?=?cudaMemcpy(c,?dev_c,?size?*?sizeof (int ),?cudaMemcpyDeviceToHost);???????? ????if ?(cudaStatus?!=?cudaSuccess)??? ????{?? ????????fprintf(stderr,?"cudaMemcpy?failed!" );?? ????????goto ?Error;?? ????}?? Error:?? ????cudaFree(dev_c);?????? ????cudaFree(dev_a);?? ????cudaFree(dev_b);?????? ????return ?cudaStatus;?? }??
紅色部分即啟動(dòng)核函數(shù)的調(diào)用過程,這里看到調(diào)用方式和C不太一樣。<<<>>>表示運(yùn)行時(shí)配置符號(hào),里面1表示只分配一個(gè)線程組(又稱線程塊、Block),size表示每個(gè)線程組有size個(gè)線程(Thread)。本程序中size根據(jù)前面?zhèn)鬟f參數(shù)個(gè)數(shù)應(yīng)該為5,所以運(yùn)行的時(shí)候,核函數(shù)在5個(gè)GPU線程單元上分別運(yùn)行了一次,總共運(yùn)行了5次。這5個(gè)線程是如何知道自己“身份”的?是靠threadIdx這個(gè)內(nèi)置變量,它是個(gè)dim3類型變量,接受<<<>>>中第二個(gè)參數(shù),它包含x,y,z 3維坐標(biāo),而我們傳入的參數(shù)只有一維,所以只有x值是有效的。通過核函數(shù)中int i = threadIdx.x;這一句,每個(gè)線程可以獲得自身的id號(hào),從而找到自己的任務(wù)去執(zhí)行。
CUDA從入門到精通(六):塊并行
?
同一版本的代碼用了這么多次,有點(diǎn)過意不去,于是這次我要做較大的改動(dòng),大家要擦亮眼睛,拭目以待。
塊并行相當(dāng)于操作系統(tǒng)中多進(jìn)程的情況,上節(jié)說到,CUDA有線程組(線程塊)的概念,將一組線程組織到一起,共同分配一部分資源,然后內(nèi)部調(diào)度執(zhí)行。線程塊與線程塊之間,毫無瓜葛。這有利于做更粗粒度的并行。我們將上一節(jié)的代碼改為塊并行版本如下:
下節(jié)我們介紹塊并行。
[cpp] view plaincopy
#include?"cuda_runtime.h" ??#include?"device_launch_parameters.h" ??#include?<stdio.h> ??cudaError_t?addWithCuda(int ?*c,?const ?int ?*a,?const ?int ?*b,?size_t ?size);?? __global__?void ?addKernel(int ?*c,?const ?int ?*a,?const ?int ?*b)?? {?? <span?style="BACKGROUND-COLOR:?#ff0000" >????int ?i?=?blockIdx.x;?? </span>????c[i]?=?a[i]?+?b[i];?? }?? int ?main()??{?? ????const ?int ?arraySize?=?5;?? ????const ?int ?a[arraySize]?=?{?1,?2,?3,?4,?5?};?? ????const ?int ?b[arraySize]?=?{?10,?20,?30,?40,?50?};?? ????int ?c[arraySize]?=?{?0?};?? ?????? ????cudaError_t?cudaStatus;?? ????int ?num?=?0;?? ????cudaDeviceProp?prop;?? ????cudaStatus?=?cudaGetDeviceCount(&num);?? ????for (int ?i?=?0;i<num;i++)?? ????{?? ????????cudaGetDeviceProperties(&prop,i);?? ????}?? ????cudaStatus?=?addWithCuda(c,?a,?b,?arraySize);?? ????if ?(cudaStatus?!=?cudaSuccess)??? ????{?? ????????fprintf(stderr,?"addWithCuda?failed!" );?? ????????return ?1;?? ????}?? ????printf("{1,2,3,4,5}?+?{10,20,30,40,50}?=?{%d,%d,%d,%d,%d}\n" ,c[0],c[1],c[2],c[3],c[4]);?? ?????? ?????? ????cudaStatus?=?cudaThreadExit();?? ????if ?(cudaStatus?!=?cudaSuccess)??? ????{?? ????????fprintf(stderr,?"cudaThreadExit?failed!" );?? ????????return ?1;?? ????}?? ????return ?0;?? }?? ?? cudaError_t?addWithCuda(int ?*c,?const ?int ?*a,?const ?int ?*b,?size_t ?size)?? {?? ????int ?*dev_a?=?0;?? ????int ?*dev_b?=?0;?? ????int ?*dev_c?=?0;?? ????cudaError_t?cudaStatus;?? ?? ?????? ????cudaStatus?=?cudaSetDevice(0);?? ????if ?(cudaStatus?!=?cudaSuccess)??? ????{?? ????????fprintf(stderr,?"cudaSetDevice?failed!??Do?you?have?a?CUDA-capable?GPU?installed?" );?? ????????goto ?Error;?? ????}?? ?????? ????cudaStatus?=?cudaMalloc((void **)&dev_c,?size?*?sizeof (int ));?? ????if ?(cudaStatus?!=?cudaSuccess)??? ????{?? ????????fprintf(stderr,?"cudaMalloc?failed!" );?? ????????goto ?Error;?? ????}?? ????cudaStatus?=?cudaMalloc((void **)&dev_a,?size?*?sizeof (int ));?? ????if ?(cudaStatus?!=?cudaSuccess)??? ????{?? ????????fprintf(stderr,?"cudaMalloc?failed!" );?? ????????goto ?Error;?? ????}?? ????cudaStatus?=?cudaMalloc((void **)&dev_b,?size?*?sizeof (int ));?? ????if ?(cudaStatus?!=?cudaSuccess)??? ????{?? ????????fprintf(stderr,?"cudaMalloc?failed!" );?? ????????goto ?Error;?? ????}?? ?????? ????cudaStatus?=?cudaMemcpy(dev_a,?a,?size?*?sizeof (int ),?cudaMemcpyHostToDevice);?? ????if ?(cudaStatus?!=?cudaSuccess)??? ????{?? ????????fprintf(stderr,?"cudaMemcpy?failed!" );?? ????????goto ?Error;?? ????}?? ????cudaStatus?=?cudaMemcpy(dev_b,?b,?size?*?sizeof (int ),?cudaMemcpyHostToDevice);?? ????if ?(cudaStatus?!=?cudaSuccess)??? ????{?? ????????fprintf(stderr,?"cudaMemcpy?failed!" );?? ????????goto ?Error;?? ????}?? ?????? ?<span?style="BACKGROUND-COLOR:?#ff0000" >???addKernel<<<size,1?>>>(dev_c,?dev_a,?dev_b);?? </span>?????? ?????? ????cudaStatus?=?cudaThreadSynchronize();?? ????if ?(cudaStatus?!=?cudaSuccess)??? ????{?? ????????fprintf(stderr,?"cudaThreadSynchronize?returned?error?code?%d?after?launching?addKernel!\n" ,?cudaStatus);?? ????????goto ?Error;?? ????}?? ?????? ????cudaStatus?=?cudaMemcpy(c,?dev_c,?size?*?sizeof (int ),?cudaMemcpyDeviceToHost);?? ????if ?(cudaStatus?!=?cudaSuccess)??? ????{?? ????????fprintf(stderr,?"cudaMemcpy?failed!" );?? ????????goto ?Error;?? ????}?? Error:?? ????cudaFree(dev_c);?? ????cudaFree(dev_a);?? ????cudaFree(dev_b);?????? ????return ?cudaStatus;?? }??
和上一節(jié)相比,只有這兩行有改變,<<<>>>里第一個(gè)參數(shù)改成了size,第二個(gè)改成了1,表示我們分配size個(gè)線程塊,每個(gè)線程塊僅包含1個(gè)線程,總共還是有5個(gè)線程。這5個(gè)線程相互獨(dú)立,執(zhí)行核函數(shù)得到相應(yīng)的結(jié)果,與上一節(jié)不同的是,每個(gè)線程獲取id的方式變?yōu)閕nt i = blockIdx.x;這是線程塊ID。
于是有童鞋提問了,線程并行和塊并行的區(qū)別在哪里?
線程并行是細(xì)粒度并行,調(diào)度效率高;塊并行是粗粒度并行,每次調(diào)度都要重新分配資源,有時(shí)資源只有一份,那么所有線程塊都只能排成一隊(duì),串行執(zhí)行。
那是不是我們所有時(shí)候都應(yīng)該用線程并行,盡可能不用塊并行?
當(dāng)然不是,我們的任務(wù)有時(shí)可以采用分治法,將一個(gè)大問題分解為幾個(gè)小規(guī)模問題,將這些小規(guī)模問題分別用一個(gè)線程塊實(shí)現(xiàn),線程塊內(nèi)可以采用細(xì)粒度的線程并行,而塊之間為粗粒度并行,這樣可以充分利用硬件資源,降低線程并行的計(jì)算復(fù)雜度。適當(dāng)分解,降低規(guī)模,在一些矩陣乘法、向量內(nèi)積計(jì)算應(yīng)用中可以得到充分的展示。
實(shí)際應(yīng)用中,常常是二者的結(jié)合。線程塊、線程組織圖如下所示。
多個(gè)線程塊組織成了一個(gè)Grid,稱為線程格(經(jīng)歷了從一位線程,二維線程塊到三維線程格的過程,立體感很強(qiáng)啊)。
好了,下一節(jié)我們介紹流并行,是更高層次的并行。
CUDA從入門到精通(七):流并行
前面我們沒有講程序的結(jié)構(gòu),我想有些童鞋可能迫不及待想知道CUDA程序到底是怎么一個(gè)執(zhí)行過程。好的,這一節(jié)在介紹流之前,先把CUDA程序結(jié)構(gòu)簡要說一下。
CUDA程序文件后綴為.cu,有些編譯器可能不認(rèn)識(shí)這個(gè)后綴的文件,我們可以在VS2008的Tools->Options->Text Editor->File Extension里添加cu后綴到VC++中,如下圖:
一個(gè).cu文件內(nèi)既包含CPU程序(稱為主機(jī)程序),也包含GPU程序(稱為設(shè)備程序)。如何區(qū)分主機(jī)程序和設(shè)備程序?根據(jù)聲明,凡是掛有“__global__”或者“__device__”前綴的函數(shù),都是在GPU上運(yùn)行的設(shè)備程序,不同的是__global__設(shè)備程序可被主機(jī)程序調(diào)用,而__device__設(shè)備程序則只能被設(shè)備程序調(diào)用。
沒有掛任何前綴的函數(shù),都是主機(jī)程序。主機(jī)程序顯示聲明可以用__host__前綴。設(shè)備程序需要由NVCC進(jìn)行編譯,而主機(jī)程序只需要由主機(jī)編譯器(如VS2008中的cl.exe,Linux上的GCC)。主機(jī)程序主要完成設(shè)備環(huán)境初始化,數(shù)據(jù)傳輸?shù)缺貍溥^程,設(shè)備程序只負(fù)責(zé)計(jì)算。
主機(jī)程序中,有一些“cuda”打頭的函數(shù),這些都是CUDA Runtime API,即運(yùn)行時(shí)函數(shù),主要負(fù)責(zé)完成設(shè)備的初始化、內(nèi)存分配、內(nèi)存拷貝等任務(wù)。我們前面第三節(jié)用到的函數(shù)cudaGetDeviceCount(),cudaGetDeviceProperties(),cudaSetDevice()都是運(yùn)行時(shí)API。這些函數(shù)的具體參數(shù)聲明我們不必一一記下來,拿出第三節(jié)的官方利器就可以輕松查詢,讓我們打開這個(gè)文件:
打開后,在pdf搜索欄中輸入一個(gè)運(yùn)行時(shí)函數(shù),例如cudaMemcpy,查到的結(jié)果如下:
可以看到,該API函數(shù)的參數(shù)形式為,第一個(gè)表示目的地,第二個(gè)表示來源地,第三個(gè)參數(shù)表示字節(jié)數(shù),第四個(gè)表示類型。如果對類型不了解,直接點(diǎn)擊超鏈接,得到詳細(xì)解釋如下:
可見,該API可以實(shí)現(xiàn)從主機(jī)到主機(jī)、主機(jī)到設(shè)備、設(shè)備到主機(jī)、設(shè)備到設(shè)備的內(nèi)存拷貝過程。同時(shí)可以發(fā)現(xiàn),利用該API手冊可以很方便地查詢我們需要用的這些API函數(shù),所以以后編CUDA程序一定要把它打開,隨時(shí)準(zhǔn)備查詢,這樣可以大大提高編程效率。
好了,進(jìn)入今天的主題:流并行。
前面已經(jīng)介紹了線程并行和塊并行,知道了線程并行為細(xì)粒度的并行,而塊并行為粗粒度的并行,同時(shí)也知道了CUDA的線程組織情況,即Grid-Block-Thread結(jié)構(gòu)。一組線程并行處理可以組織為一個(gè)block,而一組block并行處理可以組織為一個(gè)Grid,很自然地想到,Grid只是一個(gè)網(wǎng)格,我們是否可以利用多個(gè)網(wǎng)格來完成并行處理呢?答案就是利用流。
流可以實(shí)現(xiàn)在一個(gè)設(shè)備上運(yùn)行多個(gè)核函數(shù)。前面的塊并行也好,線程并行也好,運(yùn)行的核函數(shù)都是相同的(代碼一樣,傳遞參數(shù)也一樣)。而流并行,可以執(zhí)行不同的核函數(shù),也可以實(shí)現(xiàn)對同一個(gè)核函數(shù)傳遞不同的參數(shù),實(shí)現(xiàn)任務(wù)級(jí)別的并行。
CUDA中的流用cudaStream_t類型實(shí)現(xiàn),用到的API有以下幾個(gè):cudaStreamCreate(cudaStream_t * s)用于創(chuàng)建流,cudaStreamDestroy(cudaStream_t s)用于銷毀流,cudaStreamSynchronize()用于單個(gè)流同步,cudaDeviceSynchronize()用于整個(gè)設(shè)備上的所有流同步,cudaStreamQuery()用于查詢一個(gè)流的任務(wù)是否已經(jīng)完成。具體的含義可以查詢API手冊。
下面我們將前面的兩個(gè)例子中的任務(wù)改用流實(shí)現(xiàn),仍然是{1,2,3,4,5}+{10,20,30,40,50} = {11,22,33,44,55}這個(gè)例子。代碼如下:
[cpp] view plaincopy
#include?"cuda_runtime.h" ??#include?"device_launch_parameters.h" ??#include?<stdio.h> ??cudaError_t?addWithCuda(int ?*c,?const ?int ?*a,?const ?int ?*b,?size_t ?size);?? __global__?void ?addKernel(int ?*c,?const ?int ?*a,?const ?int ?*b)?? {?? ????int ?i?=?blockIdx.x;?? ????c[i]?=?a[i]?+?b[i];?? }?? int ?main()??{?? ????const ?int ?arraySize?=?5;?? ????const ?int ?a[arraySize]?=?{?1,?2,?3,?4,?5?};?? ????const ?int ?b[arraySize]?=?{?10,?20,?30,?40,?50?};?? ????int ?c[arraySize]?=?{?0?};?? ?????? ????cudaError_t?cudaStatus;?? ????int ?num?=?0;?? ????cudaDeviceProp?prop;?? ????cudaStatus?=?cudaGetDeviceCount(&num);?? ????for (int ?i?=?0;i<num;i++)?? ????{?? ????????cudaGetDeviceProperties(&prop,i);?? ????}?? ????cudaStatus?=?addWithCuda(c,?a,?b,?arraySize);?? ????if ?(cudaStatus?!=?cudaSuccess)??? ????{?? ????????fprintf(stderr,?"addWithCuda?failed!" );?? ????????return ?1;?? ????}?? ????printf("{1,2,3,4,5}?+?{10,20,30,40,50}?=?{%d,%d,%d,%d,%d}\n" ,c[0],c[1],c[2],c[3],c[4]);?? ?????? ?????? ????cudaStatus?=?cudaThreadExit();?? ????if ?(cudaStatus?!=?cudaSuccess)??? ????{?? ????????fprintf(stderr,?"cudaThreadExit?failed!" );?? ????????return ?1;?? ????}?? ????return ?0;?? }?? ?? cudaError_t?addWithCuda(int ?*c,?const ?int ?*a,?const ?int ?*b,?size_t ?size)?? {?? ????int ?*dev_a?=?0;?? ????int ?*dev_b?=?0;?? ????int ?*dev_c?=?0;?? ????cudaError_t?cudaStatus;?? ?? ?????? ????cudaStatus?=?cudaSetDevice(0);?? ????if ?(cudaStatus?!=?cudaSuccess)??? ????{?? ????????fprintf(stderr,?"cudaSetDevice?failed!??Do?you?have?a?CUDA-capable?GPU?installed?" );?? ????????goto ?Error;?? ????}?? ?????? ????cudaStatus?=?cudaMalloc((void **)&dev_c,?size?*?sizeof (int ));?? ????if ?(cudaStatus?!=?cudaSuccess)??? ????{?? ????????fprintf(stderr,?"cudaMalloc?failed!" );?? ????????goto ?Error;?? ????}?? ????cudaStatus?=?cudaMalloc((void **)&dev_a,?size?*?sizeof (int ));?? ????if ?(cudaStatus?!=?cudaSuccess)??? ????{?? ????????fprintf(stderr,?"cudaMalloc?failed!" );?? ????????goto ?Error;?? ????}?? ????cudaStatus?=?cudaMalloc((void **)&dev_b,?size?*?sizeof (int ));?? ????if ?(cudaStatus?!=?cudaSuccess)??? ????{?? ????????fprintf(stderr,?"cudaMalloc?failed!" );?? ????????goto ?Error;?? ????}?? ?????? ????cudaStatus?=?cudaMemcpy(dev_a,?a,?size?*?sizeof (int ),?cudaMemcpyHostToDevice);?? ????if ?(cudaStatus?!=?cudaSuccess)??? ????{?? ????????fprintf(stderr,?"cudaMemcpy?failed!" );?? ????????goto ?Error;?? ????}?? ????cudaStatus?=?cudaMemcpy(dev_b,?b,?size?*?sizeof (int ),?cudaMemcpyHostToDevice);?? ????if ?(cudaStatus?!=?cudaSuccess)??? ????{?? ????????fprintf(stderr,?"cudaMemcpy?failed!" );?? ????????goto ?Error;?? ????}?? <span?style="BACKGROUND-COLOR:?#ff6666" >??cudaStream_t?stream[5];?? ????for (int ?i?=?0;i<5;i++)?? ????{?? ????????cudaStreamCreate(&stream[i]);????? ????}?? </span>?????? <span?style="BACKGROUND-COLOR:?#ff6666" >??for (int ?i?=?0;i<5;i++)?? ????{?? ????????addKernel<<<1,1,0,stream[i]>>>(dev_c+i,?dev_a+i,?dev_b+i);?????? ????}?? ????cudaDeviceSynchronize();?? </span>?????? ?????? ????cudaStatus?=?cudaThreadSynchronize();?? ????if ?(cudaStatus?!=?cudaSuccess)??? ????{?? ????????fprintf(stderr,?"cudaThreadSynchronize?returned?error?code?%d?after?launching?addKernel!\n" ,?cudaStatus);?? ????????goto ?Error;?? ????}?? ?????? ????cudaStatus?=?cudaMemcpy(c,?dev_c,?size?*?sizeof (int ),?cudaMemcpyDeviceToHost);?? ????if ?(cudaStatus?!=?cudaSuccess)??? ????{?? ????????fprintf(stderr,?"cudaMemcpy?failed!" );?? ????????goto ?Error;?? ????}?? Error:?? <span?style="BACKGROUND-COLOR:?#ff6666" >??for (int ?i?=?0;i<5;i++)?? ????{?? ????????cudaStreamDestroy(stream[i]);????? ????}?? </span>????cudaFree(dev_c);?? ????cudaFree(dev_a);?? ????cudaFree(dev_b);?????? ????return ?cudaStatus;?? }??
注意到,我們的核函數(shù)代碼仍然和塊并行的版本一樣,只是在調(diào)用時(shí)做了改變,<<<>>>中的參數(shù)多了兩個(gè),其中前兩個(gè)和塊并行、線程并行中的意義相同,仍然是線程塊數(shù)(這里為1)、每個(gè)線程塊中線程數(shù)(這里也是1)。第三個(gè)為0表示每個(gè)block用到的共享內(nèi)存大小,這個(gè)我們后面再講;第四個(gè)為流對象,表示當(dāng)前核函數(shù)在哪個(gè)流上運(yùn)行。我們創(chuàng)建了5個(gè)流,每個(gè)流上都裝載了一個(gè)核函數(shù),同時(shí)傳遞參數(shù)有些不同,也就是每個(gè)核函數(shù)作用的對象也不同。這樣就實(shí)現(xiàn)了任務(wù)級(jí)別的并行,當(dāng)我們有幾個(gè)互不相關(guān)的任務(wù)時(shí),可以寫多個(gè)核函數(shù),資源允許的情況下,我們將這些核函數(shù)裝載到不同流上,然后執(zhí)行,這樣可以實(shí)現(xiàn)更粗粒度的并行。
好了,流并行就這么簡單,我們處理任務(wù)時(shí),可以根據(jù)需要,選擇最適合的并行方式。
UDA從入門到精通(八):線程通信
我們前面幾節(jié)主要介紹了三種利用GPU實(shí)現(xiàn)并行處理的方式:線程并行,塊并行和流并行。在這些方法中,我們一再強(qiáng)調(diào),各個(gè)線程所進(jìn)行的處理是互不相關(guān)的,即兩個(gè)線程不回產(chǎn)生交集,每個(gè)線程都只關(guān)注自己的一畝三分地,對其他線程毫無興趣,就當(dāng)不存在。。。。
當(dāng)然,實(shí)際應(yīng)用中,這樣的例子太少了,也就是遇到向量相加、向量對應(yīng)點(diǎn)乘這類才會(huì)有如此高的并行度,而其他一些應(yīng)用,如一組數(shù)求和,求最大(小)值,各個(gè)線程不再是相互獨(dú)立的,而是產(chǎn)生一定關(guān)聯(lián),線程2可能會(huì)用到線程1的結(jié)果,這時(shí)就需要利用本節(jié)的線程通信技術(shù)了。
線程通信在CUDA中有三種實(shí)現(xiàn)方式:
1. 共享存儲(chǔ)器;
2. 線程?同步;
3. 原子操作;
最常用的是前兩種方式,共享存儲(chǔ)器,術(shù)語Shared Memory,是位于SM中的特殊存儲(chǔ)器。還記得SM嗎,就是流多處理器,大核是也。一個(gè)SM中不僅包含若干個(gè)SP(流處理器,小核),還包括一部分高速Cache,寄存器組,共享內(nèi)存等,結(jié)構(gòu)如圖所示:
從圖中可看出,一個(gè)SM內(nèi)有M個(gè)SP,Shared Memory由這M個(gè)SP共同占有。另外指令單元也被這M個(gè)SP共享,即SIMT架構(gòu)(單指令多線程架構(gòu)),一個(gè)SM中所有SP在同一時(shí)間執(zhí)行同一代碼。
為了實(shí)現(xiàn)線程通信,僅僅靠共享內(nèi)存還不夠,需要有同步機(jī)制才能使線程之間實(shí)現(xiàn)有序處理。通常情況是這樣:當(dāng)線程A需要線程B計(jì)算的結(jié)果作為輸入時(shí),需要確保線程B已經(jīng)將結(jié)果寫入共享內(nèi)存中,然后線程A再從共享內(nèi)存中讀出。同步必不可少,否則,線程A可能讀到的是無效的結(jié)果,造成計(jì)算錯(cuò)誤。同步機(jī)制可以用CUDA內(nèi)置函數(shù):__syncthreads();當(dāng)某個(gè)線程執(zhí)行到該函數(shù)時(shí),進(jìn)入等待狀態(tài),直到同一線程塊(Block)中所有線程都執(zhí)行到這個(gè)函數(shù)為止,即一個(gè)__syncthreads()相當(dāng)于一個(gè)線程同步點(diǎn),確保一個(gè)Block中所有線程都達(dá)到同步,然后線程進(jìn)入運(yùn)行狀態(tài)。
綜上兩點(diǎn),我們可以寫一段線程通信的偽代碼如下:
[cpp] view plaincopy
?? if ?this ?is?thread ?B???????write?something?to?Shared?Memory;?? end?if ?? __syncthreads();?? if ?this ?is?thread ?A??????read?something?from?Shared?Memory;?? end?if ?? ??
上面代碼在CUDA中實(shí)現(xiàn)時(shí),由于SIMT特性,所有線程都執(zhí)行同樣的代碼,所以在線程中需要判斷自己的身份,以免誤操作。
注意的是,位于同一個(gè)Block中的線程才能實(shí)現(xiàn)通信,不同Block中的線程不能通過共享內(nèi)存、同步進(jìn)行通信,而應(yīng)采用原子操作或主機(jī)介入。
對于原子操作,如果感興趣可以翻閱《GPU高性能編程CUDA實(shí)戰(zhàn)》第九章“原子性”。
本節(jié)完。下節(jié)我們給出一個(gè)實(shí)例來看線程通信的代碼怎么設(shè)計(jì)。
CUDA從入門到精通(九):線程通信實(shí)例
接著上一節(jié),我們利用剛學(xué)到的共享內(nèi)存和線程同步技術(shù),來做一個(gè)簡單的例子。先看下效果吧:
很簡單,就是分別求出1~5這5個(gè)數(shù)字的和,平方和,連乘積。相信學(xué)過C語言的童鞋都能用for循環(huán)做出同上面一樣的效果,但為了學(xué)習(xí)CUDA共享內(nèi)存和同步技術(shù),我們還是要把簡單的東西復(fù)雜化(^_^)。
簡要分析一下,上面例子的輸入都是一樣的,1,2,3,4,5這5個(gè)數(shù),但計(jì)算過程有些變化,而且每個(gè)輸出和所有輸入都相關(guān),不是前幾節(jié)例子中那樣,一個(gè)輸出只和一個(gè)輸入有關(guān)。所以我們在利用CUDA編程時(shí),需要針對特殊問題做些讓步,把一些步驟串行化實(shí)現(xiàn)。
輸入數(shù)據(jù)原本位于主機(jī)內(nèi)存,通過cudaMemcpy API已經(jīng)拷貝到GPU顯存(術(shù)語為全局存儲(chǔ)器,Global Memory),每個(gè)線程運(yùn)行時(shí)需要從Global Memory讀取輸入數(shù)據(jù),然后完成計(jì)算,最后將結(jié)果寫回Global Memory。當(dāng)我們計(jì)算需要多次相同輸入數(shù)據(jù)時(shí),大家可能想到,每次都分別去Global Memory讀數(shù)據(jù)好像有點(diǎn)浪費(fèi),如果數(shù)據(jù)很大,那么反復(fù)多次讀數(shù)據(jù)會(huì)相當(dāng)耗時(shí)間。索性我們把它從Global Memory一次性讀到SM內(nèi)部,然后在內(nèi)部進(jìn)行處理,這樣可以節(jié)省反復(fù)讀取的時(shí)間。
有了這個(gè)思路,結(jié)合上節(jié)看到的SM結(jié)構(gòu)圖,看到有一片存儲(chǔ)器叫做Shared Memory,它位于SM內(nèi)部,處理時(shí)訪問速度相當(dāng)快(差不多每個(gè)時(shí)鐘周期讀一次),而全局存儲(chǔ)器讀一次需要耗費(fèi)幾十甚至上百個(gè)時(shí)鐘周期。于是,我們就制定A計(jì)劃如下:
線程塊數(shù):1,塊號(hào)為0;(只有一個(gè)線程塊內(nèi)的線程才能進(jìn)行通信,所以我們只分配一個(gè)線程塊,具體工作交給每個(gè)線程完成)
線程數(shù):5,線程號(hào)分別為0~4;(線程并行,前面講過)
共享存儲(chǔ)器大小:5個(gè)int型變量大小(5 * sizeof(int))。
步驟一:讀取輸入數(shù)據(jù)。將Global Memory中的5個(gè)整數(shù)讀入共享存儲(chǔ)器,位置一一對應(yīng),和線程號(hào)也一一對應(yīng),所以可以同時(shí)完成。
步驟二:線程同步,確保所有線程都完成了工作。
步驟三:指定線程,對共享存儲(chǔ)器中的輸入數(shù)據(jù)完成相應(yīng)處理。
代碼如下:
[cpp] view plaincopy
#include?"cuda_runtime.h" ??#include?"device_launch_parameters.h" ???? #include?<stdio.h> ???? cudaError_t?addWithCuda(int ?*c,?const ?int ?*a,?size_t ?size);?? ?? __global__?void ?addKernel(int ?*c,?const ?int ?*a)?? {?? ????int ?i?=?threadIdx.x;?? <span?style="font-size:24px;" ><strong>??extern ?__shared__?int ?smem[];</strong>?? </span>???smem[i]?=?a[i];?? ????__syncthreads();?? ????if (i?==?0)???? ????{?? ????????c[0]?=?0;?? ????????for (int ?d?=?0;?d?<?5;?d++)?? ????????{?? ????????????c[0]?+=?smem[d]?*?smem[d];?? ????????}?? ????}?? ????if (i?==?1)?? ????{?? ????????c[1]?=?0;?? ????????for (int ?d?=?0;?d?<?5;?d++)?? ????????{?? ????????????c[1]?+=?smem[d];?? ????????}?? ????}?? ????if (i?==?2)???? ????{?? ????????c[2]?=?1;?? ????????for (int ?d?=?0;?d?<?5;?d++)?? ????????{?? ????????????c[2]?*=?smem[d];?? ????????}?? ????}?? }?? ?? int ?main()??{?? ????const ?int ?arraySize?=?5;?? ????const ?int ?a[arraySize]?=?{?1,?2,?3,?4,?5?};?? ????int ?c[arraySize]?=?{?0?};?? ?????? ????cudaError_t?cudaStatus?=?addWithCuda(c,?a,?arraySize);?? ????if ?(cudaStatus?!=?cudaSuccess)??? ????{?? ????????fprintf(stderr,?"addWithCuda?failed!" );?? ????????return ?1;?? ????}?? ????printf("\t1+2+3+4+5?=?%d\n\t1^2+2^2+3^2+4^2+5^2?=?%d\n\t1*2*3*4*5?=?%d\n\n\n\n\n\n" ,?c[1],?c[0],?c[2]);?? ?????? ?????? ????cudaStatus?=?cudaThreadExit();?? ????if ?(cudaStatus?!=?cudaSuccess)??? ????{?? ????????fprintf(stderr,?"cudaThreadExit?failed!" );?? ????????return ?1;?? ????}?? ????return ?0;?? }?? ?? ?? cudaError_t?addWithCuda(int ?*c,?const ?int ?*a,??size_t ?size)?? {?? ????int ?*dev_a?=?0;?? ????int ?*dev_c?=?0;?? ????cudaError_t?cudaStatus;?? ?? ?????? ????cudaStatus?=?cudaSetDevice(0);?? ????if ?(cudaStatus?!=?cudaSuccess)??? ????{?? ????????fprintf(stderr,?"cudaSetDevice?failed!??Do?you?have?a?CUDA-capable?GPU?installed?" );?? ????????goto ?Error;?? ????}?? ?? ?????? ????cudaStatus?=?cudaMalloc((void **)&dev_c,?size?*?sizeof (int ));?? ????if ?(cudaStatus?!=?cudaSuccess)??? ????{?? ????????fprintf(stderr,?"cudaMalloc?failed!" );?? ????????goto ?Error;?? ????}?? ?? ????cudaStatus?=?cudaMalloc((void **)&dev_a,?size?*?sizeof (int ));?? ????if ?(cudaStatus?!=?cudaSuccess)??? ????{?? ????????fprintf(stderr,?"cudaMalloc?failed!" );?? ????????goto ?Error;?? ????}?? ?????? ????cudaStatus?=?cudaMemcpy(dev_a,?a,?size?*?sizeof (int ),?cudaMemcpyHostToDevice);?? ????if ?(cudaStatus?!=?cudaSuccess)??? ????{?? ????????fprintf(stderr,?"cudaMemcpy?failed!" );?? ????????goto ?Error;?? ????}?? ?????? <span?style="font-size:24px;" ><strong>????addKernel<<<1,?size,?size?*?sizeof (int ),?0>>>(dev_c,?dev_a);</strong>?? </span>?? ?????? ?????? ????cudaStatus?=?cudaThreadSynchronize();?? ????if ?(cudaStatus?!=?cudaSuccess)??? ????{?? ????????fprintf(stderr,?"cudaThreadSynchronize?returned?error?code?%d?after?launching?addKernel!\n" ,?cudaStatus);?? ????????goto ?Error;?? ????}?? ?? ?????? ????cudaStatus?=?cudaMemcpy(c,?dev_c,?size?*?sizeof (int ),?cudaMemcpyDeviceToHost);?? ????if ?(cudaStatus?!=?cudaSuccess)??? ????{?? ????????fprintf(stderr,?"cudaMemcpy?failed!" );?? ????????goto ?Error;?? ????}?? ?? Error:?? ????cudaFree(dev_c);?? ????cudaFree(dev_a);?????? ????return ?cudaStatus;?? }??
從代碼中看到執(zhí)行配置<<<>>>中第三個(gè)參數(shù)為共享內(nèi)存大小(字節(jié)數(shù)),這樣我們就知道了全部4個(gè)執(zhí)行配置參數(shù)的意義。恭喜,你的CUDA終于入門了!
CUDA從入門到精通(十):性能剖析和Visual Profiler
入門后的進(jìn)一步學(xué)習(xí)的內(nèi)容,就是如何優(yōu)化自己的代碼。我們前面的例子沒有考慮任何性能方面優(yōu)化,是為了更好地學(xué)習(xí)基本知識(shí)點(diǎn),而不是其他細(xì)節(jié)問題。從本節(jié)開始,我們要從性能出發(fā)考慮問題,不斷優(yōu)化代碼,使執(zhí)行速度提高是并行處理的唯一目的。
測試代碼運(yùn)行速度有很多方法,C語言里提供了類似于SystemTime()這樣的API獲得系統(tǒng)時(shí)間,然后計(jì)算兩個(gè)事件之間的時(shí)長從而完成計(jì)時(shí)功能。在CUDA中,我們有專門測量設(shè)備運(yùn)行時(shí)間的API,下面一一介紹。
翻開編程手冊《CUDA_Toolkit_Reference_Manual》,隨時(shí)準(zhǔn)備查詢不懂得API。我們在運(yùn)行核函數(shù)前后,做如下操作:
[cpp] view plaincopy
cudaEvent_t?start,?stop;<span?style="white-space:pre" >??</span>?? cudaEventCreate(&start);<span?style="white-space:pre" >??</span>?? cudaEventCreate(&stop);<span?style="white-space:pre" >???????</span>?? cudaEventRecord(start,?stream);<span?style="white-space:pre" >???</span>?? myKernel<<<dimg,dimb,size_smem,stream>>>(parameter?list);?? ?? cudaEventRecord(stop,stream);<span?style="white-space:pre" >?</span>?? cudaEventSynchronize(stop);<span?style="white-space:pre" >???</span>?? float ?elapsedTime;??cudaEventElapsedTime(&elapsedTime,start,stop);??
核函數(shù)執(zhí)行時(shí)間將被保存在變量elapsedTime中。通過這個(gè)值我們可以評(píng)估算法的性能。下面給一個(gè)例子,來看怎么使用計(jì)時(shí)功能。
前面的例子規(guī)模很小,只有5個(gè)元素,處理量太小不足以計(jì)時(shí),下面將規(guī)模擴(kuò)大為1024,此外將反復(fù)運(yùn)行1000次計(jì)算總時(shí)間,這樣估計(jì)不容易受隨機(jī)擾動(dòng)影響。我們通過這個(gè)例子對比線程并行和塊并行的性能如何。代碼如下:
[cpp] view plaincopy
#include?"cuda_runtime.h" ??#include?"device_launch_parameters.h" ??#include?<stdio.h> ??cudaError_t?addWithCuda(int ?*c,?const ?int ?*a,?const ?int ?*b,?size_t ?size);?? __global__?void ?addKernel_blk(int ?*c,?const ?int ?*a,?const ?int ?*b)?? {?? ????int ?i?=?blockIdx.x;?? ????c[i]?=?a[i]+?b[i];?? }?? __global__?void ?addKernel_thd(int ?*c,?const ?int ?*a,?const ?int ?*b)?? {?? ????int ?i?=?threadIdx.x;?? ????c[i]?=?a[i]+?b[i];?? }?? int ?main()??{?? ????const ?int ?arraySize?=?1024;?? ????int ?a[arraySize]?=?{0};?? ????int ?b[arraySize]?=?{0};?? ????for (int ?i?=?0;i<arraySize;i++)?? ????{?? ????????a[i]?=?i;?? ????????b[i]?=?arraySize-i;?? ????}?? ????int ?c[arraySize]?=?{0};?? ?????? ????cudaError_t?cudaStatus;?? ????int ?num?=?0;?? ????cudaDeviceProp?prop;?? ????cudaStatus?=?cudaGetDeviceCount(&num);?? ????for (int ?i?=?0;i<num;i++)?? ????{?? ????????cudaGetDeviceProperties(&prop,i);?? ????}?? ????cudaStatus?=?addWithCuda(c,?a,?b,?arraySize);?? ????if ?(cudaStatus?!=?cudaSuccess)??? ????{?? ????????fprintf(stderr,?"addWithCuda?failed!" );?? ????????return ?1;?? ????}?? ?? ?????? ?????? ????cudaStatus?=?cudaThreadExit();?? ????if ?(cudaStatus?!=?cudaSuccess)??? ????{?? ????????fprintf(stderr,?"cudaThreadExit?failed!" );?? ????????return ?1;?? ????}?? ????for (int ?i?=?0;i<arraySize;i++)?? ????{?? ????????if (c[i]?!=?(a[i]+b[i]))?? ????????{?? ????????????printf("Error?in?%d\n" ,i);?? ????????}?? ????}?? ????return ?0;?? }?? ?? cudaError_t?addWithCuda(int ?*c,?const ?int ?*a,?const ?int ?*b,?size_t ?size)?? {?? ????int ?*dev_a?=?0;?? ????int ?*dev_b?=?0;?? ????int ?*dev_c?=?0;?? ????cudaError_t?cudaStatus;?? ?? ?????? ????cudaStatus?=?cudaSetDevice(0);?? ????if ?(cudaStatus?!=?cudaSuccess)??? ????{?? ????????fprintf(stderr,?"cudaSetDevice?failed!??Do?you?have?a?CUDA-capable?GPU?installed?" );?? ????????goto ?Error;?? ????}?? ?????? ????cudaStatus?=?cudaMalloc((void **)&dev_c,?size?*?sizeof (int ));?? ????if ?(cudaStatus?!=?cudaSuccess)??? ????{?? ????????fprintf(stderr,?"cudaMalloc?failed!" );?? ????????goto ?Error;?? ????}?? ????cudaStatus?=?cudaMalloc((void **)&dev_a,?size?*?sizeof (int ));?? ????if ?(cudaStatus?!=?cudaSuccess)??? ????{?? ????????fprintf(stderr,?"cudaMalloc?failed!" );?? ????????goto ?Error;?? ????}?? ????cudaStatus?=?cudaMalloc((void **)&dev_b,?size?*?sizeof (int ));?? ????if ?(cudaStatus?!=?cudaSuccess)??? ????{?? ????????fprintf(stderr,?"cudaMalloc?failed!" );?? ????????goto ?Error;?? ????}?? ?????? ????cudaStatus?=?cudaMemcpy(dev_a,?a,?size?*?sizeof (int ),?cudaMemcpyHostToDevice);?? ????if ?(cudaStatus?!=?cudaSuccess)??? ????{?? ????????fprintf(stderr,?"cudaMemcpy?failed!" );?? ????????goto ?Error;?? ????}?? ????cudaStatus?=?cudaMemcpy(dev_b,?b,?size?*?sizeof (int ),?cudaMemcpyHostToDevice);?? ????if ?(cudaStatus?!=?cudaSuccess)??? ????{?? ????????fprintf(stderr,?"cudaMemcpy?failed!" );?? ????????goto ?Error;?? ????}?? ????cudaEvent_t?start,stop;?? ????cudaEventCreate(&start);?? ????cudaEventCreate(&stop);?? ????cudaEventRecord(start,0);?? ????for (int ?i?=?0;i<1000;i++)?? ????{?? ?? ????????addKernel_thd<<<1,size>>>(dev_c,?dev_a,?dev_b);?? ????}?? ????cudaEventRecord(stop,0);?? ????cudaEventSynchronize(stop);?? ????float ?tm ;?? ????cudaEventElapsedTime(&tm ,start,stop);?? ????printf("GPU?Elapsed?time:%.6f?ms.\n" ,tm );?? ?????? ?????? ????cudaStatus?=?cudaThreadSynchronize();?? ????if ?(cudaStatus?!=?cudaSuccess)??? ????{?? ????????fprintf(stderr,?"cudaThreadSynchronize?returned?error?code?%d?after?launching?addKernel!\n" ,?cudaStatus);?? ????????goto ?Error;?? ????}?? ?????? ????cudaStatus?=?cudaMemcpy(c,?dev_c,?size?*?sizeof (int ),?cudaMemcpyDeviceToHost);?? ????if ?(cudaStatus?!=?cudaSuccess)??? ????{?? ????????fprintf(stderr,?"cudaMemcpy?failed!" );?? ????????goto ?Error;?? ????}?? Error:?? ????cudaFree(dev_c);?? ????cudaFree(dev_a);?? ????cudaFree(dev_b);?????? ????return ?cudaStatus;?? }??
addKernel_blk是采用塊并行實(shí)現(xiàn)的向量相加操作,而addKernel_thd是采用線程并行實(shí)現(xiàn)的向量相加操作。分別運(yùn)行,得到的結(jié)果如下圖所示:
線程并行:
塊并行:
可見性能竟然相差近16倍!因此選擇并行處理方法時(shí),如果問題規(guī)模不是很大,那么采用線程并行是比較合適的,而大問題分多個(gè)線程塊處理時(shí),每個(gè)塊內(nèi)線程數(shù)不要太少,像本文中的只有1個(gè)線程,這是對硬件資源的極大浪費(fèi)。一個(gè)理想的方案是,分N個(gè)線程塊,每個(gè)線程塊包含512個(gè)線程,將問題分解處理,效率往往比單一的線程并行處理或單一塊并行處理高很多。這也是CUDA編程的精髓。
上面這種分析程序性能的方式比較粗糙,只知道大概運(yùn)行時(shí)間長度,對于設(shè)備程序各部分代碼執(zhí)行時(shí)間沒有一個(gè)深入的認(rèn)識(shí),這樣我們就有個(gè)問題,如果對代碼進(jìn)行優(yōu)化,那么優(yōu)化哪一部分呢?是將線程數(shù)調(diào)節(jié)呢,還是改用共享內(nèi)存?這個(gè)問題最好的解決方案就是利用Visual Profiler。下面內(nèi)容摘自《CUDA_Profiler_Users_Guide》
“Visual Profiler是一個(gè)圖形化的剖析工具,可以顯示你的應(yīng)用程序中CPU和GPU的活動(dòng)情況,利用分析引擎幫助你尋找優(yōu)化的機(jī)會(huì)。”
其實(shí)除了可視化的界面,NVIDIA提供了命令行方式的剖析命令:nvprof。對于初學(xué)者,使用圖形化的方式比較容易上手,所以本節(jié)使用Visual Profiler。
打開Visual Profiler,可以從CUDA Toolkit安裝菜單處找到。主界面如下:
我們點(diǎn)擊File->New Session,彈出新建會(huì)話對話框,如下圖所示:
其中File一欄填入我們需要進(jìn)行剖析的應(yīng)用程序exe文件,后面可以都不填(如果需要命令行參數(shù),可以在第三行填入),直接Next,見下圖:
第一行為應(yīng)用程序執(zhí)行超時(shí)時(shí)間設(shè)定,可不填;后面三個(gè)單選框都勾上,這樣我們分別使能了剖析,使能了并發(fā)核函數(shù)剖析,然后運(yùn)行分析器。
點(diǎn)Finish,開始運(yùn)行我們的應(yīng)用程序并進(jìn)行剖析、分析性能。
上圖中,CPU和GPU部分顯示了硬件和執(zhí)行內(nèi)容信息,點(diǎn)某一項(xiàng)則將時(shí)間條對應(yīng)的部分高亮,便于觀察,同時(shí)右邊詳細(xì)信息會(huì)顯示運(yùn)行時(shí)間信息。從時(shí)間條上看出,cudaMalloc占用了很大一部分時(shí)間。下面分析器給出了一些性能提升的關(guān)鍵點(diǎn),包括:低計(jì)算利用率(計(jì)算時(shí)間只占總時(shí)間的1.8%,也難怪,加法計(jì)算復(fù)雜度本來就很低呀!);低內(nèi)存拷貝/計(jì)算交疊率(一點(diǎn)都沒有交疊,完全是拷貝——計(jì)算——拷貝);低存儲(chǔ)拷貝尺寸(輸入數(shù)據(jù)量太小了,相當(dāng)于你淘寶買了個(gè)日記本,運(yùn)費(fèi)比實(shí)物價(jià)格還高!);低存儲(chǔ)拷貝吞吐率(只有1.55GB/s)。這些對我們進(jìn)一步優(yōu)化程序是非常有幫助的。
我們點(diǎn)一下Details,就在Analysis窗口旁邊。得到結(jié)果如下所示:
通過這個(gè)窗口可以看到每個(gè)核函數(shù)執(zhí)行時(shí)間,以及線程格、線程塊尺寸,占用寄存器個(gè)數(shù),靜態(tài)共享內(nèi)存、動(dòng)態(tài)共享內(nèi)存大小等參數(shù),以及內(nèi)存拷貝函數(shù)的執(zhí)行情況。這個(gè)提供了比前面cudaEvent函數(shù)測時(shí)間更精確的方式,直接看到每一步的執(zhí)行時(shí)間,精確到ns。
在Details后面還有一個(gè)Console,點(diǎn)一下看看。
這個(gè)其實(shí)就是命令行窗口,顯示運(yùn)行輸出。看到加入了Profiler信息后,總執(zhí)行時(shí)間變長了(原來線程并行版本的程序運(yùn)行時(shí)間只需4ms左右)。這也是“測不準(zhǔn)定理”決定的,如果我們希望測量更細(xì)微的時(shí)間,那么總時(shí)間肯定是不準(zhǔn)的;如果我們希望測量總時(shí)間,那么細(xì)微的時(shí)間就被忽略掉了。
后面Settings就是我們建立會(huì)話時(shí)的參數(shù)配置,不再詳述。
通過本節(jié),我們應(yīng)該能對CUDA性能提升有了一些想法,好,下一節(jié)我們將討論如何優(yōu)化CUDA程序。
http://blog.csdn.net/kkk584520/article/details/9413973
http://blog.csdn.net/kkk584520/article/details/9414191
http://blog.csdn.net/kkk584520/article/details/9415199
http://blog.csdn.net/kkk584520/article/details/9417251
http://blog.csdn.net/kkk584520/article/details/9420793
http://blog.csdn.net/kkk584520/article/details/9428389
http://blog.csdn.net/kkk584520/article/details/9428859
http://blog.csdn.net/kkk584520/article/details/9449635
http://blog.csdn.net/kkk584520/article/details/9472695
http://blog.csdn.net/kkk584520/article/details/9473319
http://blog.csdn.net/kkk584520/article/details/9490233
總結(jié)
以上是生活随笔 為你收集整理的CUDA5.5入门文章:VS10设置 的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
如果覺得生活随笔 網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔 推薦給好友。