當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

CUDA5.5入门文章：VS10设置

發(fā)布時(shí)間：2023/12/31 编程问答 32 豆豆

生活随笔收集整理的這篇文章主要介紹了 CUDA5.5入门文章：VS10设置小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

原文鏈接：http://blog.csdn.net/augusdi/article/details/12205435

作者專欄：http://blog.csdn.net/augusdi/article/category/1663451

（一）： VS10設(shè)置

? ? 在開始學(xué)習(xí)之前，首先要做的就是找到一本好的教材，要知道一本好的教材可以讓我們更加輕松地入門。在看了一些個(gè)CUDA編程相關(guān)的教材之后，我向大家推薦的一本教材叫做《GPU高性能編程CUDA實(shí)戰(zhàn)》。本教材相比其他的教材而言，它講得比較細(xì)，對于一些我們可能不太明白的知識(shí)點(diǎn)做了詳細(xì)的說明。而且這本教材以層層深入的方式向我們展示了GPU的世界，從而引領(lǐng)我們進(jìn)入CUDA編程的大門。

?????? 其他的教材的話我建議的是《深入淺出談CUDA》以及《CUDA編程指南》，前一本書可以和《GPU高性能編程CUDA實(shí)戰(zhàn)》這本書一起看，我建議先看《深入淺出談CUDA》，然后再看《GPU高性能編程CUDA實(shí)戰(zhàn)》，這樣理解起來能夠更加的透徹。

????? ? CUDA5.5是集成的CUDA ToolKit和SDK于一身的軟件，可以到NVIDIA Developer Zone去下載，下載地址https://developer.nvidia.com/cuda-downloads，有了工具我們就可以進(jìn)行CUDA編程了。

????? ? CUDA安裝好之后，就可以配置VS2010的cuda環(huán)境了，此時(shí)cuda已經(jīng)和你的vs綁定好了，默認(rèn)安裝的VS10支持包。于是我們就可以開始我們的第一個(gè)cuda程序：

1.創(chuàng)建一個(gè)cuda項(xiàng)目

??????? 由于安裝cuda5.5的時(shí)候已經(jīng)和vs2010綁定，所以直接可以創(chuàng)建一個(gè)cuda項(xiàng)目。選擇cuda 5.5 runtime就可以。

??????? 此時(shí)vs2010會(huì)自動(dòng)為這個(gè)項(xiàng)目添加一個(gè)cuda程序：kernel.cu。直接編譯這個(gè).cu文件，可能會(huì)出現(xiàn)"轉(zhuǎn)換到 COFF 期間失敗: 文件無效或損壞"這樣的錯(cuò)誤信息，修改如下所示：

??????? 右鍵->工程屬性->配置屬性-> 清單工具->輸入和輸出->嵌入清單，選擇[否]。

2.CUDA C/C++關(guān)鍵字和函數(shù)高亮顯示

??????? 在上面.cu文件中發(fā)現(xiàn)CUDA C/C++的關(guān)鍵字__global__等沒有高亮顯示，而且還有下劃曲線。下面進(jìn)行CUDA C/C++關(guān)鍵字和函數(shù)的語法高亮顯示，配置Visual AssistX 函數(shù)高亮，代碼提示等功能。

下面是關(guān)于代碼高亮的設(shè)置。共三個(gè)設(shè)置

2.1.cu文件中C/C++關(guān)鍵字高亮

這個(gè)設(shè)置是讓VS2010編輯.cu文件時(shí)，把.cu文件里的C/C++語法高亮。

設(shè)置方法: 在VS2010的菜單依次點(diǎn)擊：“工具|選項(xiàng)|文本編輯器|文件擴(kuò)展名”，在這個(gè)界面里： “編輯器”下拉框選“Microsoft Visual C++”，在“Extension”文本框輸入.cu 點(diǎn)擊“添加”按鈕，重復(fù)工作把.cuh 添加為vc++類型，點(diǎn)擊確定按鈕。把全部.cu文件關(guān)閉，再打開，.cu文件C++關(guān)鍵字就高亮了。如果不行就重啟VS2010。但是CUDA的關(guān)鍵字還是黑色的，下一步把CUDA關(guān)鍵自高亮顯示。

2.2.CUDA關(guān)鍵字高亮

為了讓CUDA的關(guān)鍵字，如__device__、dim3之類的文字高亮，需要如下步驟：

把SDK_PATH\C\doc\syntax_highlighting\usertype.dat復(fù)制到X:\Program Files (X86)\Microsoft Visual Studio 10.0\Common7\IDE\ 目錄下?

這里 X:是安裝VS2010盤符，這是win7 64位下的路徑。

注意：win7 64系統(tǒng)不要復(fù)制到這個(gè)目錄里，復(fù)制到這里是不會(huì)CUDA關(guān)鍵字高亮的：

X:\Program Files \Microsoft Visual Studio 10.0\Common7\IDE\
（如果你的win7是32位的，可能正好是上面這個(gè)目錄，應(yīng)該會(huì)高亮的，這是win7 64位和32位的差別）

再次強(qiáng)調(diào)：SDK_PATH要換成你安裝SDK的實(shí)際路徑，不要直接使用這個(gè)字符串。

VS2010需要重啟，重啟后打開.cu文件，CUDA的關(guān)鍵字應(yīng)該變成藍(lán)色了。

2.3. CUDA 函數(shù)高亮，及CUDA函數(shù)輸入代碼提示

實(shí)現(xiàn)這個(gè)功能就要使用VAssistX了。首先安裝支持VS2010的Visual AssistX, 在CUDA 安裝前、后安裝都行。需要兩步實(shí)現(xiàn)需要的功能：

a) 讓Visual AssistX支持CUDA函數(shù)高亮和代碼完成。在VS2010菜單里依次點(diǎn)擊: “VAssistX->Visual assist X Options->Projects->C/C++Directories”在這個(gè)界面的 “Platform”下拉框選 Custom，在“Show Directories for..“下拉框選 Other include files，然后在下面的輸入框里，新建、添加三個(gè)路徑，點(diǎn)擊確定，三個(gè)路徑分別如下：

SDK_PATH的\c\common\inc
?????? SDK_PATH的\shared\inc
?????? X:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v4.0\include

這里SDK_PATH要用你安裝的SDK路徑代替，X:是你的CUDA toolkit安裝盤符。

這樣分別在這三個(gè)目錄里面的.h文件定義的函數(shù)和類型VAssistX會(huì)幫我們在編輯文件時(shí)候?qū)崿F(xiàn)高亮和完成代碼。如果少包含一個(gè)路徑，這個(gè)目錄里的.h定義的函數(shù)和類型就不會(huì)高亮和提示了。

b)讓Visual AssistX支持.cu文件，也就讓Visual AssistX幫我們實(shí)現(xiàn).cu文件高亮和代碼完成功能，需要編輯注冊表。首先關(guān)閉VS2010，點(diǎn)擊開始菜單輸入regedit打開注冊表，找到如下位置：HKEY_CURRENT_USER\Software\Whole Tomato\Visual Assist X\VANet10。在右邊找到ExtSource項(xiàng)目，鼠標(biāo)右鍵選修改，在原有文字后添加如下文字：.cu;.cuh; 確定后
關(guān)閉注冊表，重新打開vs2010，Visual AssistX開始支持.cu及.cuh文件的語法高亮及代碼完成。此時(shí).cu文件的CUDA函數(shù)是高亮的，使用函數(shù)名符號(hào)就會(huì)自動(dòng)提示函數(shù)全稱，參數(shù)類型等信息了。

經(jīng)過上面的安裝，開發(fā)程序應(yīng)該沒問題了，但會(huì)發(fā)現(xiàn)有如下的問題：

1. VS2010顯示.cu文件時(shí)，有很多CUDA函數(shù)下有波浪線

2. 在.cu文件里使用VS2010的“Go to definition”功能查無法找到CUDA函數(shù)的定義。

這兩個(gè)問題的原因是VS2010不認(rèn)識(shí)這些函數(shù)，沒有指定它們在那個(gè)頭文件里包含的。解決方法其實(shí)是一樣的，把CUDA tookit 和CUDA SDK的頭文件路徑加到VS2010的VC++目錄里面。

??????? CUDA編程主要做的就是和GPU打交道，在和這樣的一個(gè)陌生的家伙交流之前，我們需要做的就是先得認(rèn)識(shí)和熟悉這個(gè)家伙。

在深入研究如何編寫設(shè)備代碼之前，我們需要通過某種機(jī)制來判斷計(jì)算機(jī)中當(dāng)前有哪些設(shè)備，以及每個(gè)設(shè)備都支持哪些功能。幸運(yùn)的是，可以通過一個(gè)非常簡單的接口來獲得這種信息。首先，我們希望知道在系統(tǒng)中有多少個(gè)設(shè)備是支持CUDA架構(gòu)的，并且這些設(shè)備能夠運(yùn)行基于CUDA C編寫的核函數(shù)。要獲得CUDA設(shè)備的數(shù)量．可以調(diào)用cudaGetDeviceCount（）。這個(gè)函數(shù)的作用從色的名字就可以看出來。在調(diào)用cudaGetDeviceCount（）后，可以對每個(gè)設(shè)備進(jìn)行迭代、井查詢各個(gè)設(shè)備的相關(guān)信息。CUDA運(yùn)行時(shí)將返回一個(gè)cudaDevice Prop類型的結(jié)構(gòu)，其中包含了設(shè)備的相關(guān)屬性。我們可以獲得哪些屬性？從CUDA 3.0開始，在cudaDeviceProp結(jié)構(gòu)中包含了以下信息：

[cpp] view plaincopy

struct?cudaDeviceProp???

{??

????char?name[256];?????????//標(biāo)識(shí)設(shè)備的ASCII字符串??

????size_t?totalGlobalMem;??????????//設(shè)備上全局內(nèi)存的總量，單位為字節(jié)??

????size_t?sharedMemPerBlock;???//在一個(gè)線程塊（Block）中可使用的共享內(nèi)存總量，單位為字節(jié)??

????int?regsPerBlock;???????//每個(gè)線程塊中可用的32位寄存器數(shù)量??

????int?warpSize;???????????//在一個(gè)線程束（warp）中包含的線程數(shù)量??

????size_t?memPitch;????????/在內(nèi)存復(fù)制中最大的修正量（Pitch），單位為字節(jié)??

????int?maxThreadsPerBlock;?????//在一個(gè)線程塊中包含的最大線程數(shù)目??

????int?maxThreadsDim[3];???????//在多維線程塊數(shù)組中，每一維包含的最大線程數(shù)量??

????int?maxGridSize?[3];????????//在一個(gè)線程格（Grid）中，每一維可以包含的線程塊的數(shù)量??

????size_t?totalConstMem;???????//常量內(nèi)存的總量??

????int?major;??????????//設(shè)備計(jì)算功能集的主版本號(hào)??

????int?minor;??????????//設(shè)備計(jì)算功能集的次版本號(hào)??

????int?clockRate;??????????//??

????size_t?textureAlignment;????//設(shè)備的紋理對齊要求??

????int?deviceoverlap;??????//一個(gè)布爾類型值，表示設(shè)備是否可以同時(shí)執(zhí)行一個(gè)cudaMemory()調(diào)用和一個(gè)核函數(shù)調(diào)用??

????int?multiProcessorCount;????//設(shè)備上多處理器的數(shù)量??

????int?kernelExecTimeoutEnabled;???//一個(gè)布爾值，表示該設(shè)備上執(zhí)行的核函數(shù)是否存在運(yùn)行時(shí)限制??

????int?integrated;?????????//一個(gè)布爾值，表示設(shè)備是否是一個(gè)集成的GPU??

????int?canMapHostMemory;???????//一個(gè)布爾值，表示設(shè)備是否將主機(jī)內(nèi)存映射到cuda設(shè)備地址空間??

????int?computeMode;????????//表示設(shè)備的計(jì)算模式：默認(rèn)，獨(dú)占或禁止??

????int?maxTexture1D;???????//一維紋理的最大大小??

????int?maxTexture2D[2];????????//二維紋理的最大維數(shù)??

????int?maxTexture3D[3];????????//三維紋理的最大維數(shù)??

????int?maxTexture2DArray[3];???//二維紋理數(shù)組的最大維數(shù)??

????int?concurrentKernels?;?????//一個(gè)布爾值，表示設(shè)備是否支持在同一個(gè)上下文中同時(shí)執(zhí)行多個(gè)核函數(shù)??

};??

設(shè)備屬性的使用

通過上面的結(jié)構(gòu)體，我們大致了解了設(shè)備的屬性，然后我們就可以通過這個(gè)結(jié)構(gòu)體來查詢設(shè)備屬性了。可能會(huì)有人問，到底我們需要這些設(shè)備屬性來干嘛，別著急，以后在編寫相關(guān)性能優(yōu)化的代碼的時(shí)候，就知道了解這些屬性的好處了。現(xiàn)在我們只需要知道方法就可以了。

首先我們可以通過兩個(gè)函數(shù)，第一個(gè)就是上面的cudaGetDeviceCount（）來選擇設(shè)備，然后循環(huán)地通過getDeviceProperties（）來獲得設(shè)備的屬性，之后我們就可以通過這樣的一個(gè)結(jié)構(gòu)體變量將設(shè)備的屬性值獲取出來。

[cpp] view plaincopy

#include?<cuda_runtime.h>??

#include?<iostream>??

using?namespace?std;??

int?main()??

{??

????cudaDeviceProp?prop;??

????int?count;??

????cudaGetDeviceCount(&count);??

????for(int?i?=?0?;?i?<?count?;?i++)??

????{??

????????cudaGetDeviceProperties(&prop,i);??

????????cout<<"the?information?for?the?device?:?"<<i<<endl;??

????????cout<<"name:"<<prop.name<<endl;??

????????cout<<"the?memory?information?for?the?device?:?"<<i<<endl;??

????????cout<<"total?global?memory:"<<prop.totalGlobalMem<<endl;??

????????cout<<"total?constant?memory:"<<prop.totalConstMem<<endl;??

????????cout<<"threads?in?warps:"<<prop.warpSize<<endl;??

????????cout<<"max?threads?per?block:"<<prop.maxThreadsPerBlock<<endl;??

????????cout<<"max?threads?dims:"<<prop.maxThreadsDim[0]<<"??"<<prop.maxThreadsDim[1]<<??

????????????"??"<<prop.maxThreadsDim[2]<<endl;??

????????cout<<"max?grid?dims:"<<prop.maxGridSize[0]<<"??"<<??

????????????prop.maxGridSize[1]<<"??"<<prop.maxGridSize[2]<<endl;??

????}??

????return?0;??

}??

我這邊只是獲取一部分的屬性值，只是和大家介紹一下，具體的屬性值可以按照這樣的方法來獲取。

（二）：從入門到入門：http://blog.csdn.net/augusdi/article/details/12833235

CUDA從入門到精通（一）：環(huán)境搭建

NVIDIA于2006年推出CUDA（Compute Unified Devices Architecture），可以利用其推出的GPU進(jìn)行通用計(jì)算，將并行計(jì)算從大型集群擴(kuò)展到了普通顯卡，使得用戶只需要一臺(tái)帶有Geforce顯卡的筆記本就能跑較大規(guī)模的并行處理程序。

使用顯卡的好處是，和大型集群相比功耗非常低，成本也不高，但性能很突出。以我的筆記本為例，Geforce 610M，用DeviceQuery程序測試，可得到如下硬件參數(shù)：

計(jì)算能力達(dá)48X0.95 = 45.6 GFLOPS。而筆記本的CPU參數(shù)如下：

CPU計(jì)算能力為（4核）：2.5G*4 = 10GFLOPS，可見，顯卡計(jì)算性能是4核i5 CPU的4~5倍，因此我們可以充分利用這一資源來對一些耗時(shí)的應(yīng)用進(jìn)行加速。

好了，工欲善其事必先利其器，為了使用CUDA對GPU進(jìn)行編程，我們需要準(zhǔn)備以下必備工具：

1. 硬件平臺(tái)，就是顯卡，如果你用的不是NVIDIA的顯卡，那么只能說抱歉，其他都不支持CUDA。

2. 操作系統(tǒng)，我用過windows XP，Windows 7都沒問題，本博客用Windows7。

3. C編譯器，建議VS2008，和本博客一致。

4. CUDA編譯器NVCC，可以免費(fèi)免注冊免license從官網(wǎng)下載CUDA ToolkitCUDA下載，最新版本為5.0，本博客用的就是該版本。

5. 其他工具（如Visual Assist，輔助代碼高亮）

準(zhǔn)備完畢，開始安裝軟件。VS2008安裝比較費(fèi)時(shí)間，建議安裝完整版（NVIDIA官網(wǎng)說Express版也可以），過程不必詳述。CUDA Toolkit 5.0里面包含了NVCC編譯器、設(shè)計(jì)文檔、設(shè)計(jì)例程、CUDA運(yùn)行時(shí)庫、CUDA頭文件等必備的原材料。

安裝完畢，我們在桌面上發(fā)現(xiàn)這個(gè)圖標(biāo)：

不錯(cuò)，就是它，雙擊運(yùn)行，可以看到一大堆例程。我們找到Simple OpenGL這個(gè)運(yùn)行看看效果：

? 點(diǎn)右邊黃線標(biāo)記處的Run即可看到美妙的三維正弦曲面，鼠標(biāo)左鍵拖動(dòng)可以轉(zhuǎn)換角度，右鍵拖動(dòng)可以縮放。如果這個(gè)運(yùn)行成功，說明你的環(huán)境基本搭建成功。

出現(xiàn)問題的可能：

1. 你使用遠(yuǎn)程桌面連接登錄到另一臺(tái)服務(wù)器，該服務(wù)器上有顯卡支持CUDA，但你遠(yuǎn)程終端不能運(yùn)行CUDA程序。這是因?yàn)檫h(yuǎn)程登錄使用的是你本地顯卡資源，在遠(yuǎn)程登錄時(shí)看不到服務(wù)器端的顯卡，所以會(huì)報(bào)錯(cuò)：沒有支持CUDA的顯卡！解決方法：1. 遠(yuǎn)程服務(wù)器裝兩塊顯卡，一塊只用于顯示，另一塊用于計(jì)算；2.不要用圖形界面登錄，而是用命令行界面如telnet登錄。

2.有兩個(gè)以上顯卡都支持CUDA的情況，如何區(qū)分是在哪個(gè)顯卡上運(yùn)行？這個(gè)需要你在程序里控制，選擇符合一定條件的顯卡，如較高的時(shí)鐘頻率、較大的顯存、較高的計(jì)算版本等。詳細(xì)操作見后面的博客。

好了，先說這么多，下一節(jié)我們介紹如何在VS2008中給GPU編程。

CUDA從入門到精通（二）：第一個(gè)CUDA程序

書接上回，我們既然直接運(yùn)行例程成功了，接下來就是了解如何實(shí)現(xiàn)例程中的每個(gè)環(huán)節(jié)。當(dāng)然，我們先從簡單的做起，一般編程語言都會(huì)找個(gè)helloworld例子，而我們的顯卡是不會(huì)說話的，只能做一些簡單的加減乘除運(yùn)算。所以，CUDA程序的helloworld，我想應(yīng)該最合適不過的就是向量加了。

打開VS2008，選擇File->New->Project，彈出下面對話框，設(shè)置如下：

之后點(diǎn)OK，直接進(jìn)入工程界面。

工程中，我們看到只有一個(gè).cu文件，內(nèi)容如下：

[cpp] view plaincopy

#include?"cuda_runtime.h"??

#include?"device_launch_parameters.h"??

#include?<stdio.h>??

cudaError_t?addWithCuda(int?*c,?const?int?*a,?const?int?*b,?size_t?size);??

__global__?void?addKernel(int?*c,?const?int?*a,?const?int?*b)??

{??

????int?i?=?threadIdx.x;??

????c[i]?=?a[i]?+?b[i];??

}??

int?main()??

{??

????const?int?arraySize?=?5;??

????const?int?a[arraySize]?=?{?1,?2,?3,?4,?5?};??

????const?int?b[arraySize]?=?{?10,?20,?30,?40,?50?};??

????int?c[arraySize]?=?{?0?};??

????//?Add?vectors?in?parallel.??

????cudaError_t?cudaStatus?=?addWithCuda(c,?a,?b,?arraySize);??

????if?(cudaStatus?!=?cudaSuccess)?{??

????????fprintf(stderr,?"addWithCuda?failed!");??

????????return?1;??

????}??

????printf("{1,2,3,4,5}?+?{10,20,30,40,50}?=?{%d,%d,%d,%d,%d}\n",??

????????c[0],?c[1],?c[2],?c[3],?c[4]);??

????//?cudaThreadExit?must?be?called?before?exiting?in?order?for?profiling?and??

????//?tracing?tools?such?as?Nsight?and?Visual?Profiler?to?show?complete?traces.??

????cudaStatus?=?cudaThreadExit();??

????if?(cudaStatus?!=?cudaSuccess)?{??

????????fprintf(stderr,?"cudaThreadExit?failed!");??

????????return?1;??

????}??

????return?0;??

}??

//?Helper?function?for?using?CUDA?to?add?vectors?in?parallel.??

cudaError_t?addWithCuda(int?*c,?const?int?*a,?const?int?*b,?size_t?size)??

{??

????int?*dev_a?=?0;??

????int?*dev_b?=?0;??

????int?*dev_c?=?0;??

????cudaError_t?cudaStatus;??

????//?Choose?which?GPU?to?run?on,?change?this?on?a?multi-GPU?system.??

????cudaStatus?=?cudaSetDevice(0);??

????if?(cudaStatus?!=?cudaSuccess)?{??

????????fprintf(stderr,?"cudaSetDevice?failed!??Do?you?have?a?CUDA-capable?GPU?installed?");??

????????goto?Error;??

????}??

????//?Allocate?GPU?buffers?for?three?vectors?(two?input,?one?output)????.??

????cudaStatus?=?cudaMalloc((void**)&dev_c,?size?*?sizeof(int));??

????if?(cudaStatus?!=?cudaSuccess)?{??

????????fprintf(stderr,?"cudaMalloc?failed!");??

????????goto?Error;??

????}??

????cudaStatus?=?cudaMalloc((void**)&dev_a,?size?*?sizeof(int));??

????if?(cudaStatus?!=?cudaSuccess)?{??

????????fprintf(stderr,?"cudaMalloc?failed!");??

????????goto?Error;??

????}??

????cudaStatus?=?cudaMalloc((void**)&dev_b,?size?*?sizeof(int));??

????if?(cudaStatus?!=?cudaSuccess)?{??

????????fprintf(stderr,?"cudaMalloc?failed!");??

????????goto?Error;??

????}??

????//?Copy?input?vectors?from?host?memory?to?GPU?buffers.??

????cudaStatus?=?cudaMemcpy(dev_a,?a,?size?*?sizeof(int),?cudaMemcpyHostToDevice);??

????if?(cudaStatus?!=?cudaSuccess)?{??

????????fprintf(stderr,?"cudaMemcpy?failed!");??

????????goto?Error;??

????}??

????cudaStatus?=?cudaMemcpy(dev_b,?b,?size?*?sizeof(int),?cudaMemcpyHostToDevice);??

????if?(cudaStatus?!=?cudaSuccess)?{??

????????fprintf(stderr,?"cudaMemcpy?failed!");??

????????goto?Error;??

????}??

????//?Launch?a?kernel?on?the?GPU?with?one?thread?for?each?element.??

????addKernel<<<1,?size>>>(dev_c,?dev_a,?dev_b);??

????//?cudaThreadSynchronize?waits?for?the?kernel?to?finish,?and?returns??

????//?any?errors?encountered?during?the?launch.??

????cudaStatus?=?cudaThreadSynchronize();??

????if?(cudaStatus?!=?cudaSuccess)?{??

????????fprintf(stderr,?"cudaThreadSynchronize?returned?error?code?%d?after?launching?addKernel!\n",?cudaStatus);??

????????goto?Error;??

????}??

????//?Copy?output?vector?from?GPU?buffer?to?host?memory.??

????cudaStatus?=?cudaMemcpy(c,?dev_c,?size?*?sizeof(int),?cudaMemcpyDeviceToHost);??

????if?(cudaStatus?!=?cudaSuccess)?{??

????????fprintf(stderr,?"cudaMemcpy?failed!");??

????????goto?Error;??

????}??

Error:??

????cudaFree(dev_c);??

????cudaFree(dev_a);??

????cudaFree(dev_b);??

??????

????return?cudaStatus;??

}??

?可以看出，CUDA程序和C程序并無區(qū)別，只是多了一些以"cuda"開頭的一些庫函數(shù)和一個(gè)特殊聲明的函數(shù)： [cpp] view plaincopy

__global__?void?addKernel(int?*c,?const?int?*a,?const?int?*b)??

{??

????int?i?=?threadIdx.x;??

????c[i]?=?a[i]?+?b[i];??

}??

這個(gè)函數(shù)就是在GPU上運(yùn)行的函數(shù)，稱之為核函數(shù)，英文名Kernel Function，注意要和操作系統(tǒng)內(nèi)核函數(shù)區(qū)分開來。

我們直接按F7編譯，可以得到如下輸出：

[html] view plaincopy

1>------?Build?started:?Project:?cuda_helloworld,?Configuration:?Debug?Win32?------????

1>Compiling?with?CUDA?Build?Rule...????

1>"C:\Program?Files\NVIDIA?GPU?Computing?Toolkit\CUDA\v5.0\\bin\nvcc.exe"??-G???-gencode=arch=compute_10,code=\"sm_10,compute_10\"?-gencode=arch=compute_20,code=\"sm_20,compute_20\"??--machine?32?-ccbin?"C:\Program?Files?(x86)\Microsoft?Visual?Studio?9.0\VC\bin"????-Xcompiler?"/EHsc?/W3?/nologo?/O2?/Zi???/MT??"??-I"C:\Program?Files\NVIDIA?GPU?Computing?Toolkit\CUDA\v5.0\\include"?-maxrregcount=0???--compile?-o?"Debug/kernel.cu.obj"?kernel.cu??????

1>tmpxft_000000ec_00000000-8_kernel.compute_10.cudafe1.gpu????

1>tmpxft_000000ec_00000000-14_kernel.compute_10.cudafe2.gpu????

1>tmpxft_000000ec_00000000-5_kernel.compute_20.cudafe1.gpu????

1>tmpxft_000000ec_00000000-17_kernel.compute_20.cudafe2.gpu????

1>kernel.cu????

1>tmpxft_000000ec_00000000-8_kernel.compute_10.cudafe1.cpp????

1>tmpxft_000000ec_00000000-24_kernel.compute_10.ii????

1>Linking...????

1>Embedding?manifest...????

1>Performing?Post-Build?Event...????

1>copy?"C:\Program?Files\NVIDIA?GPU?Computing?Toolkit\CUDA\v5.0\\bin\cudart*.dll"?"C:\Users\DongXiaoman\Documents\Visual?Studio?2008\Projects\cuda_helloworld\Debug"????

1>C:\Program?Files\NVIDIA?GPU?Computing?Toolkit\CUDA\v5.0\\bin\cudart32_50_35.dll????

1>C:\Program?Files\NVIDIA?GPU?Computing?Toolkit\CUDA\v5.0\\bin\cudart64_50_35.dll????

1>已復(fù)制?????????2?個(gè)文件。????

1>Build?log?was?saved?at?"file://c:\Users\DongXiaoman\Documents\Visual?Studio?2008\Projects\cuda_helloworld\cuda_helloworld\Debug\BuildLog.htm"????

1>cuda_helloworld?-?0?error(s),?105?warning(s)????

==========?Build:?1?succeeded,?0?failed,?0?up-to-date,?0?skipped?==========????

可見，編譯.cu文件需要利用nvcc工具。該工具的詳細(xì)使用見后面博客。

直接運(yùn)行，可以得到結(jié)果圖如下：

如果顯示正確，那么我們的第一個(gè)程序宣告成功！

CUDA從入門到精通（三）：必備資料

剛?cè)腴TCUDA，跑過幾個(gè)官方提供的例程，看了看人家的代碼，覺得并不難，但自己動(dòng)手寫代碼時(shí)，總是不知道要先干什么，后干什么，也不知道從哪個(gè)知識(shí)點(diǎn)學(xué)起。這時(shí)就需要有一本能提供指導(dǎo)的書籍或者教程，一步步跟著做下去，直到真正掌握。

一般講述CUDA的書，我認(rèn)為不錯(cuò)的有下面這幾本：

初學(xué)者可以先看美國人寫的這本《GPU高性能編程CUDA實(shí)戰(zhàn)》，可操作性很強(qiáng)，但不要期望能全看懂（Ps：里面有些概念其實(shí)我現(xiàn)在還是不怎么懂），但不影響你進(jìn)一步學(xué)習(xí)。如果想更全面地學(xué)習(xí)CUDA，《GPGPU編程技術(shù)》比較客觀詳細(xì)地介紹了通用GPU編程的策略，看過這本書，可以對顯卡有更深入的了解，揭開GPU的神秘面紗。后面《OpenGL編程指南》完全是為了體驗(yàn)圖形交互帶來的樂趣，可以有選擇地看；《GPU高性能運(yùn)算之CUDA》這本是師兄給的，適合快速查詢（感覺是將官方編程手冊翻譯了一遍）一些關(guān)鍵技術(shù)和概念。

有了這些指導(dǎo)材料還不夠，我們在做項(xiàng)目的時(shí)候，遇到的問題在這些書上肯定找不到，所以還需要有下面這些利器：

這里面有很多工具的使用手冊，如CUDA_GDB，Nsight，CUDA_Profiler等，方便調(diào)試程序；還有一些有用的庫，如CUFFT是專門用來做快速傅里葉變換的，CUBLAS是專用于線性代數(shù)（矩陣、向量計(jì)算）的，CUSPASE是專用于稀疏矩陣表示和計(jì)算的庫。這些庫的使用可以降低我們設(shè)計(jì)算法的難度，提高開發(fā)效率。另外還有些入門教程也是值得一讀的，你會(huì)對NVCC編譯器有更近距離的接觸。

好了，前言就這么多，本博主計(jì)劃按如下順序來講述CUDA：

1.了解設(shè)備

2.線程并行

3.塊并行

4.流并行

5.線程通信

6.線程通信實(shí)例：規(guī)約

7.存儲(chǔ)模型

8.常數(shù)內(nèi)存

9.紋理內(nèi)存

10.主機(jī)頁鎖定內(nèi)存

11.圖形互操作

12.優(yōu)化準(zhǔn)則

13.CUDA與MATLAB接口

14.CUDA與MFC接口

CUDA從入門到精通（四）：加深對設(shè)備的認(rèn)識(shí)

前面三節(jié)已經(jīng)對CUDA做了一個(gè)簡單的介紹，這一節(jié)開始真正進(jìn)入編程環(huán)節(jié)。

首先，初學(xué)者應(yīng)該對自己使用的設(shè)備有較為扎實(shí)的理解和掌握，這樣對后面學(xué)習(xí)并行程序優(yōu)化很有幫助，了解硬件詳細(xì)參數(shù)可以通過上節(jié)介紹的幾本書和官方資料獲得，但如果仍然覺得不夠直觀，那么我們可以自己動(dòng)手獲得這些內(nèi)容。

以第二節(jié)例程為模板，我們稍加改動(dòng)的部分代碼如下：

[cpp] view plaincopy

//?Add?vectors?in?parallel.??

cudaError_t?cudaStatus;??

int?num?=?0;??

cudaDeviceProp?prop;??

cudaStatus?=?cudaGetDeviceCount(&num);??

for(int?i?=?0;i<num;i++)??

{??

????cudaGetDeviceProperties(&prop,i);??

}??

cudaStatus?=?addWithCuda(c,?a,?b,?arraySize);??

這個(gè)改動(dòng)的目的是讓我們的程序自動(dòng)通過調(diào)用cuda API函數(shù)獲得設(shè)備數(shù)目和屬性，所謂“知己知彼，百戰(zhàn)不殆”。

cudaError_t 是cuda錯(cuò)誤類型，取值為整數(shù)。

cudaDeviceProp為設(shè)備屬性結(jié)構(gòu)體，其定義可以從cuda Toolkit安裝目錄中找到，我的路徑為：C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v5.0\include\driver_types.h，找到定義為：

[cpp] view plaincopy

/**?

?*?CUDA?device?properties?

?*/??

struct?__device_builtin__?cudaDeviceProp??

{??

????char???name[256];??????????????????/**<?ASCII?string?identifying?device?*/??

????size_t?totalGlobalMem;?????????????/**<?Global?memory?available?on?device?in?bytes?*/??

????size_t?sharedMemPerBlock;??????????/**<?Shared?memory?available?per?block?in?bytes?*/??

????int????regsPerBlock;???????????????/**<?32-bit?registers?available?per?block?*/??

????int????warpSize;???????????????????/**<?Warp?size?in?threads?*/??

????size_t?memPitch;???????????????????/**<?Maximum?pitch?in?bytes?allowed?by?memory?copies?*/??

????int????maxThreadsPerBlock;?????????/**<?Maximum?number?of?threads?per?block?*/??

????int????maxThreadsDim[3];???????????/**<?Maximum?size?of?each?dimension?of?a?block?*/??

????int????maxGridSize[3];?????????????/**<?Maximum?size?of?each?dimension?of?a?grid?*/??

????int????clockRate;??????????????????/**<?Clock?frequency?in?kilohertz?*/??

????size_t?totalConstMem;??????????????/**<?Constant?memory?available?on?device?in?bytes?*/??

????int????major;??????????????????????/**<?Major?compute?capability?*/??

????int????minor;??????????????????????/**<?Minor?compute?capability?*/??

????size_t?textureAlignment;???????????/**<?Alignment?requirement?for?textures?*/??

????size_t?texturePitchAlignment;??????/**<?Pitch?alignment?requirement?for?texture?references?bound?to?pitched?memory?*/??

????int????deviceOverlap;??????????????/**<?Device?can?concurrently?copy?memory?and?execute?a?kernel.?Deprecated.?Use?instead?asyncEngineCount.?*/??

????int????multiProcessorCount;????????/**<?Number?of?multiprocessors?on?device?*/??

????int????kernelExecTimeoutEnabled;???/**<?Specified?whether?there?is?a?run?time?limit?on?kernels?*/??

????int????integrated;?????????????????/**<?Device?is?integrated?as?opposed?to?discrete?*/??

????int????canMapHostMemory;???????????/**<?Device?can?map?host?memory?with?cudaHostAlloc/cudaHostGetDevicePointer?*/??

????int????computeMode;????????????????/**<?Compute?mode?(See?::cudaComputeMode)?*/??

????int????maxTexture1D;???????????????/**<?Maximum?1D?texture?size?*/??

????int????maxTexture1DMipmap;?????????/**<?Maximum?1D?mipmapped?texture?size?*/??

????int????maxTexture1DLinear;?????????/**<?Maximum?size?for?1D?textures?bound?to?linear?memory?*/??

????int????maxTexture2D[2];????????????/**<?Maximum?2D?texture?dimensions?*/??

????int????maxTexture2DMipmap[2];??????/**<?Maximum?2D?mipmapped?texture?dimensions?*/??

????int????maxTexture2DLinear[3];??????/**<?Maximum?dimensions?(width,?height,?pitch)?for?2D?textures?bound?to?pitched?memory?*/??

????int????maxTexture2DGather[2];??????/**<?Maximum?2D?texture?dimensions?if?texture?gather?operations?have?to?be?performed?*/??

????int????maxTexture3D[3];????????????/**<?Maximum?3D?texture?dimensions?*/??

????int????maxTextureCubemap;??????????/**<?Maximum?Cubemap?texture?dimensions?*/??

????int????maxTexture1DLayered[2];?????/**<?Maximum?1D?layered?texture?dimensions?*/??

????int????maxTexture2DLayered[3];?????/**<?Maximum?2D?layered?texture?dimensions?*/??

????int????maxTextureCubemapLayered[2];/**<?Maximum?Cubemap?layered?texture?dimensions?*/??

????int????maxSurface1D;???????????????/**<?Maximum?1D?surface?size?*/??

????int????maxSurface2D[2];????????????/**<?Maximum?2D?surface?dimensions?*/??

????int????maxSurface3D[3];????????????/**<?Maximum?3D?surface?dimensions?*/??

????int????maxSurface1DLayered[2];?????/**<?Maximum?1D?layered?surface?dimensions?*/??

????int????maxSurface2DLayered[3];?????/**<?Maximum?2D?layered?surface?dimensions?*/??

????int????maxSurfaceCubemap;??????????/**<?Maximum?Cubemap?surface?dimensions?*/??

????int????maxSurfaceCubemapLayered[2];/**<?Maximum?Cubemap?layered?surface?dimensions?*/??

????size_t?surfaceAlignment;???????????/**<?Alignment?requirements?for?surfaces?*/??

????int????concurrentKernels;??????????/**<?Device?can?possibly?execute?multiple?kernels?concurrently?*/??

????int????ECCEnabled;?????????????????/**<?Device?has?ECC?support?enabled?*/??

????int????pciBusID;???????????????????/**<?PCI?bus?ID?of?the?device?*/??

????int????pciDeviceID;????????????????/**<?PCI?device?ID?of?the?device?*/??

????int????pciDomainID;????????????????/**<?PCI?domain?ID?of?the?device?*/??

????int????tccDriver;??????????????????/**<?1?if?device?is?a?Tesla?device?using?TCC?driver,?0?otherwise?*/??

????int????asyncEngineCount;???????????/**<?Number?of?asynchronous?engines?*/??

????int????unifiedAddressing;??????????/**<?Device?shares?a?unified?address?space?with?the?host?*/??

????int????memoryClockRate;????????????/**<?Peak?memory?clock?frequency?in?kilohertz?*/??

????int????memoryBusWidth;?????????????/**<?Global?memory?bus?width?in?bits?*/??

????int????l2CacheSize;????????????????/**<?Size?of?L2?cache?in?bytes?*/??

????int????maxThreadsPerMultiProcessor;/**<?Maximum?resident?threads?per?multiprocessor?*/??

};??

后面的注釋已經(jīng)說明了其字段代表意義，可能有些術(shù)語對于初學(xué)者理解起來還是有一定困難，沒關(guān)系，我們現(xiàn)在只需要關(guān)注以下幾個(gè)指標(biāo)：

name：就是設(shè)備名稱；

totalGlobalMem：就是顯存大小；

major,minor：CUDA設(shè)備版本號(hào)，有1.1, 1.2, 1.3, 2.0, 2.1等多個(gè)版本；

clockRate：GPU時(shí)鐘頻率；

multiProcessorCount：GPU大核數(shù)，一個(gè)大核（專業(yè)點(diǎn)稱為流多處理器，SM，Stream-Multiprocessor）包含多個(gè)小核（流處理器，SP，Stream-Processor）

編譯，運(yùn)行，我們在VS2008工程的cudaGetDeviceProperties()函數(shù)處放一個(gè)斷點(diǎn)，單步執(zhí)行這一函數(shù)，然后用Watch窗口，切換到Auto頁，展開+，在我的筆記本上得到如下結(jié)果：

可以看到，設(shè)備名為GeForce 610M，顯存1GB，設(shè)備版本2.1（比較高端了，哈哈），時(shí)鐘頻率為950MHz（注意950000單位為kHz），大核數(shù)為1。在一些高性能GPU上（如Tesla，Kepler系列），大核數(shù)可能達(dá)到幾十甚至上百，可以做更大規(guī)模的并行處理。

PS：今天看SDK代碼時(shí)發(fā)現(xiàn)在help_cuda.h中有個(gè)函數(shù)實(shí)現(xiàn)從CUDA設(shè)備版本查詢相應(yīng)大核中小核的數(shù)目，覺得很有用，以后編程序可以借鑒，摘抄如下：

[cpp] view plaincopy

//?Beginning?of?GPU?Architecture?definitions??

inline?int?_ConvertSMVer2Cores(int?major,?int?minor)??

{??

????//?Defines?for?GPU?Architecture?types?(using?the?SM?version?to?determine?the?#?of?cores?per?SM??

????typedef?struct??

????{??

????????int?SM;?//?0xMm?(hexidecimal?notation),?M?=?SM?Major?version,?and?m?=?SM?minor?version??

????????int?Cores;??

????}?sSMtoCores;??

????sSMtoCores?nGpuArchCoresPerSM[]?=??

????{??

????????{?0x10,??8?},?//?Tesla?Generation?(SM?1.0)?G80?class??

????????{?0x11,??8?},?//?Tesla?Generation?(SM?1.1)?G8x?class??

????????{?0x12,??8?},?//?Tesla?Generation?(SM?1.2)?G9x?class??

????????{?0x13,??8?},?//?Tesla?Generation?(SM?1.3)?GT200?class??

????????{?0x20,?32?},?//?Fermi?Generation?(SM?2.0)?GF100?class??

????????{?0x21,?48?},?//?Fermi?Generation?(SM?2.1)?GF10x?class??

????????{?0x30,?192},?//?Kepler?Generation?(SM?3.0)?GK10x?class??

????????{?0x35,?192},?//?Kepler?Generation?(SM?3.5)?GK11x?class??

????????{???-1,?-1?}??

????};??

????int?index?=?0;??

????while?(nGpuArchCoresPerSM[index].SM?!=?-1)??

????{??

????????if?(nGpuArchCoresPerSM[index].SM?==?((major?<<?4)?+?minor))??

????????{??

????????????return?nGpuArchCoresPerSM[index].Cores;??

????????}??

????????index++;??

????}??

????//?If?we?don't?find?the?values,?we?default?use?the?previous?one?to?run?properly??

????printf("MapSMtoCores?for?SM?%d.%d?is?undefined.??Default?to?use?%d?Cores/SM\n",?major,?minor,?nGpuArchCoresPerSM[7].Cores);??

????return?nGpuArchCoresPerSM[7].Cores;??

}??

//?end?of?GPU?Architecture?definitions??

可見，設(shè)備版本2.1的一個(gè)大核有48個(gè)小核，而版本3.0以上的一個(gè)大核有192個(gè)小核！

前文說到過，當(dāng)我們用的電腦上有多個(gè)顯卡支持CUDA時(shí)，怎么來區(qū)分在哪個(gè)上運(yùn)行呢？這里我們看一下addWithCuda這個(gè)函數(shù)是怎么做的。

[cpp] view plaincopy

cudaError_t?cudaStatus;??

//?Choose?which?GPU?to?run?on,?change?this?on?a?multi-GPU?system.??

cudaStatus?=?cudaSetDevice(0);??

if?(cudaStatus?!=?cudaSuccess)?{??

????fprintf(stderr,?"cudaSetDevice?failed!??Do?you?have?a?CUDA-capable?GPU?installed?");??

????goto?Error;??

}??

使用了cudaSetDevice(0)這個(gè)操作，0表示能搜索到的第一個(gè)設(shè)備號(hào)，如果有多個(gè)設(shè)備，則編號(hào)為0,1,2...。

再看我們本節(jié)添加的代碼，有個(gè)函數(shù)cudaGetDeviceCount(&num)，這個(gè)函數(shù)用來獲取設(shè)備總數(shù)，這樣我們選擇運(yùn)行CUDA程序的設(shè)備號(hào)取值就是0,1,...num-1，于是可以一個(gè)個(gè)枚舉設(shè)備，利用cudaGetDeviceProperties(&prop)獲得其屬性,然后利用一定排序、篩選算法，找到最符合我們應(yīng)用的那個(gè)設(shè)備號(hào)opt，然后調(diào)用cudaSetDevice(opt)即可選擇該設(shè)備。選擇標(biāo)準(zhǔn)可以從處理能力、版本控制、名稱等各個(gè)角度出發(fā)。后面講述流并發(fā)過程時(shí)，還要用到這些API。

如果希望了解更多硬件內(nèi)容可以結(jié)合http://www.geforce.cn/hardware獲取。

CUDA從入門到精通（五）：線程并行

多線程我們應(yīng)該都不陌生，在操作系統(tǒng)中，進(jìn)程是資源分配的基本單元，而線程是CPU時(shí)間調(diào)度的基本單元（這里假設(shè)只有1個(gè)CPU）。

將線程的概念引申到CUDA程序設(shè)計(jì)中，我們可以認(rèn)為線程就是執(zhí)行CUDA程序的最小單元，前面我們建立的工程代碼中，有個(gè)核函數(shù)概念不知各位童鞋還記得沒有，在GPU上每個(gè)線程都會(huì)運(yùn)行一次該核函數(shù)。

但GPU上的線程調(diào)度方式與CPU有很大不同。CPU上會(huì)有優(yōu)先級(jí)分配，從高到低，同樣優(yōu)先級(jí)的可以采用時(shí)間片輪轉(zhuǎn)法實(shí)現(xiàn)線程調(diào)度。GPU上線程沒有優(yōu)先級(jí)概念，所有線程機(jī)會(huì)均等，線程狀態(tài)只有等待資源和執(zhí)行兩種狀態(tài)，如果資源未就緒，那么就等待；一旦就緒，立即執(zhí)行。當(dāng)GPU資源很充裕時(shí)，所有線程都是并發(fā)執(zhí)行的，這樣加速效果很接近理論加速比；而GPU資源少于總線程個(gè)數(shù)時(shí)，有一部分線程就會(huì)等待前面執(zhí)行的線程釋放資源，從而變?yōu)榇谢瘓?zhí)行。

代碼還是用上一節(jié)的吧，改動(dòng)很少，再貼一遍：

[cpp] view plaincopy

#include?"cuda_runtime.h"???????????//CUDA運(yùn)行時(shí)API??

#include?"device_launch_parameters.h"?????

#include?<stdio.h>??

cudaError_t?addWithCuda(int?*c,?const?int?*a,?const?int?*b,?size_t?size);??

__global__?void?addKernel(int?*c,?const?int?*a,?const?int?*b)??

{??

????int?i?=?threadIdx.x;??

????c[i]?=?a[i]?+?b[i];??

}??

int?main()??

{??

????const?int?arraySize?=?5;??

????const?int?a[arraySize]?=?{?1,?2,?3,?4,?5?};??

????const?int?b[arraySize]?=?{?10,?20,?30,?40,?50?};??

????int?c[arraySize]?=?{?0?};??

????//?Add?vectors?in?parallel.??

????cudaError_t?cudaStatus;??

????int?num?=?0;??

????cudaDeviceProp?prop;??

????cudaStatus?=?cudaGetDeviceCount(&num);??

????for(int?i?=?0;i<num;i++)??

????{??

????????cudaGetDeviceProperties(&prop,i);??

????}??

????cudaStatus?=?addWithCuda(c,?a,?b,?arraySize);??

????if?(cudaStatus?!=?cudaSuccess)???

????{??

????????fprintf(stderr,?"addWithCuda?failed!");??

????????return?1;??

????}??

????printf("{1,2,3,4,5}?+?{10,20,30,40,50}?=?{%d,%d,%d,%d,%d}\n",c[0],c[1],c[2],c[3],c[4]);??

????//?cudaThreadExit?must?be?called?before?exiting?in?order?for?profiling?and??

????//?tracing?tools?such?as?Nsight?and?Visual?Profiler?to?show?complete?traces.??

????cudaStatus?=?cudaThreadExit();??

????if?(cudaStatus?!=?cudaSuccess)???

????{??

????????fprintf(stderr,?"cudaThreadExit?failed!");??

????????return?1;??

????}??

????return?0;??

}??

//?重點(diǎn)理解這個(gè)函數(shù)??

cudaError_t?addWithCuda(int?*c,?const?int?*a,?const?int?*b,?size_t?size)??

{??

????int?*dev_a?=?0;?//GPU設(shè)備端數(shù)據(jù)指針??

????int?*dev_b?=?0;??

????int?*dev_c?=?0;??

????cudaError_t?cudaStatus;?????//狀態(tài)指示??

????//?Choose?which?GPU?to?run?on,?change?this?on?a?multi-GPU?system.??

????cudaStatus?=?cudaSetDevice(0);??//選擇運(yùn)行平臺(tái)??

????if?(cudaStatus?!=?cudaSuccess)???

????{??

????????fprintf(stderr,?"cudaSetDevice?failed!??Do?you?have?a?CUDA-capable?GPU?installed?");??

????????goto?Error;??

????}??

????//?分配GPU設(shè)備端內(nèi)存??

????cudaStatus?=?cudaMalloc((void**)&dev_c,?size?*?sizeof(int));??

????if?(cudaStatus?!=?cudaSuccess)???

????{??

????????fprintf(stderr,?"cudaMalloc?failed!");??

????????goto?Error;??

????}??

????cudaStatus?=?cudaMalloc((void**)&dev_a,?size?*?sizeof(int));??

????if?(cudaStatus?!=?cudaSuccess)???

????{??

????????fprintf(stderr,?"cudaMalloc?failed!");??

????????goto?Error;??

????}??

????cudaStatus?=?cudaMalloc((void**)&dev_b,?size?*?sizeof(int));??

????if?(cudaStatus?!=?cudaSuccess)???

????{??

????????fprintf(stderr,?"cudaMalloc?failed!");??

????????goto?Error;??

????}??

????//?拷貝數(shù)據(jù)到GPU??

????cudaStatus?=?cudaMemcpy(dev_a,?a,?size?*?sizeof(int),?cudaMemcpyHostToDevice);??

????if?(cudaStatus?!=?cudaSuccess)???

????{??

????????fprintf(stderr,?"cudaMemcpy?failed!");??

????????goto?Error;??

????}??

????cudaStatus?=?cudaMemcpy(dev_b,?b,?size?*?sizeof(int),?cudaMemcpyHostToDevice);??

????if?(cudaStatus?!=?cudaSuccess)???

????{??

????????fprintf(stderr,?"cudaMemcpy?failed!");??

????????goto?Error;??

????}??

????//?運(yùn)行核函數(shù)??

<span?style="BACKGROUND-COLOR:?#ff6666">????addKernel<<<1,?size>>>(dev_c,?dev_a,?dev_b);??

????//?cudaThreadSynchronize?waits?for?the?kernel?to?finish,?and?returns??

????//?any?errors?encountered?during?the?launch.??

????cudaStatus?=?cudaThreadSynchronize();???//同步線程??

????if?(cudaStatus?!=?cudaSuccess)???

????{??

????????fprintf(stderr,?"cudaThreadSynchronize?returned?error?code?%d?after?launching?addKernel!\n",?cudaStatus);??

????????goto?Error;??

????}??

????//?Copy?output?vector?from?GPU?buffer?to?host?memory.??

????cudaStatus?=?cudaMemcpy(c,?dev_c,?size?*?sizeof(int),?cudaMemcpyDeviceToHost);??????//拷貝結(jié)果回主機(jī)??

????if?(cudaStatus?!=?cudaSuccess)???

????{??

????????fprintf(stderr,?"cudaMemcpy?failed!");??

????????goto?Error;??

????}??

Error:??

????cudaFree(dev_c);????//釋放GPU設(shè)備端內(nèi)存??

????cudaFree(dev_a);??

????cudaFree(dev_b);??????

????return?cudaStatus;??

}??

紅色部分即啟動(dòng)核函數(shù)的調(diào)用過程，這里看到調(diào)用方式和C不太一樣。<<<>>>表示運(yùn)行時(shí)配置符號(hào)，里面1表示只分配一個(gè)線程組（又稱線程塊、Block），size表示每個(gè)線程組有size個(gè)線程（Thread）。本程序中size根據(jù)前面?zhèn)鬟f參數(shù)個(gè)數(shù)應(yīng)該為5，所以運(yùn)行的時(shí)候，核函數(shù)在5個(gè)GPU線程單元上分別運(yùn)行了一次，總共運(yùn)行了5次。這5個(gè)線程是如何知道自己“身份”的？是靠threadIdx這個(gè)內(nèi)置變量，它是個(gè)dim3類型變量，接受<<<>>>中第二個(gè)參數(shù)，它包含x,y,z 3維坐標(biāo)，而我們傳入的參數(shù)只有一維，所以只有x值是有效的。通過核函數(shù)中int i = threadIdx.x;這一句，每個(gè)線程可以獲得自身的id號(hào)，從而找到自己的任務(wù)去執(zhí)行。

CUDA從入門到精通（六）：塊并行

同一版本的代碼用了這么多次，有點(diǎn)過意不去，于是這次我要做較大的改動(dòng)，大家要擦亮眼睛，拭目以待。

塊并行相當(dāng)于操作系統(tǒng)中多進(jìn)程的情況，上節(jié)說到，CUDA有線程組（線程塊）的概念，將一組線程組織到一起，共同分配一部分資源，然后內(nèi)部調(diào)度執(zhí)行。線程塊與線程塊之間，毫無瓜葛。這有利于做更粗粒度的并行。我們將上一節(jié)的代碼改為塊并行版本如下：

下節(jié)我們介紹塊并行。

[cpp] view plaincopy

#include?"cuda_runtime.h"??

#include?"device_launch_parameters.h"??

#include?<stdio.h>??

cudaError_t?addWithCuda(int?*c,?const?int?*a,?const?int?*b,?size_t?size);??

__global__?void?addKernel(int?*c,?const?int?*a,?const?int?*b)??

{??

<span?style="BACKGROUND-COLOR:?#ff0000">????int?i?=?blockIdx.x;??

????c[i]?=?a[i]?+?b[i];??

}??

int?main()??

{??

????const?int?arraySize?=?5;??

????const?int?a[arraySize]?=?{?1,?2,?3,?4,?5?};??

????const?int?b[arraySize]?=?{?10,?20,?30,?40,?50?};??

????int?c[arraySize]?=?{?0?};??

????//?Add?vectors?in?parallel.??

????cudaError_t?cudaStatus;??

????int?num?=?0;??

????cudaDeviceProp?prop;??

????cudaStatus?=?cudaGetDeviceCount(&num);??

????for(int?i?=?0;i<num;i++)??

????{??

????????cudaGetDeviceProperties(&prop,i);??

????}??

????cudaStatus?=?addWithCuda(c,?a,?b,?arraySize);??

????if?(cudaStatus?!=?cudaSuccess)???

????{??

????????fprintf(stderr,?"addWithCuda?failed!");??

????????return?1;??

????}??

????printf("{1,2,3,4,5}?+?{10,20,30,40,50}?=?{%d,%d,%d,%d,%d}\n",c[0],c[1],c[2],c[3],c[4]);??

????//?cudaThreadExit?must?be?called?before?exiting?in?order?for?profiling?and??

????//?tracing?tools?such?as?Nsight?and?Visual?Profiler?to?show?complete?traces.??

????cudaStatus?=?cudaThreadExit();??

????if?(cudaStatus?!=?cudaSuccess)???

????{??

????????fprintf(stderr,?"cudaThreadExit?failed!");??

????????return?1;??

????}??

????return?0;??

}??

//?Helper?function?for?using?CUDA?to?add?vectors?in?parallel.??

cudaError_t?addWithCuda(int?*c,?const?int?*a,?const?int?*b,?size_t?size)??

{??

????int?*dev_a?=?0;??

????int?*dev_b?=?0;??

????int?*dev_c?=?0;??

????cudaError_t?cudaStatus;??

????//?Choose?which?GPU?to?run?on,?change?this?on?a?multi-GPU?system.??

????cudaStatus?=?cudaSetDevice(0);??

????if?(cudaStatus?!=?cudaSuccess)???

????{??

????????fprintf(stderr,?"cudaSetDevice?failed!??Do?you?have?a?CUDA-capable?GPU?installed?");??

????????goto?Error;??

????}??

????//?Allocate?GPU?buffers?for?three?vectors?(two?input,?one?output)????.??

????cudaStatus?=?cudaMalloc((void**)&dev_c,?size?*?sizeof(int));??

????if?(cudaStatus?!=?cudaSuccess)???

????{??

????????fprintf(stderr,?"cudaMalloc?failed!");??

????????goto?Error;??

????}??

????cudaStatus?=?cudaMalloc((void**)&dev_a,?size?*?sizeof(int));??

????if?(cudaStatus?!=?cudaSuccess)???

????{??

????????fprintf(stderr,?"cudaMalloc?failed!");??

????????goto?Error;??

????}??

????cudaStatus?=?cudaMalloc((void**)&dev_b,?size?*?sizeof(int));??

????if?(cudaStatus?!=?cudaSuccess)???

????{??

????????fprintf(stderr,?"cudaMalloc?failed!");??

????????goto?Error;??

????}??

????//?Copy?input?vectors?from?host?memory?to?GPU?buffers.??

????cudaStatus?=?cudaMemcpy(dev_a,?a,?size?*?sizeof(int),?cudaMemcpyHostToDevice);??

????if?(cudaStatus?!=?cudaSuccess)???

????{??

????????fprintf(stderr,?"cudaMemcpy?failed!");??

????????goto?Error;??

????}??

????cudaStatus?=?cudaMemcpy(dev_b,?b,?size?*?sizeof(int),?cudaMemcpyHostToDevice);??

????if?(cudaStatus?!=?cudaSuccess)???

????{??

????????fprintf(stderr,?"cudaMemcpy?failed!");??

????????goto?Error;??

????}??

????//?Launch?a?kernel?on?the?GPU?with?one?thread?for?each?element.??

?<span?style="BACKGROUND-COLOR:?#ff0000">???addKernel<<<size,1?>>>(dev_c,?dev_a,?dev_b);??

????//?cudaThreadSynchronize?waits?for?the?kernel?to?finish,?and?returns??

????//?any?errors?encountered?during?the?launch.??

????cudaStatus?=?cudaThreadSynchronize();??

????if?(cudaStatus?!=?cudaSuccess)???

????{??

????????fprintf(stderr,?"cudaThreadSynchronize?returned?error?code?%d?after?launching?addKernel!\n",?cudaStatus);??

????????goto?Error;??

????}??

????//?Copy?output?vector?from?GPU?buffer?to?host?memory.??

????cudaStatus?=?cudaMemcpy(c,?dev_c,?size?*?sizeof(int),?cudaMemcpyDeviceToHost);??

????if?(cudaStatus?!=?cudaSuccess)???

????{??

????????fprintf(stderr,?"cudaMemcpy?failed!");??

????????goto?Error;??

????}??

Error:??

????cudaFree(dev_c);??

????cudaFree(dev_a);??

????cudaFree(dev_b);??????

????return?cudaStatus;??

}??

和上一節(jié)相比，只有這兩行有改變，<<<>>>里第一個(gè)參數(shù)改成了size，第二個(gè)改成了1，表示我們分配size個(gè)線程塊，每個(gè)線程塊僅包含1個(gè)線程，總共還是有5個(gè)線程。這5個(gè)線程相互獨(dú)立，執(zhí)行核函數(shù)得到相應(yīng)的結(jié)果，與上一節(jié)不同的是，每個(gè)線程獲取id的方式變?yōu)閕nt i = blockIdx.x；這是線程塊ID。

于是有童鞋提問了，線程并行和塊并行的區(qū)別在哪里？

線程并行是細(xì)粒度并行，調(diào)度效率高；塊并行是粗粒度并行，每次調(diào)度都要重新分配資源，有時(shí)資源只有一份，那么所有線程塊都只能排成一隊(duì)，串行執(zhí)行。

那是不是我們所有時(shí)候都應(yīng)該用線程并行，盡可能不用塊并行？

當(dāng)然不是，我們的任務(wù)有時(shí)可以采用分治法，將一個(gè)大問題分解為幾個(gè)小規(guī)模問題，將這些小規(guī)模問題分別用一個(gè)線程塊實(shí)現(xiàn)，線程塊內(nèi)可以采用細(xì)粒度的線程并行，而塊之間為粗粒度并行，這樣可以充分利用硬件資源，降低線程并行的計(jì)算復(fù)雜度。適當(dāng)分解，降低規(guī)模，在一些矩陣乘法、向量內(nèi)積計(jì)算應(yīng)用中可以得到充分的展示。

實(shí)際應(yīng)用中，常常是二者的結(jié)合。線程塊、線程組織圖如下所示。

多個(gè)線程塊組織成了一個(gè)Grid，稱為線程格（經(jīng)歷了從一位線程，二維線程塊到三維線程格的過程，立體感很強(qiáng)啊）。

好了，下一節(jié)我們介紹流并行，是更高層次的并行。

CUDA從入門到精通（七）：流并行

前面我們沒有講程序的結(jié)構(gòu)，我想有些童鞋可能迫不及待想知道CUDA程序到底是怎么一個(gè)執(zhí)行過程。好的，這一節(jié)在介紹流之前，先把CUDA程序結(jié)構(gòu)簡要說一下。

CUDA程序文件后綴為.cu，有些編譯器可能不認(rèn)識(shí)這個(gè)后綴的文件，我們可以在VS2008的Tools->Options->Text Editor->File Extension里添加cu后綴到VC++中，如下圖：

一個(gè).cu文件內(nèi)既包含CPU程序（稱為主機(jī)程序），也包含GPU程序（稱為設(shè)備程序）。如何區(qū)分主機(jī)程序和設(shè)備程序？根據(jù)聲明，凡是掛有“__global__”或者“__device__”前綴的函數(shù)，都是在GPU上運(yùn)行的設(shè)備程序，不同的是__global__設(shè)備程序可被主機(jī)程序調(diào)用，而__device__設(shè)備程序則只能被設(shè)備程序調(diào)用。

沒有掛任何前綴的函數(shù)，都是主機(jī)程序。主機(jī)程序顯示聲明可以用__host__前綴。設(shè)備程序需要由NVCC進(jìn)行編譯，而主機(jī)程序只需要由主機(jī)編譯器（如VS2008中的cl.exe，Linux上的GCC）。主機(jī)程序主要完成設(shè)備環(huán)境初始化，數(shù)據(jù)傳輸?shù)缺貍溥^程，設(shè)備程序只負(fù)責(zé)計(jì)算。

主機(jī)程序中，有一些“cuda”打頭的函數(shù)，這些都是CUDA Runtime API，即運(yùn)行時(shí)函數(shù)，主要負(fù)責(zé)完成設(shè)備的初始化、內(nèi)存分配、內(nèi)存拷貝等任務(wù)。我們前面第三節(jié)用到的函數(shù)cudaGetDeviceCount()，cudaGetDeviceProperties()，cudaSetDevice()都是運(yùn)行時(shí)API。這些函數(shù)的具體參數(shù)聲明我們不必一一記下來，拿出第三節(jié)的官方利器就可以輕松查詢，讓我們打開這個(gè)文件：

打開后，在pdf搜索欄中輸入一個(gè)運(yùn)行時(shí)函數(shù)，例如cudaMemcpy，查到的結(jié)果如下：

可以看到，該API函數(shù)的參數(shù)形式為，第一個(gè)表示目的地，第二個(gè)表示來源地，第三個(gè)參數(shù)表示字節(jié)數(shù)，第四個(gè)表示類型。如果對類型不了解，直接點(diǎn)擊超鏈接，得到詳細(xì)解釋如下：

可見，該API可以實(shí)現(xiàn)從主機(jī)到主機(jī)、主機(jī)到設(shè)備、設(shè)備到主機(jī)、設(shè)備到設(shè)備的內(nèi)存拷貝過程。同時(shí)可以發(fā)現(xiàn)，利用該API手冊可以很方便地查詢我們需要用的這些API函數(shù)，所以以后編CUDA程序一定要把它打開，隨時(shí)準(zhǔn)備查詢，這樣可以大大提高編程效率。

好了，進(jìn)入今天的主題：流并行。

前面已經(jīng)介紹了線程并行和塊并行，知道了線程并行為細(xì)粒度的并行，而塊并行為粗粒度的并行，同時(shí)也知道了CUDA的線程組織情況，即Grid-Block-Thread結(jié)構(gòu)。一組線程并行處理可以組織為一個(gè)block，而一組block并行處理可以組織為一個(gè)Grid，很自然地想到，Grid只是一個(gè)網(wǎng)格，我們是否可以利用多個(gè)網(wǎng)格來完成并行處理呢？答案就是利用流。

流可以實(shí)現(xiàn)在一個(gè)設(shè)備上運(yùn)行多個(gè)核函數(shù)。前面的塊并行也好，線程并行也好，運(yùn)行的核函數(shù)都是相同的（代碼一樣，傳遞參數(shù)也一樣）。而流并行，可以執(zhí)行不同的核函數(shù)，也可以實(shí)現(xiàn)對同一個(gè)核函數(shù)傳遞不同的參數(shù)，實(shí)現(xiàn)任務(wù)級(jí)別的并行。

CUDA中的流用cudaStream_t類型實(shí)現(xiàn)，用到的API有以下幾個(gè)：cudaStreamCreate(cudaStream_t * s)用于創(chuàng)建流，cudaStreamDestroy(cudaStream_t s)用于銷毀流，cudaStreamSynchronize()用于單個(gè)流同步，cudaDeviceSynchronize()用于整個(gè)設(shè)備上的所有流同步，cudaStreamQuery()用于查詢一個(gè)流的任務(wù)是否已經(jīng)完成。具體的含義可以查詢API手冊。

下面我們將前面的兩個(gè)例子中的任務(wù)改用流實(shí)現(xiàn)，仍然是{1,2,3,4,5}+{10,20,30,40,50} = {11,22,33,44,55}這個(gè)例子。代碼如下：

[cpp] view plaincopy

#include?"cuda_runtime.h"??

#include?"device_launch_parameters.h"??

#include?<stdio.h>??

cudaError_t?addWithCuda(int?*c,?const?int?*a,?const?int?*b,?size_t?size);??

__global__?void?addKernel(int?*c,?const?int?*a,?const?int?*b)??

{??

????int?i?=?blockIdx.x;??

????c[i]?=?a[i]?+?b[i];??

}??

int?main()??

{??

????const?int?arraySize?=?5;??

????const?int?a[arraySize]?=?{?1,?2,?3,?4,?5?};??

????const?int?b[arraySize]?=?{?10,?20,?30,?40,?50?};??

????int?c[arraySize]?=?{?0?};??

????//?Add?vectors?in?parallel.??

????cudaError_t?cudaStatus;??

????int?num?=?0;??

????cudaDeviceProp?prop;??

????cudaStatus?=?cudaGetDeviceCount(&num);??

????for(int?i?=?0;i<num;i++)??

????{??

????????cudaGetDeviceProperties(&prop,i);??

????}??

????cudaStatus?=?addWithCuda(c,?a,?b,?arraySize);??

????if?(cudaStatus?!=?cudaSuccess)???

????{??

????????fprintf(stderr,?"addWithCuda?failed!");??

????????return?1;??

????}??

????printf("{1,2,3,4,5}?+?{10,20,30,40,50}?=?{%d,%d,%d,%d,%d}\n",c[0],c[1],c[2],c[3],c[4]);??

????//?cudaThreadExit?must?be?called?before?exiting?in?order?for?profiling?and??

????//?tracing?tools?such?as?Nsight?and?Visual?Profiler?to?show?complete?traces.??

????cudaStatus?=?cudaThreadExit();??

????if?(cudaStatus?!=?cudaSuccess)???

????{??

????????fprintf(stderr,?"cudaThreadExit?failed!");??

????????return?1;??

????}??

????return?0;??

}??

//?Helper?function?for?using?CUDA?to?add?vectors?in?parallel.??

cudaError_t?addWithCuda(int?*c,?const?int?*a,?const?int?*b,?size_t?size)??

{??

????int?*dev_a?=?0;??

????int?*dev_b?=?0;??

????int?*dev_c?=?0;??

????cudaError_t?cudaStatus;??

????//?Choose?which?GPU?to?run?on,?change?this?on?a?multi-GPU?system.??

????cudaStatus?=?cudaSetDevice(0);??

????if?(cudaStatus?!=?cudaSuccess)???

????{??

????????fprintf(stderr,?"cudaSetDevice?failed!??Do?you?have?a?CUDA-capable?GPU?installed?");??

????????goto?Error;??

????}??

????//?Allocate?GPU?buffers?for?three?vectors?(two?input,?one?output)????.??

????cudaStatus?=?cudaMalloc((void**)&dev_c,?size?*?sizeof(int));??

????if?(cudaStatus?!=?cudaSuccess)???

????{??

????????fprintf(stderr,?"cudaMalloc?failed!");??

????????goto?Error;??

????}??

????cudaStatus?=?cudaMalloc((void**)&dev_a,?size?*?sizeof(int));??

????if?(cudaStatus?!=?cudaSuccess)???

????{??

????????fprintf(stderr,?"cudaMalloc?failed!");??

????????goto?Error;??

????}??

????cudaStatus?=?cudaMalloc((void**)&dev_b,?size?*?sizeof(int));??

????if?(cudaStatus?!=?cudaSuccess)???

????{??

????????fprintf(stderr,?"cudaMalloc?failed!");??

????????goto?Error;??

????}??

????//?Copy?input?vectors?from?host?memory?to?GPU?buffers.??

????cudaStatus?=?cudaMemcpy(dev_a,?a,?size?*?sizeof(int),?cudaMemcpyHostToDevice);??

????if?(cudaStatus?!=?cudaSuccess)???

????{??

????????fprintf(stderr,?"cudaMemcpy?failed!");??

????????goto?Error;??

????}??

????cudaStatus?=?cudaMemcpy(dev_b,?b,?size?*?sizeof(int),?cudaMemcpyHostToDevice);??

????if?(cudaStatus?!=?cudaSuccess)???

????{??

????????fprintf(stderr,?"cudaMemcpy?failed!");??

????????goto?Error;??

????}??

<span?style="BACKGROUND-COLOR:?#ff6666">??cudaStream_t?stream[5];??

????for(int?i?=?0;i<5;i++)??

????{??

????????cudaStreamCreate(&stream[i]);???//創(chuàng)建流??

????}??

????//?Launch?a?kernel?on?the?GPU?with?one?thread?for?each?element.??

<span?style="BACKGROUND-COLOR:?#ff6666">??for(int?i?=?0;i<5;i++)??

????{??

????????addKernel<<<1,1,0,stream[i]>>>(dev_c+i,?dev_a+i,?dev_b+i);????//執(zhí)行流??

????}??

????cudaDeviceSynchronize();??

????//?cudaThreadSynchronize?waits?for?the?kernel?to?finish,?and?returns??

????//?any?errors?encountered?during?the?launch.??

????cudaStatus?=?cudaThreadSynchronize();??

????if?(cudaStatus?!=?cudaSuccess)???

????{??

????????fprintf(stderr,?"cudaThreadSynchronize?returned?error?code?%d?after?launching?addKernel!\n",?cudaStatus);??

????????goto?Error;??

????}??

????//?Copy?output?vector?from?GPU?buffer?to?host?memory.??

????cudaStatus?=?cudaMemcpy(c,?dev_c,?size?*?sizeof(int),?cudaMemcpyDeviceToHost);??

????if?(cudaStatus?!=?cudaSuccess)???

????{??

????????fprintf(stderr,?"cudaMemcpy?failed!");??

????????goto?Error;??

????}??

Error:??

<span?style="BACKGROUND-COLOR:?#ff6666">??for(int?i?=?0;i<5;i++)??

????{??

????????cudaStreamDestroy(stream[i]);???//銷毀流??

????}??

????cudaFree(dev_c);??

????cudaFree(dev_a);??

????cudaFree(dev_b);??????

????return?cudaStatus;??

}??

注意到，我們的核函數(shù)代碼仍然和塊并行的版本一樣，只是在調(diào)用時(shí)做了改變，<<<>>>中的參數(shù)多了兩個(gè)，其中前兩個(gè)和塊并行、線程并行中的意義相同，仍然是線程塊數(shù)（這里為1）、每個(gè)線程塊中線程數(shù)（這里也是1）。第三個(gè)為0表示每個(gè)block用到的共享內(nèi)存大小，這個(gè)我們后面再講；第四個(gè)為流對象，表示當(dāng)前核函數(shù)在哪個(gè)流上運(yùn)行。我們創(chuàng)建了5個(gè)流，每個(gè)流上都裝載了一個(gè)核函數(shù)，同時(shí)傳遞參數(shù)有些不同，也就是每個(gè)核函數(shù)作用的對象也不同。這樣就實(shí)現(xiàn)了任務(wù)級(jí)別的并行，當(dāng)我們有幾個(gè)互不相關(guān)的任務(wù)時(shí)，可以寫多個(gè)核函數(shù)，資源允許的情況下，我們將這些核函數(shù)裝載到不同流上，然后執(zhí)行，這樣可以實(shí)現(xiàn)更粗粒度的并行。

好了，流并行就這么簡單，我們處理任務(wù)時(shí)，可以根據(jù)需要，選擇最適合的并行方式。

UDA從入門到精通（八）：線程通信

我們前面幾節(jié)主要介紹了三種利用GPU實(shí)現(xiàn)并行處理的方式：線程并行，塊并行和流并行。在這些方法中，我們一再強(qiáng)調(diào)，各個(gè)線程所進(jìn)行的處理是互不相關(guān)的，即兩個(gè)線程不回產(chǎn)生交集，每個(gè)線程都只關(guān)注自己的一畝三分地，對其他線程毫無興趣，就當(dāng)不存在。。。。

當(dāng)然，實(shí)際應(yīng)用中，這樣的例子太少了，也就是遇到向量相加、向量對應(yīng)點(diǎn)乘這類才會(huì)有如此高的并行度，而其他一些應(yīng)用，如一組數(shù)求和，求最大（小）值，各個(gè)線程不再是相互獨(dú)立的，而是產(chǎn)生一定關(guān)聯(lián)，線程2可能會(huì)用到線程1的結(jié)果，這時(shí)就需要利用本節(jié)的線程通信技術(shù)了。

線程通信在CUDA中有三種實(shí)現(xiàn)方式：

1. 共享存儲(chǔ)器；

2. 線程?同步；

3. 原子操作；

最常用的是前兩種方式，共享存儲(chǔ)器，術(shù)語Shared Memory，是位于SM中的特殊存儲(chǔ)器。還記得SM嗎，就是流多處理器，大核是也。一個(gè)SM中不僅包含若干個(gè)SP（流處理器，小核），還包括一部分高速Cache，寄存器組，共享內(nèi)存等，結(jié)構(gòu)如圖所示：

從圖中可看出，一個(gè)SM內(nèi)有M個(gè)SP，Shared Memory由這M個(gè)SP共同占有。另外指令單元也被這M個(gè)SP共享，即SIMT架構(gòu)（單指令多線程架構(gòu)），一個(gè)SM中所有SP在同一時(shí)間執(zhí)行同一代碼。

為了實(shí)現(xiàn)線程通信，僅僅靠共享內(nèi)存還不夠，需要有同步機(jī)制才能使線程之間實(shí)現(xiàn)有序處理。通常情況是這樣：當(dāng)線程A需要線程B計(jì)算的結(jié)果作為輸入時(shí)，需要確保線程B已經(jīng)將結(jié)果寫入共享內(nèi)存中，然后線程A再從共享內(nèi)存中讀出。同步必不可少，否則，線程A可能讀到的是無效的結(jié)果，造成計(jì)算錯(cuò)誤。同步機(jī)制可以用CUDA內(nèi)置函數(shù)：__syncthreads()；當(dāng)某個(gè)線程執(zhí)行到該函數(shù)時(shí)，進(jìn)入等待狀態(tài)，直到同一線程塊（Block）中所有線程都執(zhí)行到這個(gè)函數(shù)為止，即一個(gè)__syncthreads()相當(dāng)于一個(gè)線程同步點(diǎn)，確保一個(gè)Block中所有線程都達(dá)到同步，然后線程進(jìn)入運(yùn)行狀態(tài)。

綜上兩點(diǎn)，我們可以寫一段線程通信的偽代碼如下：

[cpp] view plaincopy

//Begin??

if?this?is?thread?B??

?????write?something?to?Shared?Memory;??

end?if??

__syncthreads();??

if?this?is?thread?A??

????read?something?from?Shared?Memory;??

end?if??

//End??

上面代碼在CUDA中實(shí)現(xiàn)時(shí)，由于SIMT特性，所有線程都執(zhí)行同樣的代碼，所以在線程中需要判斷自己的身份，以免誤操作。

注意的是，位于同一個(gè)Block中的線程才能實(shí)現(xiàn)通信，不同Block中的線程不能通過共享內(nèi)存、同步進(jìn)行通信，而應(yīng)采用原子操作或主機(jī)介入。

對于原子操作，如果感興趣可以翻閱《GPU高性能編程CUDA實(shí)戰(zhàn)》第九章“原子性”。

本節(jié)完。下節(jié)我們給出一個(gè)實(shí)例來看線程通信的代碼怎么設(shè)計(jì)。

CUDA從入門到精通（九）：線程通信實(shí)例

接著上一節(jié)，我們利用剛學(xué)到的共享內(nèi)存和線程同步技術(shù)，來做一個(gè)簡單的例子。先看下效果吧：

很簡單，就是分別求出1~5這5個(gè)數(shù)字的和，平方和，連乘積。相信學(xué)過C語言的童鞋都能用for循環(huán)做出同上面一樣的效果，但為了學(xué)習(xí)CUDA共享內(nèi)存和同步技術(shù)，我們還是要把簡單的東西復(fù)雜化(^_^)。

簡要分析一下，上面例子的輸入都是一樣的，1,2,3,4,5這5個(gè)數(shù)，但計(jì)算過程有些變化，而且每個(gè)輸出和所有輸入都相關(guān)，不是前幾節(jié)例子中那樣，一個(gè)輸出只和一個(gè)輸入有關(guān)。所以我們在利用CUDA編程時(shí)，需要針對特殊問題做些讓步，把一些步驟串行化實(shí)現(xiàn)。

輸入數(shù)據(jù)原本位于主機(jī)內(nèi)存，通過cudaMemcpy API已經(jīng)拷貝到GPU顯存（術(shù)語為全局存儲(chǔ)器，Global Memory），每個(gè)線程運(yùn)行時(shí)需要從Global Memory讀取輸入數(shù)據(jù)，然后完成計(jì)算，最后將結(jié)果寫回Global Memory。當(dāng)我們計(jì)算需要多次相同輸入數(shù)據(jù)時(shí)，大家可能想到，每次都分別去Global Memory讀數(shù)據(jù)好像有點(diǎn)浪費(fèi)，如果數(shù)據(jù)很大，那么反復(fù)多次讀數(shù)據(jù)會(huì)相當(dāng)耗時(shí)間。索性我們把它從Global Memory一次性讀到SM內(nèi)部，然后在內(nèi)部進(jìn)行處理，這樣可以節(jié)省反復(fù)讀取的時(shí)間。

有了這個(gè)思路，結(jié)合上節(jié)看到的SM結(jié)構(gòu)圖，看到有一片存儲(chǔ)器叫做Shared Memory，它位于SM內(nèi)部，處理時(shí)訪問速度相當(dāng)快（差不多每個(gè)時(shí)鐘周期讀一次），而全局存儲(chǔ)器讀一次需要耗費(fèi)幾十甚至上百個(gè)時(shí)鐘周期。于是，我們就制定A計(jì)劃如下：

線程塊數(shù)：1，塊號(hào)為0；（只有一個(gè)線程塊內(nèi)的線程才能進(jìn)行通信，所以我們只分配一個(gè)線程塊，具體工作交給每個(gè)線程完成）

線程數(shù)：5，線程號(hào)分別為0~4；（線程并行，前面講過）

共享存儲(chǔ)器大小：5個(gè)int型變量大小（5 * sizeof(int））。

步驟一：讀取輸入數(shù)據(jù)。將Global Memory中的5個(gè)整數(shù)讀入共享存儲(chǔ)器，位置一一對應(yīng)，和線程號(hào)也一一對應(yīng)，所以可以同時(shí)完成。

步驟二：線程同步，確保所有線程都完成了工作。

步驟三：指定線程，對共享存儲(chǔ)器中的輸入數(shù)據(jù)完成相應(yīng)處理。

代碼如下：

[cpp] view plaincopy

#include?"cuda_runtime.h"??

#include?"device_launch_parameters.h"??

#include?<stdio.h>??

cudaError_t?addWithCuda(int?*c,?const?int?*a,?size_t?size);??

__global__?void?addKernel(int?*c,?const?int?*a)??

{??

????int?i?=?threadIdx.x;??

<span?style="font-size:24px;">??extern?__shared__?int?smem[];??

???smem[i]?=?a[i];??

????__syncthreads();??

????if(i?==?0)??//?0號(hào)線程做平方和??

????{??

????????c[0]?=?0;??

????????for(int?d?=?0;?d?<?5;?d++)??

????????{??

????????????c[0]?+=?smem[d]?*?smem[d];??

????????}??

????}??

????if(i?==?1)//1號(hào)線程做累加??

????{??

????????c[1]?=?0;??

????????for(int?d?=?0;?d?<?5;?d++)??

????????{??

????????????c[1]?+=?smem[d];??

????????}??

????}??

????if(i?==?2)??//2號(hào)線程做累乘??

????{??

????????c[2]?=?1;??

????????for(int?d?=?0;?d?<?5;?d++)??

????????{??

????????????c[2]?*=?smem[d];??

????????}??

????}??

}??

int?main()??

{??

????const?int?arraySize?=?5;??

????const?int?a[arraySize]?=?{?1,?2,?3,?4,?5?};??

????int?c[arraySize]?=?{?0?};??

????//?Add?vectors?in?parallel.??

????cudaError_t?cudaStatus?=?addWithCuda(c,?a,?arraySize);??

????if?(cudaStatus?!=?cudaSuccess)???

????{??

????????fprintf(stderr,?"addWithCuda?failed!");??

????????return?1;??

????}??

????printf("\t1+2+3+4+5?=?%d\n\t1^2+2^2+3^2+4^2+5^2?=?%d\n\t1*2*3*4*5?=?%d\n\n\n\n\n\n",?c[1],?c[0],?c[2]);??

????//?cudaThreadExit?must?be?called?before?exiting?in?order?for?profiling?and??

????//?tracing?tools?such?as?Nsight?and?Visual?Profiler?to?show?complete?traces.??

????cudaStatus?=?cudaThreadExit();??

????if?(cudaStatus?!=?cudaSuccess)???

????{??

????????fprintf(stderr,?"cudaThreadExit?failed!");??

????????return?1;??

????}??

????return?0;??

}??

//?Helper?function?for?using?CUDA?to?add?vectors?in?parallel.??

cudaError_t?addWithCuda(int?*c,?const?int?*a,??size_t?size)??

{??

????int?*dev_a?=?0;??

????int?*dev_c?=?0;??

????cudaError_t?cudaStatus;??

????//?Choose?which?GPU?to?run?on,?change?this?on?a?multi-GPU?system.??

????cudaStatus?=?cudaSetDevice(0);??

????if?(cudaStatus?!=?cudaSuccess)???

????{??

????????fprintf(stderr,?"cudaSetDevice?failed!??Do?you?have?a?CUDA-capable?GPU?installed?");??

????????goto?Error;??

????}??

????//?Allocate?GPU?buffers?for?three?vectors?(two?input,?one?output)????.??

????cudaStatus?=?cudaMalloc((void**)&dev_c,?size?*?sizeof(int));??

????if?(cudaStatus?!=?cudaSuccess)???

????{??

????????fprintf(stderr,?"cudaMalloc?failed!");??

????????goto?Error;??

????}??

????cudaStatus?=?cudaMalloc((void**)&dev_a,?size?*?sizeof(int));??

????if?(cudaStatus?!=?cudaSuccess)???

????{??

????????fprintf(stderr,?"cudaMalloc?failed!");??

????????goto?Error;??

????}??

????//?Copy?input?vectors?from?host?memory?to?GPU?buffers.??

????cudaStatus?=?cudaMemcpy(dev_a,?a,?size?*?sizeof(int),?cudaMemcpyHostToDevice);??

????if?(cudaStatus?!=?cudaSuccess)???

????{??

????????fprintf(stderr,?"cudaMemcpy?failed!");??

????????goto?Error;??

????}??

????//?Launch?a?kernel?on?the?GPU?with?one?thread?for?each?element.??

<span?style="font-size:24px;">????addKernel<<<1,?size,?size?*?sizeof(int),?0>>>(dev_c,?dev_a);??

??

????//?cudaThreadSynchronize?waits?for?the?kernel?to?finish,?and?returns??

????//?any?errors?encountered?during?the?launch.??

????cudaStatus?=?cudaThreadSynchronize();??

????if?(cudaStatus?!=?cudaSuccess)???

????{??

????????fprintf(stderr,?"cudaThreadSynchronize?returned?error?code?%d?after?launching?addKernel!\n",?cudaStatus);??

????????goto?Error;??

????}??

????//?Copy?output?vector?from?GPU?buffer?to?host?memory.??

????cudaStatus?=?cudaMemcpy(c,?dev_c,?size?*?sizeof(int),?cudaMemcpyDeviceToHost);??

????if?(cudaStatus?!=?cudaSuccess)???

????{??

????????fprintf(stderr,?"cudaMemcpy?failed!");??

????????goto?Error;??

????}??

Error:??

????cudaFree(dev_c);??

????cudaFree(dev_a);??????

????return?cudaStatus;??

}??

從代碼中看到執(zhí)行配置<<<>>>中第三個(gè)參數(shù)為共享內(nèi)存大小（字節(jié)數(shù)），這樣我們就知道了全部4個(gè)執(zhí)行配置參數(shù)的意義。恭喜，你的CUDA終于入門了！
CUDA從入門到精通（十）：性能剖析和Visual Profiler

入門后的進(jìn)一步學(xué)習(xí)的內(nèi)容，就是如何優(yōu)化自己的代碼。我們前面的例子沒有考慮任何性能方面優(yōu)化，是為了更好地學(xué)習(xí)基本知識(shí)點(diǎn)，而不是其他細(xì)節(jié)問題。從本節(jié)開始，我們要從性能出發(fā)考慮問題，不斷優(yōu)化代碼，使執(zhí)行速度提高是并行處理的唯一目的。

測試代碼運(yùn)行速度有很多方法，C語言里提供了類似于SystemTime()這樣的API獲得系統(tǒng)時(shí)間，然后計(jì)算兩個(gè)事件之間的時(shí)長從而完成計(jì)時(shí)功能。在CUDA中，我們有專門測量設(shè)備運(yùn)行時(shí)間的API，下面一一介紹。

翻開編程手冊《CUDA_Toolkit_Reference_Manual》，隨時(shí)準(zhǔn)備查詢不懂得API。我們在運(yùn)行核函數(shù)前后，做如下操作：

[cpp] view plaincopy

cudaEvent_t?start,?stop;<span?style="white-space:pre">??//事件對象??

cudaEventCreate(&start);<span?style="white-space:pre">??//創(chuàng)建事件??

cudaEventCreate(&stop);<span?style="white-space:pre">???????//創(chuàng)建事件??

cudaEventRecord(start,?stream);<span?style="white-space:pre">???//記錄開始??

myKernel<<<dimg,dimb,size_smem,stream>>>(parameter?list);//執(zhí)行核函數(shù)??

cudaEventRecord(stop,stream);<span?style="white-space:pre">?//記錄結(jié)束事件??

cudaEventSynchronize(stop);<span?style="white-space:pre">???//事件同步，等待結(jié)束事件之前的設(shè)備操作均已完成??

float?elapsedTime;??

cudaEventElapsedTime(&elapsedTime,start,stop);//計(jì)算兩個(gè)事件之間時(shí)長（單位為ms）??

核函數(shù)執(zhí)行時(shí)間將被保存在變量elapsedTime中。通過這個(gè)值我們可以評(píng)估算法的性能。下面給一個(gè)例子，來看怎么使用計(jì)時(shí)功能。

前面的例子規(guī)模很小，只有5個(gè)元素，處理量太小不足以計(jì)時(shí)，下面將規(guī)模擴(kuò)大為1024，此外將反復(fù)運(yùn)行1000次計(jì)算總時(shí)間，這樣估計(jì)不容易受隨機(jī)擾動(dòng)影響。我們通過這個(gè)例子對比線程并行和塊并行的性能如何。代碼如下：

[cpp] view plaincopy

#include?"cuda_runtime.h"??

#include?"device_launch_parameters.h"??

#include?<stdio.h>??

cudaError_t?addWithCuda(int?*c,?const?int?*a,?const?int?*b,?size_t?size);??

__global__?void?addKernel_blk(int?*c,?const?int?*a,?const?int?*b)??

{??

????int?i?=?blockIdx.x;??

????c[i]?=?a[i]+?b[i];??

}??

__global__?void?addKernel_thd(int?*c,?const?int?*a,?const?int?*b)??

{??

????int?i?=?threadIdx.x;??

????c[i]?=?a[i]+?b[i];??

}??

int?main()??

{??

????const?int?arraySize?=?1024;??

????int?a[arraySize]?=?{0};??

????int?b[arraySize]?=?{0};??

????for(int?i?=?0;i<arraySize;i++)??

????{??

????????a[i]?=?i;??

????????b[i]?=?arraySize-i;??

????}??

????int?c[arraySize]?=?{0};??

????//?Add?vectors?in?parallel.??

????cudaError_t?cudaStatus;??

????int?num?=?0;??

????cudaDeviceProp?prop;??

????cudaStatus?=?cudaGetDeviceCount(&num);??

????for(int?i?=?0;i<num;i++)??

????{??

????????cudaGetDeviceProperties(&prop,i);??

????}??

????cudaStatus?=?addWithCuda(c,?a,?b,?arraySize);??

????if?(cudaStatus?!=?cudaSuccess)???

????{??

????????fprintf(stderr,?"addWithCuda?failed!");??

????????return?1;??

????}??

????//?cudaThreadExit?must?be?called?before?exiting?in?order?for?profiling?and??

????//?tracing?tools?such?as?Nsight?and?Visual?Profiler?to?show?complete?traces.??

????cudaStatus?=?cudaThreadExit();??

????if?(cudaStatus?!=?cudaSuccess)???

????{??

????????fprintf(stderr,?"cudaThreadExit?failed!");??

????????return?1;??

????}??

????for(int?i?=?0;i<arraySize;i++)??

????{??

????????if(c[i]?!=?(a[i]+b[i]))??

????????{??

????????????printf("Error?in?%d\n",i);??

????????}??

????}??

????return?0;??

}??

//?Helper?function?for?using?CUDA?to?add?vectors?in?parallel.??

cudaError_t?addWithCuda(int?*c,?const?int?*a,?const?int?*b,?size_t?size)??

{??

????int?*dev_a?=?0;??

????int?*dev_b?=?0;??

????int?*dev_c?=?0;??

????cudaError_t?cudaStatus;??

????//?Choose?which?GPU?to?run?on,?change?this?on?a?multi-GPU?system.??

????cudaStatus?=?cudaSetDevice(0);??

????if?(cudaStatus?!=?cudaSuccess)???

????{??

????????fprintf(stderr,?"cudaSetDevice?failed!??Do?you?have?a?CUDA-capable?GPU?installed?");??

????????goto?Error;??

????}??

????//?Allocate?GPU?buffers?for?three?vectors?(two?input,?one?output)????.??

????cudaStatus?=?cudaMalloc((void**)&dev_c,?size?*?sizeof(int));??

????if?(cudaStatus?!=?cudaSuccess)???

????{??

????????fprintf(stderr,?"cudaMalloc?failed!");??

????????goto?Error;??

????}??

????cudaStatus?=?cudaMalloc((void**)&dev_a,?size?*?sizeof(int));??

????if?(cudaStatus?!=?cudaSuccess)???

????{??

????????fprintf(stderr,?"cudaMalloc?failed!");??

????????goto?Error;??

????}??

????cudaStatus?=?cudaMalloc((void**)&dev_b,?size?*?sizeof(int));??

????if?(cudaStatus?!=?cudaSuccess)???

????{??

????????fprintf(stderr,?"cudaMalloc?failed!");??

????????goto?Error;??

????}??

????//?Copy?input?vectors?from?host?memory?to?GPU?buffers.??

????cudaStatus?=?cudaMemcpy(dev_a,?a,?size?*?sizeof(int),?cudaMemcpyHostToDevice);??

????if?(cudaStatus?!=?cudaSuccess)???

????{??

????????fprintf(stderr,?"cudaMemcpy?failed!");??

????????goto?Error;??

????}??

????cudaStatus?=?cudaMemcpy(dev_b,?b,?size?*?sizeof(int),?cudaMemcpyHostToDevice);??

????if?(cudaStatus?!=?cudaSuccess)???

????{??

????????fprintf(stderr,?"cudaMemcpy?failed!");??

????????goto?Error;??

????}??

????cudaEvent_t?start,stop;??

????cudaEventCreate(&start);??

????cudaEventCreate(&stop);??

????cudaEventRecord(start,0);??

????for(int?i?=?0;i<1000;i++)??

????{??

//??????addKernel_blk<<<size,1>>>(dev_c,?dev_a,?dev_b);??

????????addKernel_thd<<<1,size>>>(dev_c,?dev_a,?dev_b);??

????}??

????cudaEventRecord(stop,0);??

????cudaEventSynchronize(stop);??

????float?tm;??

????cudaEventElapsedTime(&tm,start,stop);??

????printf("GPU?Elapsed?time:%.6f?ms.\n",tm);??

????//?cudaThreadSynchronize?waits?for?the?kernel?to?finish,?and?returns??

????//?any?errors?encountered?during?the?launch.??

????cudaStatus?=?cudaThreadSynchronize();??

????if?(cudaStatus?!=?cudaSuccess)???

????{??

????????fprintf(stderr,?"cudaThreadSynchronize?returned?error?code?%d?after?launching?addKernel!\n",?cudaStatus);??

????????goto?Error;??

????}??

????//?Copy?output?vector?from?GPU?buffer?to?host?memory.??

????cudaStatus?=?cudaMemcpy(c,?dev_c,?size?*?sizeof(int),?cudaMemcpyDeviceToHost);??

????if?(cudaStatus?!=?cudaSuccess)???

????{??

????????fprintf(stderr,?"cudaMemcpy?failed!");??

????????goto?Error;??

????}??

Error:??

????cudaFree(dev_c);??

????cudaFree(dev_a);??

????cudaFree(dev_b);??????

????return?cudaStatus;??

}??

addKernel_blk是采用塊并行實(shí)現(xiàn)的向量相加操作，而addKernel_thd是采用線程并行實(shí)現(xiàn)的向量相加操作。分別運(yùn)行，得到的結(jié)果如下圖所示：

線程并行：

塊并行：

可見性能竟然相差近16倍！因此選擇并行處理方法時(shí)，如果問題規(guī)模不是很大，那么采用線程并行是比較合適的，而大問題分多個(gè)線程塊處理時(shí)，每個(gè)塊內(nèi)線程數(shù)不要太少，像本文中的只有1個(gè)線程，這是對硬件資源的極大浪費(fèi)。一個(gè)理想的方案是，分N個(gè)線程塊，每個(gè)線程塊包含512個(gè)線程，將問題分解處理，效率往往比單一的線程并行處理或單一塊并行處理高很多。這也是CUDA編程的精髓。

上面這種分析程序性能的方式比較粗糙，只知道大概運(yùn)行時(shí)間長度，對于設(shè)備程序各部分代碼執(zhí)行時(shí)間沒有一個(gè)深入的認(rèn)識(shí)，這樣我們就有個(gè)問題，如果對代碼進(jìn)行優(yōu)化，那么優(yōu)化哪一部分呢？是將線程數(shù)調(diào)節(jié)呢，還是改用共享內(nèi)存？這個(gè)問題最好的解決方案就是利用Visual Profiler。下面內(nèi)容摘自《CUDA_Profiler_Users_Guide》

“Visual Profiler是一個(gè)圖形化的剖析工具，可以顯示你的應(yīng)用程序中CPU和GPU的活動(dòng)情況，利用分析引擎幫助你尋找優(yōu)化的機(jī)會(huì)。”

其實(shí)除了可視化的界面，NVIDIA提供了命令行方式的剖析命令：nvprof。對于初學(xué)者，使用圖形化的方式比較容易上手，所以本節(jié)使用Visual Profiler。

打開Visual Profiler，可以從CUDA Toolkit安裝菜單處找到。主界面如下：

我們點(diǎn)擊File->New Session，彈出新建會(huì)話對話框，如下圖所示：

其中File一欄填入我們需要進(jìn)行剖析的應(yīng)用程序exe文件，后面可以都不填（如果需要命令行參數(shù)，可以在第三行填入），直接Next，見下圖：

第一行為應(yīng)用程序執(zhí)行超時(shí)時(shí)間設(shè)定，可不填；后面三個(gè)單選框都勾上，這樣我們分別使能了剖析，使能了并發(fā)核函數(shù)剖析，然后運(yùn)行分析器。

點(diǎn)Finish，開始運(yùn)行我們的應(yīng)用程序并進(jìn)行剖析、分析性能。

上圖中，CPU和GPU部分顯示了硬件和執(zhí)行內(nèi)容信息，點(diǎn)某一項(xiàng)則將時(shí)間條對應(yīng)的部分高亮，便于觀察，同時(shí)右邊詳細(xì)信息會(huì)顯示運(yùn)行時(shí)間信息。從時(shí)間條上看出，cudaMalloc占用了很大一部分時(shí)間。下面分析器給出了一些性能提升的關(guān)鍵點(diǎn)，包括：低計(jì)算利用率（計(jì)算時(shí)間只占總時(shí)間的1.8%，也難怪，加法計(jì)算復(fù)雜度本來就很低呀！）；低內(nèi)存拷貝/計(jì)算交疊率（一點(diǎn)都沒有交疊，完全是拷貝——計(jì)算——拷貝）；低存儲(chǔ)拷貝尺寸（輸入數(shù)據(jù)量太小了，相當(dāng)于你淘寶買了個(gè)日記本，運(yùn)費(fèi)比實(shí)物價(jià)格還高！）；低存儲(chǔ)拷貝吞吐率（只有1.55GB/s）。這些對我們進(jìn)一步優(yōu)化程序是非常有幫助的。

我們點(diǎn)一下Details，就在Analysis窗口旁邊。得到結(jié)果如下所示：

通過這個(gè)窗口可以看到每個(gè)核函數(shù)執(zhí)行時(shí)間，以及線程格、線程塊尺寸，占用寄存器個(gè)數(shù)，靜態(tài)共享內(nèi)存、動(dòng)態(tài)共享內(nèi)存大小等參數(shù)，以及內(nèi)存拷貝函數(shù)的執(zhí)行情況。這個(gè)提供了比前面cudaEvent函數(shù)測時(shí)間更精確的方式，直接看到每一步的執(zhí)行時(shí)間，精確到ns。

在Details后面還有一個(gè)Console，點(diǎn)一下看看。

這個(gè)其實(shí)就是命令行窗口，顯示運(yùn)行輸出。看到加入了Profiler信息后，總執(zhí)行時(shí)間變長了（原來線程并行版本的程序運(yùn)行時(shí)間只需4ms左右）。這也是“測不準(zhǔn)定理”決定的，如果我們希望測量更細(xì)微的時(shí)間，那么總時(shí)間肯定是不準(zhǔn)的；如果我們希望測量總時(shí)間，那么細(xì)微的時(shí)間就被忽略掉了。

后面Settings就是我們建立會(huì)話時(shí)的參數(shù)配置，不再詳述。

通過本節(jié)，我們應(yīng)該能對CUDA性能提升有了一些想法，好，下一節(jié)我們將討論如何優(yōu)化CUDA程序。

http://blog.csdn.net/kkk584520/article/details/9413973

http://blog.csdn.net/kkk584520/article/details/9414191

http://blog.csdn.net/kkk584520/article/details/9415199

http://blog.csdn.net/kkk584520/article/details/9417251

http://blog.csdn.net/kkk584520/article/details/9420793

http://blog.csdn.net/kkk584520/article/details/9428389

http://blog.csdn.net/kkk584520/article/details/9428859

http://blog.csdn.net/kkk584520/article/details/9449635

http://blog.csdn.net/kkk584520/article/details/9472695

http://blog.csdn.net/kkk584520/article/details/9473319

http://blog.csdn.net/kkk584520/article/details/9490233

總結(jié)

以上是生活随笔為你收集整理的CUDA5.5入门文章：VS10设置的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： MySQL主备库切换(MHA)演练与总结
下一篇： adobe photoshop cs6

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

编程问答

CUDA5.5入门文章：VS10设置

總結(jié)