3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

CUDA5.5入门文章:VS10设置

發(fā)布時(shí)間:2023/12/31 编程问答 32 豆豆
生活随笔 收集整理的這篇文章主要介紹了 CUDA5.5入门文章:VS10设置 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

原文鏈接:http://blog.csdn.net/augusdi/article/details/12205435

作者專欄:http://blog.csdn.net/augusdi/article/category/1663451


(一): VS10設(shè)置

? ? 在開始學(xué)習(xí)之前,首先要做的就是找到一本好的教材,要知道一本好的教材可以讓我們更加輕松地入門。在看了一些個(gè)CUDA編程相關(guān)的教材之后,我向大家推薦的一本教材叫做《GPU高性能編程CUDA實(shí)戰(zhàn)》。本教材相比其他的教材而言,它講得比較細(xì),對于一些我們可能不太明白的知識(shí)點(diǎn)做了詳細(xì)的說明。而且這本教材以層層深入的方式向我們展示了GPU的世界,從而引領(lǐng)我們進(jìn)入CUDA編程的大門。

?????? 其他的教材的話我建議的是《深入淺出談CUDA》以及《CUDA編程指南》,前一本書可以和《GPU高性能編程CUDA實(shí)戰(zhàn)》這本書一起看,我建議先看《深入淺出談CUDA》,然后再看《GPU高性能編程CUDA實(shí)戰(zhàn)》,這樣理解起來能夠更加的透徹。

????? ? CUDA5.5是集成的CUDA ToolKit和SDK于一身的軟件,可以到NVIDIA Developer Zone去下載,下載地址https://developer.nvidia.com/cuda-downloads,有了工具我們就可以進(jìn)行CUDA編程了。

????? ? CUDA安裝好之后,就可以配置VS2010的cuda環(huán)境了,此時(shí)cuda已經(jīng)和你的vs綁定好了,默認(rèn)安裝的VS10支持包。于是我們就可以開始我們的第一個(gè)cuda程序:

1.創(chuàng)建一個(gè)cuda項(xiàng)目

??????? 由于安裝cuda5.5的時(shí)候已經(jīng)和vs2010綁定,所以直接可以創(chuàng)建一個(gè)cuda項(xiàng)目。選擇cuda 5.5 runtime就可以。

??????? 此時(shí)vs2010會(huì)自動(dòng)為這個(gè)項(xiàng)目添加一個(gè)cuda程序:kernel.cu。直接編譯這個(gè).cu文件,可能會(huì)出現(xiàn)"轉(zhuǎn)換到 COFF 期間失敗: 文件無效或損壞"這樣的錯(cuò)誤信息,修改如下所示:

??????? 右鍵->工程屬性->配置屬性-> 清單工具->輸入和輸出->嵌入清單,選擇[否]

2.CUDA C/C++關(guān)鍵字和函數(shù)高亮顯示

??????? 在上面.cu文件中發(fā)現(xiàn)CUDA C/C++的關(guān)鍵字__global__等沒有高亮顯示,而且還有下劃曲線。下面進(jìn)行CUDA C/C++關(guān)鍵字和函數(shù)的語法高亮顯示,配置Visual AssistX 函數(shù)高亮,代碼提示等功能。

下面是關(guān)于代碼高亮的設(shè)置。共三個(gè)設(shè)置

2.1.cu文件中C/C++關(guān)鍵字高亮

這個(gè)設(shè)置是讓VS2010編輯.cu文件時(shí),把.cu文件里的C/C++語法高亮。

設(shè)置方法: 在VS2010的菜單 依次點(diǎn)擊:“工具|選項(xiàng)|文本編輯器|文件擴(kuò)展名”,在這個(gè)界面里: “編輯器”下拉框選“Microsoft Visual C++”,在“Extension”文本框輸入.cu 點(diǎn)擊“添加”按鈕 ,重復(fù)工作把.cuh 添加為vc++類型,點(diǎn)擊確定按鈕。 把全部.cu文件關(guān)閉,再打開,.cu文件C++關(guān)鍵字就高亮了。如果不行就重啟VS2010。但是CUDA的關(guān)鍵字還是黑色的,下一步把CUDA關(guān)鍵自高亮顯示。

2.2.CUDA關(guān)鍵字高亮

為了讓CUDA的關(guān)鍵字,如__device__、dim3之類的文字高亮,需要如下步驟:

把SDK_PATH\C\doc\syntax_highlighting\usertype.dat復(fù)制到X:\Program Files (X86)\Microsoft Visual Studio 10.0\Common7\IDE\ 目錄下?

這里 X:是安裝VS2010盤符,這是win7 64位下的路徑。

注意:win7 64系統(tǒng)不要復(fù)制到這個(gè)目錄里,復(fù)制到這里是不會(huì)CUDA關(guān)鍵字高亮的:

X:\Program Files \Microsoft Visual Studio 10.0\Common7\IDE\
(如果你的win7是32位的,可能正好是上面這個(gè)目錄,應(yīng)該會(huì)高亮的,這是win7 64位和32位的差別)

再次強(qiáng)調(diào):SDK_PATH要換成你安裝SDK的實(shí)際路徑,不要直接使用這個(gè)字符串。

VS2010需要重啟,重啟后打開.cu文件,CUDA的關(guān)鍵字應(yīng)該變成藍(lán)色了。


2.3. CUDA 函數(shù)高亮,及CUDA函數(shù)輸入代碼提示


實(shí)現(xiàn)這個(gè)功能就要使用VAssistX了。 首先安裝支持VS2010的Visual AssistX, 在CUDA 安裝前、后安裝都行。需要兩步實(shí)現(xiàn)需要的功能:

a) 讓Visual AssistX支持CUDA函數(shù)高亮和代碼完成。在VS2010菜單里依次點(diǎn)擊: “VAssistX->Visual assist X Options->Projects->C/C++Directories”在這個(gè)界面的 “Platform”下拉框選 Custom,在“Show Directories for..“下拉框選 Other include files, 然后在下面的輸入框里,新建、添加三個(gè)路徑,點(diǎn)擊確定,三個(gè)路徑分別如下:

SDK_PATH的\c\common\inc
?????? SDK_PATH的\shared\inc
?????? X:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v4.0\include

這里SDK_PATH要用你安裝的SDK路徑代替,X:是你的CUDA toolkit安裝盤符。

這樣分別在這三個(gè)目錄里面的.h文件定義的函數(shù)和類型VAssistX會(huì)幫我們在編輯文件時(shí)候?qū)崿F(xiàn)高亮和完成代碼。如果少包含一個(gè)路徑,這個(gè)目錄里的.h定義的函數(shù)和類型就不會(huì)高亮和提示了。

b)讓Visual AssistX支持.cu文件,也就讓Visual AssistX幫我們實(shí)現(xiàn).cu文件高亮和代碼完成功能,需要編輯注冊表。首先關(guān)閉VS2010,點(diǎn)擊開始菜單輸入regedit打開注冊表,找到如下位置:HKEY_CURRENT_USER\Software\Whole Tomato\Visual Assist X\VANet10。在右邊找到ExtSource項(xiàng)目,鼠標(biāo)右鍵選修改,在原有文字后添加如下文字:.cu;.cuh; 確定后
關(guān)閉注冊表,重新打開vs2010,Visual AssistX開始支持.cu及.cuh文件的語法高亮及代碼完成。此時(shí).cu文件的CUDA函數(shù)是高亮的,使用函數(shù)名符號(hào)就會(huì)自動(dòng)提示函數(shù)全稱,參數(shù)類型等信息了。

經(jīng)過上面的安裝,開發(fā)程序應(yīng)該沒問題了,但會(huì)發(fā)現(xiàn)有如下的問題:

1. VS2010顯示.cu文件時(shí),有很多CUDA函數(shù)下有波浪線

2. 在.cu文件里使用VS2010的“Go to definition”功能查無法找到CUDA函數(shù)的定義。

這兩個(gè)問題的原因是VS2010不認(rèn)識(shí)這些函數(shù),沒有指定它們在那個(gè)頭文件里包含的。解決方法其實(shí)是一樣的,把CUDA tookit 和CUDA SDK的頭文件路徑加到VS2010的VC++目錄里面。

?

??????? CUDA編程主要做的就是和GPU打交道,在和這樣的一個(gè)陌生的家伙交流之前,我們需要做的就是先得認(rèn)識(shí)和熟悉這個(gè)家伙。

在深入研究如何編寫設(shè)備代碼之前,我們需要通過某種機(jī)制來判斷計(jì)算機(jī)中當(dāng)前有哪些設(shè)備,以及每個(gè)設(shè)備都支持哪些功能。幸運(yùn)的是,可以通過一個(gè)非常簡單的接口來獲得這種信息。首先,我們希望知道在系統(tǒng)中有多少個(gè)設(shè)備是支持CUDA架構(gòu)的,并且這些設(shè)備能夠運(yùn)行基于CUDA C編寫的核函數(shù)。要獲得CUDA設(shè)備的數(shù)量.可以調(diào)用cudaGetDeviceCount()。這個(gè)函數(shù)的作用從色的名字就可以看出來。在調(diào)用cudaGetDeviceCount()后,可以對每個(gè)設(shè)備進(jìn)行迭代、井查詢各個(gè)設(shè)備的相關(guān)信息。CUDA運(yùn)行時(shí)將返回一個(gè)cudaDevice Prop類型的結(jié)構(gòu),其中包含了設(shè)備的相關(guān)屬性。我們可以獲得哪些屬性?從CUDA 3.0開始,在cudaDeviceProp結(jié)構(gòu)中包含了以下信息:

[cpp] view plaincopy
  • struct?cudaDeviceProp???
  • {??
  • ????char?name[256];?????????//標(biāo)識(shí)設(shè)備的ASCII字符串??
  • ????size_t?totalGlobalMem;??????????//設(shè)備上全局內(nèi)存的總量,單位為字節(jié)??
  • ????size_t?sharedMemPerBlock;???//在一個(gè)線程塊(Block)中可使用的共享內(nèi)存總量,單位為字節(jié)??
  • ????int?regsPerBlock;???????//每個(gè)線程塊中可用的32位寄存器數(shù)量??
  • ????int?warpSize;???????????//在一個(gè)線程束(warp)中包含的線程數(shù)量??
  • ????size_t?memPitch;????????/在內(nèi)存復(fù)制中最大的修正量(Pitch),單位為字節(jié)??
  • ????int?maxThreadsPerBlock;?????//在一個(gè)線程塊中包含的最大線程數(shù)目??
  • ????int?maxThreadsDim[3];???????//在多維線程塊數(shù)組中,每一維包含的最大線程數(shù)量??
  • ????int?maxGridSize?[3];????????//在一個(gè)線程格(Grid)中,每一維可以包含的線程塊的數(shù)量??
  • ????size_t?totalConstMem;???????//常量內(nèi)存的總量??
  • ????int?major;??????????//設(shè)備計(jì)算功能集的主版本號(hào)??
  • ????int?minor;??????????//設(shè)備計(jì)算功能集的次版本號(hào)??
  • ????int?clockRate;??????????//??
  • ????size_t?textureAlignment;????//設(shè)備的紋理對齊要求??
  • ????int?deviceoverlap;??????//一個(gè)布爾類型值,表示設(shè)備是否可以同時(shí)執(zhí)行一個(gè)cudaMemory()調(diào)用和一個(gè)核函數(shù)調(diào)用??
  • ????int?multiProcessorCount;????//設(shè)備上多處理器的數(shù)量??
  • ????int?kernelExecTimeoutEnabled;???//一個(gè)布爾值,表示該設(shè)備上執(zhí)行的核函數(shù)是否存在運(yùn)行時(shí)限制??
  • ????int?integrated;?????????//一個(gè)布爾值,表示設(shè)備是否是一個(gè)集成的GPU??
  • ????int?canMapHostMemory;???????//一個(gè)布爾值,表示設(shè)備是否將主機(jī)內(nèi)存映射到cuda設(shè)備地址空間??
  • ????int?computeMode;????????//表示設(shè)備的計(jì)算模式:默認(rèn),獨(dú)占或禁止??
  • ????int?maxTexture1D;???????//一維紋理的最大大小??
  • ????int?maxTexture2D[2];????????//二維紋理的最大維數(shù)??
  • ????int?maxTexture3D[3];????????//三維紋理的最大維數(shù)??
  • ????int?maxTexture2DArray[3];???//二維紋理數(shù)組的最大維數(shù)??
  • ????int?concurrentKernels?;?????//一個(gè)布爾值,表示設(shè)備是否支持在同一個(gè)上下文中同時(shí)執(zhí)行多個(gè)核函數(shù)??
  • };??
  • 設(shè)備屬性的使用

    通過上面的結(jié)構(gòu)體,我們大致了解了設(shè)備的屬性,然后我們就可以通過這個(gè)結(jié)構(gòu)體來查詢設(shè)備屬性了。可能會(huì)有人問,到底我們需要這些設(shè)備屬性來干嘛,別著急,以后在編寫相關(guān)性能優(yōu)化的代碼的時(shí)候,就知道了解這些屬性的好處了。現(xiàn)在我們只需要知道方法就可以了。

    首先我們可以通過兩個(gè)函數(shù),第一個(gè)就是上面的cudaGetDeviceCount()來選擇設(shè)備,然后循環(huán)地通過getDeviceProperties()來獲得設(shè)備的屬性,之后我們就可以通過這樣的一個(gè)結(jié)構(gòu)體變量將設(shè)備的屬性值獲取出來。

    [cpp] view plaincopy
  • #include?<cuda_runtime.h>??
  • #include?<iostream>??
  • using?namespace?std;??
  • ??
  • int?main()??
  • {??
  • ????cudaDeviceProp?prop;??
  • ??
  • ????int?count;??
  • ????cudaGetDeviceCount(&count);??
  • ??
  • ????for(int?i?=?0?;?i?<?count?;?i++)??
  • ????{??
  • ????????cudaGetDeviceProperties(&prop,i);??
  • ????????cout<<"the?information?for?the?device?:?"<<i<<endl;??
  • ????????cout<<"name:"<<prop.name<<endl;??
  • ????????cout<<"the?memory?information?for?the?device?:?"<<i<<endl;??
  • ????????cout<<"total?global?memory:"<<prop.totalGlobalMem<<endl;??
  • ????????cout<<"total?constant?memory:"<<prop.totalConstMem<<endl;??
  • ????????cout<<"threads?in?warps:"<<prop.warpSize<<endl;??
  • ????????cout<<"max?threads?per?block:"<<prop.maxThreadsPerBlock<<endl;??
  • ????????cout<<"max?threads?dims:"<<prop.maxThreadsDim[0]<<"??"<<prop.maxThreadsDim[1]<<??
  • ????????????"??"<<prop.maxThreadsDim[2]<<endl;??
  • ????????cout<<"max?grid?dims:"<<prop.maxGridSize[0]<<"??"<<??
  • ????????????prop.maxGridSize[1]<<"??"<<prop.maxGridSize[2]<<endl;??
  • ??
  • ????}??
  • ????return?0;??
  • }??

  • 我這邊只是獲取一部分的屬性值,只是和大家介紹一下,具體的屬性值可以按照這樣的方法來獲取。



    (二):從入門到入門:http://blog.csdn.net/augusdi/article/details/12833235


    CUDA從入門到精通(一):環(huán)境搭建

    NVIDIA于2006年推出CUDA(Compute Unified Devices Architecture),可以利用其推出的GPU進(jìn)行通用計(jì)算,將并行計(jì)算從大型集群擴(kuò)展到了普通顯卡,使得用戶只需要一臺(tái)帶有Geforce顯卡的筆記本就能跑較大規(guī)模的并行處理程序。

    ?

    使用顯卡的好處是,和大型集群相比功耗非常低,成本也不高,但性能很突出。以我的筆記本為例,Geforce 610M,用DeviceQuery程序測試,可得到如下硬件參數(shù):

    計(jì)算能力達(dá)48X0.95 = 45.6 GFLOPS。而筆記本的CPU參數(shù)如下:

    CPU計(jì)算能力為(4核):2.5G*4 = 10GFLOPS,可見,顯卡計(jì)算性能是4核i5 CPU的4~5倍,因此我們可以充分利用這一資源來對一些耗時(shí)的應(yīng)用進(jìn)行加速。

    ?

    好了,工欲善其事必先利其器,為了使用CUDA對GPU進(jìn)行編程,我們需要準(zhǔn)備以下必備工具:

    1. 硬件平臺(tái),就是顯卡,如果你用的不是NVIDIA的顯卡,那么只能說抱歉,其他都不支持CUDA。

    2. 操作系統(tǒng),我用過windows XP,Windows 7都沒問題,本博客用Windows7。

    3. C編譯器,建議VS2008,和本博客一致。

    4. CUDA編譯器NVCC,可以免費(fèi)免注冊免license從官網(wǎng)下載CUDA ToolkitCUDA下載,最新版本為5.0,本博客用的就是該版本。

    5. 其他工具(如Visual Assist,輔助代碼高亮)

    ?

    準(zhǔn)備完畢,開始安裝軟件。VS2008安裝比較費(fèi)時(shí)間,建議安裝完整版(NVIDIA官網(wǎng)說Express版也可以),過程不必詳述。CUDA Toolkit 5.0里面包含了NVCC編譯器、設(shè)計(jì)文檔、設(shè)計(jì)例程、CUDA運(yùn)行時(shí)庫、CUDA頭文件等必備的原材料。

    安裝完畢,我們在桌面上發(fā)現(xiàn)這個(gè)圖標(biāo):

    不錯(cuò),就是它,雙擊運(yùn)行,可以看到一大堆例程。我們找到Simple OpenGL這個(gè)運(yùn)行看看效果:

    ? 點(diǎn)右邊黃線標(biāo)記處的Run即可看到美妙的三維正弦曲面,鼠標(biāo)左鍵拖動(dòng)可以轉(zhuǎn)換角度,右鍵拖動(dòng)可以縮放。如果這個(gè)運(yùn)行成功,說明你的環(huán)境基本搭建成功。

    出現(xiàn)問題的可能:

    1. 你使用遠(yuǎn)程桌面連接登錄到另一臺(tái)服務(wù)器,該服務(wù)器上有顯卡支持CUDA,但你遠(yuǎn)程終端不能運(yùn)行CUDA程序。這是因?yàn)檫h(yuǎn)程登錄使用的是你本地顯卡資源,在遠(yuǎn)程登錄時(shí)看不到服務(wù)器端的顯卡,所以會(huì)報(bào)錯(cuò):沒有支持CUDA的顯卡!解決方法:1. 遠(yuǎn)程服務(wù)器裝兩塊顯卡,一塊只用于顯示,另一塊用于計(jì)算;2.不要用圖形界面登錄,而是用命令行界面如telnet登錄。

    2.有兩個(gè)以上顯卡都支持CUDA的情況,如何區(qū)分是在哪個(gè)顯卡上運(yùn)行?這個(gè)需要你在程序里控制,選擇符合一定條件的顯卡,如較高的時(shí)鐘頻率、較大的顯存、較高的計(jì)算版本等。詳細(xì)操作見后面的博客。

    好了,先說這么多,下一節(jié)我們介紹如何在VS2008中給GPU編程。

    CUDA從入門到精通(二):第一個(gè)CUDA程序

    書接上回,我們既然直接運(yùn)行例程成功了,接下來就是了解如何實(shí)現(xiàn)例程中的每個(gè)環(huán)節(jié)。當(dāng)然,我們先從簡單的做起,一般編程語言都會(huì)找個(gè)helloworld例子,而我們的顯卡是不會(huì)說話的,只能做一些簡單的加減乘除運(yùn)算。所以,CUDA程序的helloworld,我想應(yīng)該最合適不過的就是向量加了。

    打開VS2008,選擇File->New->Project,彈出下面對話框,設(shè)置如下:

    之后點(diǎn)OK,直接進(jìn)入工程界面。

    工程中,我們看到只有一個(gè).cu文件,內(nèi)容如下:

    [cpp] view plaincopy
  • #include?"cuda_runtime.h"??
  • #include?"device_launch_parameters.h"??
  • ??
  • #include?<stdio.h>??
  • ??
  • cudaError_t?addWithCuda(int?*c,?const?int?*a,?const?int?*b,?size_t?size);??
  • ??
  • __global__?void?addKernel(int?*c,?const?int?*a,?const?int?*b)??
  • {??
  • ????int?i?=?threadIdx.x;??
  • ????c[i]?=?a[i]?+?b[i];??
  • }??
  • ??
  • int?main()??
  • {??
  • ????const?int?arraySize?=?5;??
  • ????const?int?a[arraySize]?=?{?1,?2,?3,?4,?5?};??
  • ????const?int?b[arraySize]?=?{?10,?20,?30,?40,?50?};??
  • ????int?c[arraySize]?=?{?0?};??
  • ??
  • ????//?Add?vectors?in?parallel.??
  • ????cudaError_t?cudaStatus?=?addWithCuda(c,?a,?b,?arraySize);??
  • ????if?(cudaStatus?!=?cudaSuccess)?{??
  • ????????fprintf(stderr,?"addWithCuda?failed!");??
  • ????????return?1;??
  • ????}??
  • ??
  • ????printf("{1,2,3,4,5}?+?{10,20,30,40,50}?=?{%d,%d,%d,%d,%d}\n",??
  • ????????c[0],?c[1],?c[2],?c[3],?c[4]);??
  • ??
  • ????//?cudaThreadExit?must?be?called?before?exiting?in?order?for?profiling?and??
  • ????//?tracing?tools?such?as?Nsight?and?Visual?Profiler?to?show?complete?traces.??
  • ????cudaStatus?=?cudaThreadExit();??
  • ????if?(cudaStatus?!=?cudaSuccess)?{??
  • ????????fprintf(stderr,?"cudaThreadExit?failed!");??
  • ????????return?1;??
  • ????}??
  • ??
  • ????return?0;??
  • }??
  • ??
  • //?Helper?function?for?using?CUDA?to?add?vectors?in?parallel.??
  • cudaError_t?addWithCuda(int?*c,?const?int?*a,?const?int?*b,?size_t?size)??
  • {??
  • ????int?*dev_a?=?0;??
  • ????int?*dev_b?=?0;??
  • ????int?*dev_c?=?0;??
  • ????cudaError_t?cudaStatus;??
  • ??
  • ????//?Choose?which?GPU?to?run?on,?change?this?on?a?multi-GPU?system.??
  • ????cudaStatus?=?cudaSetDevice(0);??
  • ????if?(cudaStatus?!=?cudaSuccess)?{??
  • ????????fprintf(stderr,?"cudaSetDevice?failed!??Do?you?have?a?CUDA-capable?GPU?installed?");??
  • ????????goto?Error;??
  • ????}??
  • ??
  • ????//?Allocate?GPU?buffers?for?three?vectors?(two?input,?one?output)????.??
  • ????cudaStatus?=?cudaMalloc((void**)&dev_c,?size?*?sizeof(int));??
  • ????if?(cudaStatus?!=?cudaSuccess)?{??
  • ????????fprintf(stderr,?"cudaMalloc?failed!");??
  • ????????goto?Error;??
  • ????}??
  • ??
  • ????cudaStatus?=?cudaMalloc((void**)&dev_a,?size?*?sizeof(int));??
  • ????if?(cudaStatus?!=?cudaSuccess)?{??
  • ????????fprintf(stderr,?"cudaMalloc?failed!");??
  • ????????goto?Error;??
  • ????}??
  • ??
  • ????cudaStatus?=?cudaMalloc((void**)&dev_b,?size?*?sizeof(int));??
  • ????if?(cudaStatus?!=?cudaSuccess)?{??
  • ????????fprintf(stderr,?"cudaMalloc?failed!");??
  • ????????goto?Error;??
  • ????}??
  • ??
  • ????//?Copy?input?vectors?from?host?memory?to?GPU?buffers.??
  • ????cudaStatus?=?cudaMemcpy(dev_a,?a,?size?*?sizeof(int),?cudaMemcpyHostToDevice);??
  • ????if?(cudaStatus?!=?cudaSuccess)?{??
  • ????????fprintf(stderr,?"cudaMemcpy?failed!");??
  • ????????goto?Error;??
  • ????}??
  • ??
  • ????cudaStatus?=?cudaMemcpy(dev_b,?b,?size?*?sizeof(int),?cudaMemcpyHostToDevice);??
  • ????if?(cudaStatus?!=?cudaSuccess)?{??
  • ????????fprintf(stderr,?"cudaMemcpy?failed!");??
  • ????????goto?Error;??
  • ????}??
  • ??
  • ????//?Launch?a?kernel?on?the?GPU?with?one?thread?for?each?element.??
  • ????addKernel<<<1,?size>>>(dev_c,?dev_a,?dev_b);??
  • ??
  • ????//?cudaThreadSynchronize?waits?for?the?kernel?to?finish,?and?returns??
  • ????//?any?errors?encountered?during?the?launch.??
  • ????cudaStatus?=?cudaThreadSynchronize();??
  • ????if?(cudaStatus?!=?cudaSuccess)?{??
  • ????????fprintf(stderr,?"cudaThreadSynchronize?returned?error?code?%d?after?launching?addKernel!\n",?cudaStatus);??
  • ????????goto?Error;??
  • ????}??
  • ??
  • ????//?Copy?output?vector?from?GPU?buffer?to?host?memory.??
  • ????cudaStatus?=?cudaMemcpy(c,?dev_c,?size?*?sizeof(int),?cudaMemcpyDeviceToHost);??
  • ????if?(cudaStatus?!=?cudaSuccess)?{??
  • ????????fprintf(stderr,?"cudaMemcpy?failed!");??
  • ????????goto?Error;??
  • ????}??
  • ??
  • Error:??
  • ????cudaFree(dev_c);??
  • ????cudaFree(dev_a);??
  • ????cudaFree(dev_b);??
  • ??????
  • ????return?cudaStatus;??
  • }??
  • ?可以看出,CUDA程序和C程序并無區(qū)別,只是多了一些以"cuda"開頭的一些庫函數(shù)和一個(gè)特殊聲明的函數(shù): [cpp] view plaincopy
  • __global__?void?addKernel(int?*c,?const?int?*a,?const?int?*b)??
  • {??
  • ????int?i?=?threadIdx.x;??
  • ????c[i]?=?a[i]?+?b[i];??
  • }??
  • 這個(gè)函數(shù)就是在GPU上運(yùn)行的函數(shù),稱之為核函數(shù),英文名Kernel Function,注意要和操作系統(tǒng)內(nèi)核函數(shù)區(qū)分開來。

    我們直接按F7編譯,可以得到如下輸出:

    [html] view plaincopy
  • 1>------?Build?started:?Project:?cuda_helloworld,?Configuration:?Debug?Win32?------????
  • 1>Compiling?with?CUDA?Build?Rule...????
  • 1>"C:\Program?Files\NVIDIA?GPU?Computing?Toolkit\CUDA\v5.0\\bin\nvcc.exe"??-G???-gencode=arch=compute_10,code=\"sm_10,compute_10\"?-gencode=arch=compute_20,code=\"sm_20,compute_20\"??--machine?32?-ccbin?"C:\Program?Files?(x86)\Microsoft?Visual?Studio?9.0\VC\bin"????-Xcompiler?"/EHsc?/W3?/nologo?/O2?/Zi???/MT??"??-I"C:\Program?Files\NVIDIA?GPU?Computing?Toolkit\CUDA\v5.0\\include"?-maxrregcount=0???--compile?-o?"Debug/kernel.cu.obj"?kernel.cu??????
  • 1>tmpxft_000000ec_00000000-8_kernel.compute_10.cudafe1.gpu????
  • 1>tmpxft_000000ec_00000000-14_kernel.compute_10.cudafe2.gpu????
  • 1>tmpxft_000000ec_00000000-5_kernel.compute_20.cudafe1.gpu????
  • 1>tmpxft_000000ec_00000000-17_kernel.compute_20.cudafe2.gpu????
  • 1>kernel.cu????
  • 1>kernel.cu????
  • 1>tmpxft_000000ec_00000000-8_kernel.compute_10.cudafe1.cpp????
  • 1>tmpxft_000000ec_00000000-24_kernel.compute_10.ii????
  • 1>Linking...????
  • 1>Embedding?manifest...????
  • 1>Performing?Post-Build?Event...????
  • 1>copy?"C:\Program?Files\NVIDIA?GPU?Computing?Toolkit\CUDA\v5.0\\bin\cudart*.dll"?"C:\Users\DongXiaoman\Documents\Visual?Studio?2008\Projects\cuda_helloworld\Debug"????
  • 1>C:\Program?Files\NVIDIA?GPU?Computing?Toolkit\CUDA\v5.0\\bin\cudart32_50_35.dll????
  • 1>C:\Program?Files\NVIDIA?GPU?Computing?Toolkit\CUDA\v5.0\\bin\cudart64_50_35.dll????
  • 1>已復(fù)制?????????2?個(gè)文件。????
  • 1>Build?log?was?saved?at?"file://c:\Users\DongXiaoman\Documents\Visual?Studio?2008\Projects\cuda_helloworld\cuda_helloworld\Debug\BuildLog.htm"????
  • 1>cuda_helloworld?-?0?error(s),?105?warning(s)????
  • ==========?Build:?1?succeeded,?0?failed,?0?up-to-date,?0?skipped?==========????
  • 可見,編譯.cu文件需要利用nvcc工具。該工具的詳細(xì)使用見后面博客。

    直接運(yùn)行,可以得到結(jié)果圖如下:

    如果顯示正確,那么我們的第一個(gè)程序宣告成功!

    CUDA從入門到精通(三):必備資料

    剛?cè)腴TCUDA,跑過幾個(gè)官方提供的例程,看了看人家的代碼,覺得并不難,但自己動(dòng)手寫代碼時(shí),總是不知道要先干什么,后干什么,也不知道從哪個(gè)知識(shí)點(diǎn)學(xué)起。這時(shí)就需要有一本能提供指導(dǎo)的書籍或者教程,一步步跟著做下去,直到真正掌握。

    一般講述CUDA的書,我認(rèn)為不錯(cuò)的有下面這幾本:

    初學(xué)者可以先看美國人寫的這本《GPU高性能編程CUDA實(shí)戰(zhàn)》,可操作性很強(qiáng),但不要期望能全看懂(Ps:里面有些概念其實(shí)我現(xiàn)在還是不怎么懂),但不影響你進(jìn)一步學(xué)習(xí)。如果想更全面地學(xué)習(xí)CUDA,《GPGPU編程技術(shù)》比較客觀詳細(xì)地介紹了通用GPU編程的策略,看過這本書,可以對顯卡有更深入的了解,揭開GPU的神秘面紗。后面《OpenGL編程指南》完全是為了體驗(yàn)圖形交互帶來的樂趣,可以有選擇地看;《GPU高性能運(yùn)算之CUDA》這本是師兄給的,適合快速查詢(感覺是將官方編程手冊翻譯了一遍)一些關(guān)鍵技術(shù)和概念。

    有了這些指導(dǎo)材料還不夠,我們在做項(xiàng)目的時(shí)候,遇到的問題在這些書上肯定找不到,所以還需要有下面這些利器:

    這里面有很多工具的使用手冊,如CUDA_GDB,Nsight,CUDA_Profiler等,方便調(diào)試程序;還有一些有用的庫,如CUFFT是專門用來做快速傅里葉變換的,CUBLAS是專用于線性代數(shù)(矩陣、向量計(jì)算)的,CUSPASE是專用于稀疏矩陣表示和計(jì)算的庫。這些庫的使用可以降低我們設(shè)計(jì)算法的難度,提高開發(fā)效率。另外還有些入門教程也是值得一讀的,你會(huì)對NVCC編譯器有更近距離的接觸。

    好了,前言就這么多,本博主計(jì)劃按如下順序來講述CUDA:

    1.了解設(shè)備

    2.線程并行

    3.塊并行

    4.流并行

    5.線程通信

    6.線程通信實(shí)例:規(guī)約

    7.存儲(chǔ)模型

    8.常數(shù)內(nèi)存

    9.紋理內(nèi)存

    10.主機(jī)頁鎖定內(nèi)存

    11.圖形互操作

    12.優(yōu)化準(zhǔn)則

    13.CUDA與MATLAB接口

    14.CUDA與MFC接口

    CUDA從入門到精通(四):加深對設(shè)備的認(rèn)識(shí)

    前面三節(jié)已經(jīng)對CUDA做了一個(gè)簡單的介紹,這一節(jié)開始真正進(jìn)入編程環(huán)節(jié)。

    首先,初學(xué)者應(yīng)該對自己使用的設(shè)備有較為扎實(shí)的理解和掌握,這樣對后面學(xué)習(xí)并行程序優(yōu)化很有幫助,了解硬件詳細(xì)參數(shù)可以通過上節(jié)介紹的幾本書和官方資料獲得,但如果仍然覺得不夠直觀,那么我們可以自己動(dòng)手獲得這些內(nèi)容。

    以第二節(jié)例程為模板,我們稍加改動(dòng)的部分代碼如下:

    [cpp] view plaincopy
  • //?Add?vectors?in?parallel.??
  • cudaError_t?cudaStatus;??
  • int?num?=?0;??
  • cudaDeviceProp?prop;??
  • cudaStatus?=?cudaGetDeviceCount(&num);??
  • for(int?i?=?0;i<num;i++)??
  • {??
  • ????cudaGetDeviceProperties(&prop,i);??
  • }??
  • cudaStatus?=?addWithCuda(c,?a,?b,?arraySize);??
  • 這個(gè)改動(dòng)的目的是讓我們的程序自動(dòng)通過調(diào)用cuda API函數(shù)獲得設(shè)備數(shù)目和屬性,所謂“知己知彼,百戰(zhàn)不殆”。

    cudaError_t 是cuda錯(cuò)誤類型,取值為整數(shù)。

    cudaDeviceProp為設(shè)備屬性結(jié)構(gòu)體,其定義可以從cuda Toolkit安裝目錄中找到,我的路徑為:C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v5.0\include\driver_types.h,找到定義為:

    [cpp] view plaincopy
  • /**?
  • ?*?CUDA?device?properties?
  • ?*/??
  • struct?__device_builtin__?cudaDeviceProp??
  • {??
  • ????char???name[256];??????????????????/**<?ASCII?string?identifying?device?*/??
  • ????size_t?totalGlobalMem;?????????????/**<?Global?memory?available?on?device?in?bytes?*/??
  • ????size_t?sharedMemPerBlock;??????????/**<?Shared?memory?available?per?block?in?bytes?*/??
  • ????int????regsPerBlock;???????????????/**<?32-bit?registers?available?per?block?*/??
  • ????int????warpSize;???????????????????/**<?Warp?size?in?threads?*/??
  • ????size_t?memPitch;???????????????????/**<?Maximum?pitch?in?bytes?allowed?by?memory?copies?*/??
  • ????int????maxThreadsPerBlock;?????????/**<?Maximum?number?of?threads?per?block?*/??
  • ????int????maxThreadsDim[3];???????????/**<?Maximum?size?of?each?dimension?of?a?block?*/??
  • ????int????maxGridSize[3];?????????????/**<?Maximum?size?of?each?dimension?of?a?grid?*/??
  • ????int????clockRate;??????????????????/**<?Clock?frequency?in?kilohertz?*/??
  • ????size_t?totalConstMem;??????????????/**<?Constant?memory?available?on?device?in?bytes?*/??
  • ????int????major;??????????????????????/**<?Major?compute?capability?*/??
  • ????int????minor;??????????????????????/**<?Minor?compute?capability?*/??
  • ????size_t?textureAlignment;???????????/**<?Alignment?requirement?for?textures?*/??
  • ????size_t?texturePitchAlignment;??????/**<?Pitch?alignment?requirement?for?texture?references?bound?to?pitched?memory?*/??
  • ????int????deviceOverlap;??????????????/**<?Device?can?concurrently?copy?memory?and?execute?a?kernel.?Deprecated.?Use?instead?asyncEngineCount.?*/??
  • ????int????multiProcessorCount;????????/**<?Number?of?multiprocessors?on?device?*/??
  • ????int????kernelExecTimeoutEnabled;???/**<?Specified?whether?there?is?a?run?time?limit?on?kernels?*/??
  • ????int????integrated;?????????????????/**<?Device?is?integrated?as?opposed?to?discrete?*/??
  • ????int????canMapHostMemory;???????????/**<?Device?can?map?host?memory?with?cudaHostAlloc/cudaHostGetDevicePointer?*/??
  • ????int????computeMode;????????????????/**<?Compute?mode?(See?::cudaComputeMode)?*/??
  • ????int????maxTexture1D;???????????????/**<?Maximum?1D?texture?size?*/??
  • ????int????maxTexture1DMipmap;?????????/**<?Maximum?1D?mipmapped?texture?size?*/??
  • ????int????maxTexture1DLinear;?????????/**<?Maximum?size?for?1D?textures?bound?to?linear?memory?*/??
  • ????int????maxTexture2D[2];????????????/**<?Maximum?2D?texture?dimensions?*/??
  • ????int????maxTexture2DMipmap[2];??????/**<?Maximum?2D?mipmapped?texture?dimensions?*/??
  • ????int????maxTexture2DLinear[3];??????/**<?Maximum?dimensions?(width,?height,?pitch)?for?2D?textures?bound?to?pitched?memory?*/??
  • ????int????maxTexture2DGather[2];??????/**<?Maximum?2D?texture?dimensions?if?texture?gather?operations?have?to?be?performed?*/??
  • ????int????maxTexture3D[3];????????????/**<?Maximum?3D?texture?dimensions?*/??
  • ????int????maxTextureCubemap;??????????/**<?Maximum?Cubemap?texture?dimensions?*/??
  • ????int????maxTexture1DLayered[2];?????/**<?Maximum?1D?layered?texture?dimensions?*/??
  • ????int????maxTexture2DLayered[3];?????/**<?Maximum?2D?layered?texture?dimensions?*/??
  • ????int????maxTextureCubemapLayered[2];/**<?Maximum?Cubemap?layered?texture?dimensions?*/??
  • ????int????maxSurface1D;???????????????/**<?Maximum?1D?surface?size?*/??
  • ????int????maxSurface2D[2];????????????/**<?Maximum?2D?surface?dimensions?*/??
  • ????int????maxSurface3D[3];????????????/**<?Maximum?3D?surface?dimensions?*/??
  • ????int????maxSurface1DLayered[2];?????/**<?Maximum?1D?layered?surface?dimensions?*/??
  • ????int????maxSurface2DLayered[3];?????/**<?Maximum?2D?layered?surface?dimensions?*/??
  • ????int????maxSurfaceCubemap;??????????/**<?Maximum?Cubemap?surface?dimensions?*/??
  • ????int????maxSurfaceCubemapLayered[2];/**<?Maximum?Cubemap?layered?surface?dimensions?*/??
  • ????size_t?surfaceAlignment;???????????/**<?Alignment?requirements?for?surfaces?*/??
  • ????int????concurrentKernels;??????????/**<?Device?can?possibly?execute?multiple?kernels?concurrently?*/??
  • ????int????ECCEnabled;?????????????????/**<?Device?has?ECC?support?enabled?*/??
  • ????int????pciBusID;???????????????????/**<?PCI?bus?ID?of?the?device?*/??
  • ????int????pciDeviceID;????????????????/**<?PCI?device?ID?of?the?device?*/??
  • ????int????pciDomainID;????????????????/**<?PCI?domain?ID?of?the?device?*/??
  • ????int????tccDriver;??????????????????/**<?1?if?device?is?a?Tesla?device?using?TCC?driver,?0?otherwise?*/??
  • ????int????asyncEngineCount;???????????/**<?Number?of?asynchronous?engines?*/??
  • ????int????unifiedAddressing;??????????/**<?Device?shares?a?unified?address?space?with?the?host?*/??
  • ????int????memoryClockRate;????????????/**<?Peak?memory?clock?frequency?in?kilohertz?*/??
  • ????int????memoryBusWidth;?????????????/**<?Global?memory?bus?width?in?bits?*/??
  • ????int????l2CacheSize;????????????????/**<?Size?of?L2?cache?in?bytes?*/??
  • ????int????maxThreadsPerMultiProcessor;/**<?Maximum?resident?threads?per?multiprocessor?*/??
  • };??
  • 后面的注釋已經(jīng)說明了其字段代表意義,可能有些術(shù)語對于初學(xué)者理解起來還是有一定困難,沒關(guān)系,我們現(xiàn)在只需要關(guān)注以下幾個(gè)指標(biāo):

    name:就是設(shè)備名稱;

    totalGlobalMem:就是顯存大小;

    major,minor:CUDA設(shè)備版本號(hào),有1.1, 1.2, 1.3, 2.0, 2.1等多個(gè)版本;

    clockRate:GPU時(shí)鐘頻率;

    multiProcessorCount:GPU大核數(shù),一個(gè)大核(專業(yè)點(diǎn)稱為流多處理器,SM,Stream-Multiprocessor)包含多個(gè)小核(流處理器,SP,Stream-Processor)

    編譯,運(yùn)行,我們在VS2008工程的cudaGetDeviceProperties()函數(shù)處放一個(gè)斷點(diǎn),單步執(zhí)行這一函數(shù),然后用Watch窗口,切換到Auto頁,展開+,在我的筆記本上得到如下結(jié)果:

    可以看到,設(shè)備名為GeForce 610M,顯存1GB,設(shè)備版本2.1(比較高端了,哈哈),時(shí)鐘頻率為950MHz(注意950000單位為kHz),大核數(shù)為1。在一些高性能GPU上(如Tesla,Kepler系列),大核數(shù)可能達(dá)到幾十甚至上百,可以做更大規(guī)模的并行處理。

    PS:今天看SDK代碼時(shí)發(fā)現(xiàn)在help_cuda.h中有個(gè)函數(shù)實(shí)現(xiàn)從CUDA設(shè)備版本查詢相應(yīng)大核中小核的數(shù)目,覺得很有用,以后編程序可以借鑒,摘抄如下:

    [cpp] view plaincopy
  • //?Beginning?of?GPU?Architecture?definitions??
  • inline?int?_ConvertSMVer2Cores(int?major,?int?minor)??
  • {??
  • ????//?Defines?for?GPU?Architecture?types?(using?the?SM?version?to?determine?the?#?of?cores?per?SM??
  • ????typedef?struct??
  • ????{??
  • ????????int?SM;?//?0xMm?(hexidecimal?notation),?M?=?SM?Major?version,?and?m?=?SM?minor?version??
  • ????????int?Cores;??
  • ????}?sSMtoCores;??
  • ??
  • ????sSMtoCores?nGpuArchCoresPerSM[]?=??
  • ????{??
  • ????????{?0x10,??8?},?//?Tesla?Generation?(SM?1.0)?G80?class??
  • ????????{?0x11,??8?},?//?Tesla?Generation?(SM?1.1)?G8x?class??
  • ????????{?0x12,??8?},?//?Tesla?Generation?(SM?1.2)?G9x?class??
  • ????????{?0x13,??8?},?//?Tesla?Generation?(SM?1.3)?GT200?class??
  • ????????{?0x20,?32?},?//?Fermi?Generation?(SM?2.0)?GF100?class??
  • ????????{?0x21,?48?},?//?Fermi?Generation?(SM?2.1)?GF10x?class??
  • ????????{?0x30,?192},?//?Kepler?Generation?(SM?3.0)?GK10x?class??
  • ????????{?0x35,?192},?//?Kepler?Generation?(SM?3.5)?GK11x?class??
  • ????????{???-1,?-1?}??
  • ????};??
  • ??
  • ????int?index?=?0;??
  • ??
  • ????while?(nGpuArchCoresPerSM[index].SM?!=?-1)??
  • ????{??
  • ????????if?(nGpuArchCoresPerSM[index].SM?==?((major?<<?4)?+?minor))??
  • ????????{??
  • ????????????return?nGpuArchCoresPerSM[index].Cores;??
  • ????????}??
  • ??
  • ????????index++;??
  • ????}??
  • ??
  • ????//?If?we?don't?find?the?values,?we?default?use?the?previous?one?to?run?properly??
  • ????printf("MapSMtoCores?for?SM?%d.%d?is?undefined.??Default?to?use?%d?Cores/SM\n",?major,?minor,?nGpuArchCoresPerSM[7].Cores);??
  • ????return?nGpuArchCoresPerSM[7].Cores;??
  • }??
  • //?end?of?GPU?Architecture?definitions??
  • 可見,設(shè)備版本2.1的一個(gè)大核有48個(gè)小核,而版本3.0以上的一個(gè)大核有192個(gè)小核!

    前文說到過,當(dāng)我們用的電腦上有多個(gè)顯卡支持CUDA時(shí),怎么來區(qū)分在哪個(gè)上運(yùn)行呢?這里我們看一下addWithCuda這個(gè)函數(shù)是怎么做的。

    [cpp] view plaincopy
  • cudaError_t?cudaStatus;??
  • ??
  • //?Choose?which?GPU?to?run?on,?change?this?on?a?multi-GPU?system.??
  • cudaStatus?=?cudaSetDevice(0);??
  • if?(cudaStatus?!=?cudaSuccess)?{??
  • ????fprintf(stderr,?"cudaSetDevice?failed!??Do?you?have?a?CUDA-capable?GPU?installed?");??
  • ????goto?Error;??
  • }??
  • 使用了cudaSetDevice(0)這個(gè)操作,0表示能搜索到的第一個(gè)設(shè)備號(hào),如果有多個(gè)設(shè)備,則編號(hào)為0,1,2...。

    再看我們本節(jié)添加的代碼,有個(gè)函數(shù)cudaGetDeviceCount(&num),這個(gè)函數(shù)用來獲取設(shè)備總數(shù),這樣我們選擇運(yùn)行CUDA程序的設(shè)備號(hào)取值就是0,1,...num-1,于是可以一個(gè)個(gè)枚舉設(shè)備,利用cudaGetDeviceProperties(&prop)獲得其屬性,然后利用一定排序、篩選算法,找到最符合我們應(yīng)用的那個(gè)設(shè)備號(hào)opt,然后調(diào)用cudaSetDevice(opt)即可選擇該設(shè)備。選擇標(biāo)準(zhǔn)可以從處理能力、版本控制、名稱等各個(gè)角度出發(fā)。后面講述流并發(fā)過程時(shí),還要用到這些API。

    如果希望了解更多硬件內(nèi)容可以結(jié)合http://www.geforce.cn/hardware獲取。

    CUDA從入門到精通(五):線程并行

    多線程我們應(yīng)該都不陌生,在操作系統(tǒng)中,進(jìn)程是資源分配的基本單元,而線程是CPU時(shí)間調(diào)度的基本單元(這里假設(shè)只有1個(gè)CPU)。

    將線程的概念引申到CUDA程序設(shè)計(jì)中,我們可以認(rèn)為線程就是執(zhí)行CUDA程序的最小單元,前面我們建立的工程代碼中,有個(gè)核函數(shù)概念不知各位童鞋還記得沒有,在GPU上每個(gè)線程都會(huì)運(yùn)行一次該核函數(shù)。

    但GPU上的線程調(diào)度方式與CPU有很大不同。CPU上會(huì)有優(yōu)先級(jí)分配,從高到低,同樣優(yōu)先級(jí)的可以采用時(shí)間片輪轉(zhuǎn)法實(shí)現(xiàn)線程調(diào)度。GPU上線程沒有優(yōu)先級(jí)概念,所有線程機(jī)會(huì)均等,線程狀態(tài)只有等待資源和執(zhí)行兩種狀態(tài),如果資源未就緒,那么就等待;一旦就緒,立即執(zhí)行。當(dāng)GPU資源很充裕時(shí),所有線程都是并發(fā)執(zhí)行的,這樣加速效果很接近理論加速比;而GPU資源少于總線程個(gè)數(shù)時(shí),有一部分線程就會(huì)等待前面執(zhí)行的線程釋放資源,從而變?yōu)榇谢瘓?zhí)行。

    代碼還是用上一節(jié)的吧,改動(dòng)很少,再貼一遍:

    [cpp] view plaincopy
  • #include?"cuda_runtime.h"???????????//CUDA運(yùn)行時(shí)API??
  • #include?"device_launch_parameters.h"?????
  • #include?<stdio.h>??
  • cudaError_t?addWithCuda(int?*c,?const?int?*a,?const?int?*b,?size_t?size);??
  • __global__?void?addKernel(int?*c,?const?int?*a,?const?int?*b)??
  • {??
  • ????int?i?=?threadIdx.x;??
  • ????c[i]?=?a[i]?+?b[i];??
  • }??
  • int?main()??
  • {??
  • ????const?int?arraySize?=?5;??
  • ????const?int?a[arraySize]?=?{?1,?2,?3,?4,?5?};??
  • ????const?int?b[arraySize]?=?{?10,?20,?30,?40,?50?};??
  • ????int?c[arraySize]?=?{?0?};??
  • ????//?Add?vectors?in?parallel.??
  • ????cudaError_t?cudaStatus;??
  • ????int?num?=?0;??
  • ????cudaDeviceProp?prop;??
  • ????cudaStatus?=?cudaGetDeviceCount(&num);??
  • ????for(int?i?=?0;i<num;i++)??
  • ????{??
  • ????????cudaGetDeviceProperties(&prop,i);??
  • ????}??
  • ????cudaStatus?=?addWithCuda(c,?a,?b,?arraySize);??
  • ????if?(cudaStatus?!=?cudaSuccess)???
  • ????{??
  • ????????fprintf(stderr,?"addWithCuda?failed!");??
  • ????????return?1;??
  • ????}??
  • ????printf("{1,2,3,4,5}?+?{10,20,30,40,50}?=?{%d,%d,%d,%d,%d}\n",c[0],c[1],c[2],c[3],c[4]);??
  • ????//?cudaThreadExit?must?be?called?before?exiting?in?order?for?profiling?and??
  • ????//?tracing?tools?such?as?Nsight?and?Visual?Profiler?to?show?complete?traces.??
  • ????cudaStatus?=?cudaThreadExit();??
  • ????if?(cudaStatus?!=?cudaSuccess)???
  • ????{??
  • ????????fprintf(stderr,?"cudaThreadExit?failed!");??
  • ????????return?1;??
  • ????}??
  • ????return?0;??
  • }??
  • //?重點(diǎn)理解這個(gè)函數(shù)??
  • cudaError_t?addWithCuda(int?*c,?const?int?*a,?const?int?*b,?size_t?size)??
  • {??
  • ????int?*dev_a?=?0;?//GPU設(shè)備端數(shù)據(jù)指針??
  • ????int?*dev_b?=?0;??
  • ????int?*dev_c?=?0;??
  • ????cudaError_t?cudaStatus;?????//狀態(tài)指示??
  • ??
  • ????//?Choose?which?GPU?to?run?on,?change?this?on?a?multi-GPU?system.??
  • ????cudaStatus?=?cudaSetDevice(0);??//選擇運(yùn)行平臺(tái)??
  • ????if?(cudaStatus?!=?cudaSuccess)???
  • ????{??
  • ????????fprintf(stderr,?"cudaSetDevice?failed!??Do?you?have?a?CUDA-capable?GPU?installed?");??
  • ????????goto?Error;??
  • ????}??
  • ????//?分配GPU設(shè)備端內(nèi)存??
  • ????cudaStatus?=?cudaMalloc((void**)&dev_c,?size?*?sizeof(int));??
  • ????if?(cudaStatus?!=?cudaSuccess)???
  • ????{??
  • ????????fprintf(stderr,?"cudaMalloc?failed!");??
  • ????????goto?Error;??
  • ????}??
  • ????cudaStatus?=?cudaMalloc((void**)&dev_a,?size?*?sizeof(int));??
  • ????if?(cudaStatus?!=?cudaSuccess)???
  • ????{??
  • ????????fprintf(stderr,?"cudaMalloc?failed!");??
  • ????????goto?Error;??
  • ????}??
  • ????cudaStatus?=?cudaMalloc((void**)&dev_b,?size?*?sizeof(int));??
  • ????if?(cudaStatus?!=?cudaSuccess)???
  • ????{??
  • ????????fprintf(stderr,?"cudaMalloc?failed!");??
  • ????????goto?Error;??
  • ????}??
  • ????//?拷貝數(shù)據(jù)到GPU??
  • ????cudaStatus?=?cudaMemcpy(dev_a,?a,?size?*?sizeof(int),?cudaMemcpyHostToDevice);??
  • ????if?(cudaStatus?!=?cudaSuccess)???
  • ????{??
  • ????????fprintf(stderr,?"cudaMemcpy?failed!");??
  • ????????goto?Error;??
  • ????}??
  • ????cudaStatus?=?cudaMemcpy(dev_b,?b,?size?*?sizeof(int),?cudaMemcpyHostToDevice);??
  • ????if?(cudaStatus?!=?cudaSuccess)???
  • ????{??
  • ????????fprintf(stderr,?"cudaMemcpy?failed!");??
  • ????????goto?Error;??
  • ????}??
  • ????//?運(yùn)行核函數(shù)??
  • <span?style="BACKGROUND-COLOR:?#ff6666"><strong>????addKernel<<<1,?size>>>(dev_c,?dev_a,?dev_b);</strong>??
  • </span>????//?cudaThreadSynchronize?waits?for?the?kernel?to?finish,?and?returns??
  • ????//?any?errors?encountered?during?the?launch.??
  • ????cudaStatus?=?cudaThreadSynchronize();???//同步線程??
  • ????if?(cudaStatus?!=?cudaSuccess)???
  • ????{??
  • ????????fprintf(stderr,?"cudaThreadSynchronize?returned?error?code?%d?after?launching?addKernel!\n",?cudaStatus);??
  • ????????goto?Error;??
  • ????}??
  • ????//?Copy?output?vector?from?GPU?buffer?to?host?memory.??
  • ????cudaStatus?=?cudaMemcpy(c,?dev_c,?size?*?sizeof(int),?cudaMemcpyDeviceToHost);??????//拷貝結(jié)果回主機(jī)??
  • ????if?(cudaStatus?!=?cudaSuccess)???
  • ????{??
  • ????????fprintf(stderr,?"cudaMemcpy?failed!");??
  • ????????goto?Error;??
  • ????}??
  • Error:??
  • ????cudaFree(dev_c);????//釋放GPU設(shè)備端內(nèi)存??
  • ????cudaFree(dev_a);??
  • ????cudaFree(dev_b);??????
  • ????return?cudaStatus;??
  • }??
  • 紅色部分即啟動(dòng)核函數(shù)的調(diào)用過程,這里看到調(diào)用方式和C不太一樣。<<<>>>表示運(yùn)行時(shí)配置符號(hào),里面1表示只分配一個(gè)線程組(又稱線程塊、Block),size表示每個(gè)線程組有size個(gè)線程(Thread)。本程序中size根據(jù)前面?zhèn)鬟f參數(shù)個(gè)數(shù)應(yīng)該為5,所以運(yùn)行的時(shí)候,核函數(shù)在5個(gè)GPU線程單元上分別運(yùn)行了一次,總共運(yùn)行了5次。這5個(gè)線程是如何知道自己“身份”的?是靠threadIdx這個(gè)內(nèi)置變量,它是個(gè)dim3類型變量,接受<<<>>>中第二個(gè)參數(shù),它包含x,y,z 3維坐標(biāo),而我們傳入的參數(shù)只有一維,所以只有x值是有效的。通過核函數(shù)中int i = threadIdx.x;這一句,每個(gè)線程可以獲得自身的id號(hào),從而找到自己的任務(wù)去執(zhí)行。

    CUDA從入門到精通(六):塊并行

    ?

    同一版本的代碼用了這么多次,有點(diǎn)過意不去,于是這次我要做較大的改動(dòng),大家要擦亮眼睛,拭目以待。

    塊并行相當(dāng)于操作系統(tǒng)中多進(jìn)程的情況,上節(jié)說到,CUDA有線程組(線程塊)的概念,將一組線程組織到一起,共同分配一部分資源,然后內(nèi)部調(diào)度執(zhí)行。線程塊與線程塊之間,毫無瓜葛。這有利于做更粗粒度的并行。我們將上一節(jié)的代碼改為塊并行版本如下:

    下節(jié)我們介紹塊并行。

    [cpp] view plaincopy
  • #include?"cuda_runtime.h"??
  • #include?"device_launch_parameters.h"??
  • #include?<stdio.h>??
  • cudaError_t?addWithCuda(int?*c,?const?int?*a,?const?int?*b,?size_t?size);??
  • __global__?void?addKernel(int?*c,?const?int?*a,?const?int?*b)??
  • {??
  • <span?style="BACKGROUND-COLOR:?#ff0000">????int?i?=?blockIdx.x;??
  • </span>????c[i]?=?a[i]?+?b[i];??
  • }??
  • int?main()??
  • {??
  • ????const?int?arraySize?=?5;??
  • ????const?int?a[arraySize]?=?{?1,?2,?3,?4,?5?};??
  • ????const?int?b[arraySize]?=?{?10,?20,?30,?40,?50?};??
  • ????int?c[arraySize]?=?{?0?};??
  • ????//?Add?vectors?in?parallel.??
  • ????cudaError_t?cudaStatus;??
  • ????int?num?=?0;??
  • ????cudaDeviceProp?prop;??
  • ????cudaStatus?=?cudaGetDeviceCount(&num);??
  • ????for(int?i?=?0;i<num;i++)??
  • ????{??
  • ????????cudaGetDeviceProperties(&prop,i);??
  • ????}??
  • ????cudaStatus?=?addWithCuda(c,?a,?b,?arraySize);??
  • ????if?(cudaStatus?!=?cudaSuccess)???
  • ????{??
  • ????????fprintf(stderr,?"addWithCuda?failed!");??
  • ????????return?1;??
  • ????}??
  • ????printf("{1,2,3,4,5}?+?{10,20,30,40,50}?=?{%d,%d,%d,%d,%d}\n",c[0],c[1],c[2],c[3],c[4]);??
  • ????//?cudaThreadExit?must?be?called?before?exiting?in?order?for?profiling?and??
  • ????//?tracing?tools?such?as?Nsight?and?Visual?Profiler?to?show?complete?traces.??
  • ????cudaStatus?=?cudaThreadExit();??
  • ????if?(cudaStatus?!=?cudaSuccess)???
  • ????{??
  • ????????fprintf(stderr,?"cudaThreadExit?failed!");??
  • ????????return?1;??
  • ????}??
  • ????return?0;??
  • }??
  • //?Helper?function?for?using?CUDA?to?add?vectors?in?parallel.??
  • cudaError_t?addWithCuda(int?*c,?const?int?*a,?const?int?*b,?size_t?size)??
  • {??
  • ????int?*dev_a?=?0;??
  • ????int?*dev_b?=?0;??
  • ????int?*dev_c?=?0;??
  • ????cudaError_t?cudaStatus;??
  • ??
  • ????//?Choose?which?GPU?to?run?on,?change?this?on?a?multi-GPU?system.??
  • ????cudaStatus?=?cudaSetDevice(0);??
  • ????if?(cudaStatus?!=?cudaSuccess)???
  • ????{??
  • ????????fprintf(stderr,?"cudaSetDevice?failed!??Do?you?have?a?CUDA-capable?GPU?installed?");??
  • ????????goto?Error;??
  • ????}??
  • ????//?Allocate?GPU?buffers?for?three?vectors?(two?input,?one?output)????.??
  • ????cudaStatus?=?cudaMalloc((void**)&dev_c,?size?*?sizeof(int));??
  • ????if?(cudaStatus?!=?cudaSuccess)???
  • ????{??
  • ????????fprintf(stderr,?"cudaMalloc?failed!");??
  • ????????goto?Error;??
  • ????}??
  • ????cudaStatus?=?cudaMalloc((void**)&dev_a,?size?*?sizeof(int));??
  • ????if?(cudaStatus?!=?cudaSuccess)???
  • ????{??
  • ????????fprintf(stderr,?"cudaMalloc?failed!");??
  • ????????goto?Error;??
  • ????}??
  • ????cudaStatus?=?cudaMalloc((void**)&dev_b,?size?*?sizeof(int));??
  • ????if?(cudaStatus?!=?cudaSuccess)???
  • ????{??
  • ????????fprintf(stderr,?"cudaMalloc?failed!");??
  • ????????goto?Error;??
  • ????}??
  • ????//?Copy?input?vectors?from?host?memory?to?GPU?buffers.??
  • ????cudaStatus?=?cudaMemcpy(dev_a,?a,?size?*?sizeof(int),?cudaMemcpyHostToDevice);??
  • ????if?(cudaStatus?!=?cudaSuccess)???
  • ????{??
  • ????????fprintf(stderr,?"cudaMemcpy?failed!");??
  • ????????goto?Error;??
  • ????}??
  • ????cudaStatus?=?cudaMemcpy(dev_b,?b,?size?*?sizeof(int),?cudaMemcpyHostToDevice);??
  • ????if?(cudaStatus?!=?cudaSuccess)???
  • ????{??
  • ????????fprintf(stderr,?"cudaMemcpy?failed!");??
  • ????????goto?Error;??
  • ????}??
  • ????//?Launch?a?kernel?on?the?GPU?with?one?thread?for?each?element.??
  • ?<span?style="BACKGROUND-COLOR:?#ff0000">???addKernel<<<size,1?>>>(dev_c,?dev_a,?dev_b);??
  • </span>????//?cudaThreadSynchronize?waits?for?the?kernel?to?finish,?and?returns??
  • ????//?any?errors?encountered?during?the?launch.??
  • ????cudaStatus?=?cudaThreadSynchronize();??
  • ????if?(cudaStatus?!=?cudaSuccess)???
  • ????{??
  • ????????fprintf(stderr,?"cudaThreadSynchronize?returned?error?code?%d?after?launching?addKernel!\n",?cudaStatus);??
  • ????????goto?Error;??
  • ????}??
  • ????//?Copy?output?vector?from?GPU?buffer?to?host?memory.??
  • ????cudaStatus?=?cudaMemcpy(c,?dev_c,?size?*?sizeof(int),?cudaMemcpyDeviceToHost);??
  • ????if?(cudaStatus?!=?cudaSuccess)???
  • ????{??
  • ????????fprintf(stderr,?"cudaMemcpy?failed!");??
  • ????????goto?Error;??
  • ????}??
  • Error:??
  • ????cudaFree(dev_c);??
  • ????cudaFree(dev_a);??
  • ????cudaFree(dev_b);??????
  • ????return?cudaStatus;??
  • }??
  • 和上一節(jié)相比,只有這兩行有改變,<<<>>>里第一個(gè)參數(shù)改成了size,第二個(gè)改成了1,表示我們分配size個(gè)線程塊,每個(gè)線程塊僅包含1個(gè)線程,總共還是有5個(gè)線程。這5個(gè)線程相互獨(dú)立,執(zhí)行核函數(shù)得到相應(yīng)的結(jié)果,與上一節(jié)不同的是,每個(gè)線程獲取id的方式變?yōu)閕nt i = blockIdx.x;這是線程塊ID。

    于是有童鞋提問了,線程并行和塊并行的區(qū)別在哪里?

    線程并行是細(xì)粒度并行,調(diào)度效率高;塊并行是粗粒度并行,每次調(diào)度都要重新分配資源,有時(shí)資源只有一份,那么所有線程塊都只能排成一隊(duì),串行執(zhí)行。

    那是不是我們所有時(shí)候都應(yīng)該用線程并行,盡可能不用塊并行?

    當(dāng)然不是,我們的任務(wù)有時(shí)可以采用分治法,將一個(gè)大問題分解為幾個(gè)小規(guī)模問題,將這些小規(guī)模問題分別用一個(gè)線程塊實(shí)現(xiàn),線程塊內(nèi)可以采用細(xì)粒度的線程并行,而塊之間為粗粒度并行,這樣可以充分利用硬件資源,降低線程并行的計(jì)算復(fù)雜度。適當(dāng)分解,降低規(guī)模,在一些矩陣乘法、向量內(nèi)積計(jì)算應(yīng)用中可以得到充分的展示。

    實(shí)際應(yīng)用中,常常是二者的結(jié)合。線程塊、線程組織圖如下所示。

    多個(gè)線程塊組織成了一個(gè)Grid,稱為線程格(經(jīng)歷了從一位線程,二維線程塊到三維線程格的過程,立體感很強(qiáng)啊)。

    好了,下一節(jié)我們介紹流并行,是更高層次的并行。

    CUDA從入門到精通(七):流并行

    前面我們沒有講程序的結(jié)構(gòu),我想有些童鞋可能迫不及待想知道CUDA程序到底是怎么一個(gè)執(zhí)行過程。好的,這一節(jié)在介紹流之前,先把CUDA程序結(jié)構(gòu)簡要說一下。

    CUDA程序文件后綴為.cu,有些編譯器可能不認(rèn)識(shí)這個(gè)后綴的文件,我們可以在VS2008的Tools->Options->Text Editor->File Extension里添加cu后綴到VC++中,如下圖:

    一個(gè).cu文件內(nèi)既包含CPU程序(稱為主機(jī)程序),也包含GPU程序(稱為設(shè)備程序)。如何區(qū)分主機(jī)程序和設(shè)備程序?根據(jù)聲明,凡是掛有“__global__”或者“__device__”前綴的函數(shù),都是在GPU上運(yùn)行的設(shè)備程序,不同的是__global__設(shè)備程序可被主機(jī)程序調(diào)用,而__device__設(shè)備程序則只能被設(shè)備程序調(diào)用。

    沒有掛任何前綴的函數(shù),都是主機(jī)程序。主機(jī)程序顯示聲明可以用__host__前綴。設(shè)備程序需要由NVCC進(jìn)行編譯,而主機(jī)程序只需要由主機(jī)編譯器(如VS2008中的cl.exe,Linux上的GCC)。主機(jī)程序主要完成設(shè)備環(huán)境初始化,數(shù)據(jù)傳輸?shù)缺貍溥^程,設(shè)備程序只負(fù)責(zé)計(jì)算。

    主機(jī)程序中,有一些“cuda”打頭的函數(shù),這些都是CUDA Runtime API,即運(yùn)行時(shí)函數(shù),主要負(fù)責(zé)完成設(shè)備的初始化、內(nèi)存分配、內(nèi)存拷貝等任務(wù)。我們前面第三節(jié)用到的函數(shù)cudaGetDeviceCount(),cudaGetDeviceProperties(),cudaSetDevice()都是運(yùn)行時(shí)API。這些函數(shù)的具體參數(shù)聲明我們不必一一記下來,拿出第三節(jié)的官方利器就可以輕松查詢,讓我們打開這個(gè)文件:

    打開后,在pdf搜索欄中輸入一個(gè)運(yùn)行時(shí)函數(shù),例如cudaMemcpy,查到的結(jié)果如下:

    可以看到,該API函數(shù)的參數(shù)形式為,第一個(gè)表示目的地,第二個(gè)表示來源地,第三個(gè)參數(shù)表示字節(jié)數(shù),第四個(gè)表示類型。如果對類型不了解,直接點(diǎn)擊超鏈接,得到詳細(xì)解釋如下:

    可見,該API可以實(shí)現(xiàn)從主機(jī)到主機(jī)、主機(jī)到設(shè)備、設(shè)備到主機(jī)、設(shè)備到設(shè)備的內(nèi)存拷貝過程。同時(shí)可以發(fā)現(xiàn),利用該API手冊可以很方便地查詢我們需要用的這些API函數(shù),所以以后編CUDA程序一定要把它打開,隨時(shí)準(zhǔn)備查詢,這樣可以大大提高編程效率。

    好了,進(jìn)入今天的主題:流并行。

    前面已經(jīng)介紹了線程并行和塊并行,知道了線程并行為細(xì)粒度的并行,而塊并行為粗粒度的并行,同時(shí)也知道了CUDA的線程組織情況,即Grid-Block-Thread結(jié)構(gòu)。一組線程并行處理可以組織為一個(gè)block,而一組block并行處理可以組織為一個(gè)Grid,很自然地想到,Grid只是一個(gè)網(wǎng)格,我們是否可以利用多個(gè)網(wǎng)格來完成并行處理呢?答案就是利用流。

    流可以實(shí)現(xiàn)在一個(gè)設(shè)備上運(yùn)行多個(gè)核函數(shù)。前面的塊并行也好,線程并行也好,運(yùn)行的核函數(shù)都是相同的(代碼一樣,傳遞參數(shù)也一樣)。而流并行,可以執(zhí)行不同的核函數(shù),也可以實(shí)現(xiàn)對同一個(gè)核函數(shù)傳遞不同的參數(shù),實(shí)現(xiàn)任務(wù)級(jí)別的并行。

    CUDA中的流用cudaStream_t類型實(shí)現(xiàn),用到的API有以下幾個(gè):cudaStreamCreate(cudaStream_t * s)用于創(chuàng)建流,cudaStreamDestroy(cudaStream_t s)用于銷毀流,cudaStreamSynchronize()用于單個(gè)流同步,cudaDeviceSynchronize()用于整個(gè)設(shè)備上的所有流同步,cudaStreamQuery()用于查詢一個(gè)流的任務(wù)是否已經(jīng)完成。具體的含義可以查詢API手冊。

    下面我們將前面的兩個(gè)例子中的任務(wù)改用流實(shí)現(xiàn),仍然是{1,2,3,4,5}+{10,20,30,40,50} = {11,22,33,44,55}這個(gè)例子。代碼如下:

    [cpp] view plaincopy
  • #include?"cuda_runtime.h"??
  • #include?"device_launch_parameters.h"??
  • #include?<stdio.h>??
  • cudaError_t?addWithCuda(int?*c,?const?int?*a,?const?int?*b,?size_t?size);??
  • __global__?void?addKernel(int?*c,?const?int?*a,?const?int?*b)??
  • {??
  • ????int?i?=?blockIdx.x;??
  • ????c[i]?=?a[i]?+?b[i];??
  • }??
  • int?main()??
  • {??
  • ????const?int?arraySize?=?5;??
  • ????const?int?a[arraySize]?=?{?1,?2,?3,?4,?5?};??
  • ????const?int?b[arraySize]?=?{?10,?20,?30,?40,?50?};??
  • ????int?c[arraySize]?=?{?0?};??
  • ????//?Add?vectors?in?parallel.??
  • ????cudaError_t?cudaStatus;??
  • ????int?num?=?0;??
  • ????cudaDeviceProp?prop;??
  • ????cudaStatus?=?cudaGetDeviceCount(&num);??
  • ????for(int?i?=?0;i<num;i++)??
  • ????{??
  • ????????cudaGetDeviceProperties(&prop,i);??
  • ????}??
  • ????cudaStatus?=?addWithCuda(c,?a,?b,?arraySize);??
  • ????if?(cudaStatus?!=?cudaSuccess)???
  • ????{??
  • ????????fprintf(stderr,?"addWithCuda?failed!");??
  • ????????return?1;??
  • ????}??
  • ????printf("{1,2,3,4,5}?+?{10,20,30,40,50}?=?{%d,%d,%d,%d,%d}\n",c[0],c[1],c[2],c[3],c[4]);??
  • ????//?cudaThreadExit?must?be?called?before?exiting?in?order?for?profiling?and??
  • ????//?tracing?tools?such?as?Nsight?and?Visual?Profiler?to?show?complete?traces.??
  • ????cudaStatus?=?cudaThreadExit();??
  • ????if?(cudaStatus?!=?cudaSuccess)???
  • ????{??
  • ????????fprintf(stderr,?"cudaThreadExit?failed!");??
  • ????????return?1;??
  • ????}??
  • ????return?0;??
  • }??
  • //?Helper?function?for?using?CUDA?to?add?vectors?in?parallel.??
  • cudaError_t?addWithCuda(int?*c,?const?int?*a,?const?int?*b,?size_t?size)??
  • {??
  • ????int?*dev_a?=?0;??
  • ????int?*dev_b?=?0;??
  • ????int?*dev_c?=?0;??
  • ????cudaError_t?cudaStatus;??
  • ??
  • ????//?Choose?which?GPU?to?run?on,?change?this?on?a?multi-GPU?system.??
  • ????cudaStatus?=?cudaSetDevice(0);??
  • ????if?(cudaStatus?!=?cudaSuccess)???
  • ????{??
  • ????????fprintf(stderr,?"cudaSetDevice?failed!??Do?you?have?a?CUDA-capable?GPU?installed?");??
  • ????????goto?Error;??
  • ????}??
  • ????//?Allocate?GPU?buffers?for?three?vectors?(two?input,?one?output)????.??
  • ????cudaStatus?=?cudaMalloc((void**)&dev_c,?size?*?sizeof(int));??
  • ????if?(cudaStatus?!=?cudaSuccess)???
  • ????{??
  • ????????fprintf(stderr,?"cudaMalloc?failed!");??
  • ????????goto?Error;??
  • ????}??
  • ????cudaStatus?=?cudaMalloc((void**)&dev_a,?size?*?sizeof(int));??
  • ????if?(cudaStatus?!=?cudaSuccess)???
  • ????{??
  • ????????fprintf(stderr,?"cudaMalloc?failed!");??
  • ????????goto?Error;??
  • ????}??
  • ????cudaStatus?=?cudaMalloc((void**)&dev_b,?size?*?sizeof(int));??
  • ????if?(cudaStatus?!=?cudaSuccess)???
  • ????{??
  • ????????fprintf(stderr,?"cudaMalloc?failed!");??
  • ????????goto?Error;??
  • ????}??
  • ????//?Copy?input?vectors?from?host?memory?to?GPU?buffers.??
  • ????cudaStatus?=?cudaMemcpy(dev_a,?a,?size?*?sizeof(int),?cudaMemcpyHostToDevice);??
  • ????if?(cudaStatus?!=?cudaSuccess)???
  • ????{??
  • ????????fprintf(stderr,?"cudaMemcpy?failed!");??
  • ????????goto?Error;??
  • ????}??
  • ????cudaStatus?=?cudaMemcpy(dev_b,?b,?size?*?sizeof(int),?cudaMemcpyHostToDevice);??
  • ????if?(cudaStatus?!=?cudaSuccess)???
  • ????{??
  • ????????fprintf(stderr,?"cudaMemcpy?failed!");??
  • ????????goto?Error;??
  • ????}??
  • <span?style="BACKGROUND-COLOR:?#ff6666">??cudaStream_t?stream[5];??
  • ????for(int?i?=?0;i<5;i++)??
  • ????{??
  • ????????cudaStreamCreate(&stream[i]);???//創(chuàng)建流??
  • ????}??
  • </span>????//?Launch?a?kernel?on?the?GPU?with?one?thread?for?each?element.??
  • <span?style="BACKGROUND-COLOR:?#ff6666">??for(int?i?=?0;i<5;i++)??
  • ????{??
  • ????????addKernel<<<1,1,0,stream[i]>>>(dev_c+i,?dev_a+i,?dev_b+i);????//執(zhí)行流??
  • ????}??
  • ????cudaDeviceSynchronize();??
  • </span>????//?cudaThreadSynchronize?waits?for?the?kernel?to?finish,?and?returns??
  • ????//?any?errors?encountered?during?the?launch.??
  • ????cudaStatus?=?cudaThreadSynchronize();??
  • ????if?(cudaStatus?!=?cudaSuccess)???
  • ????{??
  • ????????fprintf(stderr,?"cudaThreadSynchronize?returned?error?code?%d?after?launching?addKernel!\n",?cudaStatus);??
  • ????????goto?Error;??
  • ????}??
  • ????//?Copy?output?vector?from?GPU?buffer?to?host?memory.??
  • ????cudaStatus?=?cudaMemcpy(c,?dev_c,?size?*?sizeof(int),?cudaMemcpyDeviceToHost);??
  • ????if?(cudaStatus?!=?cudaSuccess)???
  • ????{??
  • ????????fprintf(stderr,?"cudaMemcpy?failed!");??
  • ????????goto?Error;??
  • ????}??
  • Error:??
  • <span?style="BACKGROUND-COLOR:?#ff6666">??for(int?i?=?0;i<5;i++)??
  • ????{??
  • ????????cudaStreamDestroy(stream[i]);???//銷毀流??
  • ????}??
  • </span>????cudaFree(dev_c);??
  • ????cudaFree(dev_a);??
  • ????cudaFree(dev_b);??????
  • ????return?cudaStatus;??
  • }??
  • 注意到,我們的核函數(shù)代碼仍然和塊并行的版本一樣,只是在調(diào)用時(shí)做了改變,<<<>>>中的參數(shù)多了兩個(gè),其中前兩個(gè)和塊并行、線程并行中的意義相同,仍然是線程塊數(shù)(這里為1)、每個(gè)線程塊中線程數(shù)(這里也是1)。第三個(gè)為0表示每個(gè)block用到的共享內(nèi)存大小,這個(gè)我們后面再講;第四個(gè)為流對象,表示當(dāng)前核函數(shù)在哪個(gè)流上運(yùn)行。我們創(chuàng)建了5個(gè)流,每個(gè)流上都裝載了一個(gè)核函數(shù),同時(shí)傳遞參數(shù)有些不同,也就是每個(gè)核函數(shù)作用的對象也不同。這樣就實(shí)現(xiàn)了任務(wù)級(jí)別的并行,當(dāng)我們有幾個(gè)互不相關(guān)的任務(wù)時(shí),可以寫多個(gè)核函數(shù),資源允許的情況下,我們將這些核函數(shù)裝載到不同流上,然后執(zhí)行,這樣可以實(shí)現(xiàn)更粗粒度的并行。

    好了,流并行就這么簡單,我們處理任務(wù)時(shí),可以根據(jù)需要,選擇最適合的并行方式。

    UDA從入門到精通(八):線程通信

    我們前面幾節(jié)主要介紹了三種利用GPU實(shí)現(xiàn)并行處理的方式:線程并行,塊并行和流并行。在這些方法中,我們一再強(qiáng)調(diào),各個(gè)線程所進(jìn)行的處理是互不相關(guān)的,即兩個(gè)線程不回產(chǎn)生交集,每個(gè)線程都只關(guān)注自己的一畝三分地,對其他線程毫無興趣,就當(dāng)不存在。。。。

    當(dāng)然,實(shí)際應(yīng)用中,這樣的例子太少了,也就是遇到向量相加、向量對應(yīng)點(diǎn)乘這類才會(huì)有如此高的并行度,而其他一些應(yīng)用,如一組數(shù)求和,求最大(小)值,各個(gè)線程不再是相互獨(dú)立的,而是產(chǎn)生一定關(guān)聯(lián),線程2可能會(huì)用到線程1的結(jié)果,這時(shí)就需要利用本節(jié)的線程通信技術(shù)了。

    線程通信在CUDA中有三種實(shí)現(xiàn)方式:

    1. 共享存儲(chǔ)器;

    2. 線程?同步;

    3. 原子操作;

    最常用的是前兩種方式,共享存儲(chǔ)器,術(shù)語Shared Memory,是位于SM中的特殊存儲(chǔ)器。還記得SM嗎,就是流多處理器,大核是也。一個(gè)SM中不僅包含若干個(gè)SP(流處理器,小核),還包括一部分高速Cache,寄存器組,共享內(nèi)存等,結(jié)構(gòu)如圖所示:

    從圖中可看出,一個(gè)SM內(nèi)有M個(gè)SP,Shared Memory由這M個(gè)SP共同占有。另外指令單元也被這M個(gè)SP共享,即SIMT架構(gòu)(單指令多線程架構(gòu)),一個(gè)SM中所有SP在同一時(shí)間執(zhí)行同一代碼。

    為了實(shí)現(xiàn)線程通信,僅僅靠共享內(nèi)存還不夠,需要有同步機(jī)制才能使線程之間實(shí)現(xiàn)有序處理。通常情況是這樣:當(dāng)線程A需要線程B計(jì)算的結(jié)果作為輸入時(shí),需要確保線程B已經(jīng)將結(jié)果寫入共享內(nèi)存中,然后線程A再從共享內(nèi)存中讀出。同步必不可少,否則,線程A可能讀到的是無效的結(jié)果,造成計(jì)算錯(cuò)誤。同步機(jī)制可以用CUDA內(nèi)置函數(shù):__syncthreads();當(dāng)某個(gè)線程執(zhí)行到該函數(shù)時(shí),進(jìn)入等待狀態(tài),直到同一線程塊(Block)中所有線程都執(zhí)行到這個(gè)函數(shù)為止,即一個(gè)__syncthreads()相當(dāng)于一個(gè)線程同步點(diǎn),確保一個(gè)Block中所有線程都達(dá)到同步,然后線程進(jìn)入運(yùn)行狀態(tài)。

    綜上兩點(diǎn),我們可以寫一段線程通信的偽代碼如下:

    [cpp] view plaincopy
  • //Begin??
  • if?this?is?thread?B??
  • ?????write?something?to?Shared?Memory;??
  • end?if??
  • __syncthreads();??
  • if?this?is?thread?A??
  • ????read?something?from?Shared?Memory;??
  • end?if??
  • //End??
  • 上面代碼在CUDA中實(shí)現(xiàn)時(shí),由于SIMT特性,所有線程都執(zhí)行同樣的代碼,所以在線程中需要判斷自己的身份,以免誤操作。

    注意的是,位于同一個(gè)Block中的線程才能實(shí)現(xiàn)通信,不同Block中的線程不能通過共享內(nèi)存、同步進(jìn)行通信,而應(yīng)采用原子操作或主機(jī)介入。

    對于原子操作,如果感興趣可以翻閱《GPU高性能編程CUDA實(shí)戰(zhàn)》第九章“原子性”。

    本節(jié)完。下節(jié)我們給出一個(gè)實(shí)例來看線程通信的代碼怎么設(shè)計(jì)。

    CUDA從入門到精通(九):線程通信實(shí)例

    接著上一節(jié),我們利用剛學(xué)到的共享內(nèi)存和線程同步技術(shù),來做一個(gè)簡單的例子。先看下效果吧:

    很簡單,就是分別求出1~5這5個(gè)數(shù)字的和,平方和,連乘積。相信學(xué)過C語言的童鞋都能用for循環(huán)做出同上面一樣的效果,但為了學(xué)習(xí)CUDA共享內(nèi)存和同步技術(shù),我們還是要把簡單的東西復(fù)雜化(^_^)。

    簡要分析一下,上面例子的輸入都是一樣的,1,2,3,4,5這5個(gè)數(shù),但計(jì)算過程有些變化,而且每個(gè)輸出和所有輸入都相關(guān),不是前幾節(jié)例子中那樣,一個(gè)輸出只和一個(gè)輸入有關(guān)。所以我們在利用CUDA編程時(shí),需要針對特殊問題做些讓步,把一些步驟串行化實(shí)現(xiàn)。

    輸入數(shù)據(jù)原本位于主機(jī)內(nèi)存,通過cudaMemcpy API已經(jīng)拷貝到GPU顯存(術(shù)語為全局存儲(chǔ)器,Global Memory),每個(gè)線程運(yùn)行時(shí)需要從Global Memory讀取輸入數(shù)據(jù),然后完成計(jì)算,最后將結(jié)果寫回Global Memory。當(dāng)我們計(jì)算需要多次相同輸入數(shù)據(jù)時(shí),大家可能想到,每次都分別去Global Memory讀數(shù)據(jù)好像有點(diǎn)浪費(fèi),如果數(shù)據(jù)很大,那么反復(fù)多次讀數(shù)據(jù)會(huì)相當(dāng)耗時(shí)間。索性我們把它從Global Memory一次性讀到SM內(nèi)部,然后在內(nèi)部進(jìn)行處理,這樣可以節(jié)省反復(fù)讀取的時(shí)間。

    有了這個(gè)思路,結(jié)合上節(jié)看到的SM結(jié)構(gòu)圖,看到有一片存儲(chǔ)器叫做Shared Memory,它位于SM內(nèi)部,處理時(shí)訪問速度相當(dāng)快(差不多每個(gè)時(shí)鐘周期讀一次),而全局存儲(chǔ)器讀一次需要耗費(fèi)幾十甚至上百個(gè)時(shí)鐘周期。于是,我們就制定A計(jì)劃如下:

    線程塊數(shù):1,塊號(hào)為0;(只有一個(gè)線程塊內(nèi)的線程才能進(jìn)行通信,所以我們只分配一個(gè)線程塊,具體工作交給每個(gè)線程完成)

    線程數(shù):5,線程號(hào)分別為0~4;(線程并行,前面講過)

    共享存儲(chǔ)器大小:5個(gè)int型變量大小(5 * sizeof(int))。

    步驟一:讀取輸入數(shù)據(jù)。將Global Memory中的5個(gè)整數(shù)讀入共享存儲(chǔ)器,位置一一對應(yīng),和線程號(hào)也一一對應(yīng),所以可以同時(shí)完成。

    步驟二:線程同步,確保所有線程都完成了工作。

    步驟三:指定線程,對共享存儲(chǔ)器中的輸入數(shù)據(jù)完成相應(yīng)處理。

    代碼如下:

    [cpp] view plaincopy
  • #include?"cuda_runtime.h"??
  • #include?"device_launch_parameters.h"??
  • ??
  • #include?<stdio.h>??
  • ??
  • cudaError_t?addWithCuda(int?*c,?const?int?*a,?size_t?size);??
  • ??
  • __global__?void?addKernel(int?*c,?const?int?*a)??
  • {??
  • ????int?i?=?threadIdx.x;??
  • <span?style="font-size:24px;"><strong>??extern?__shared__?int?smem[];</strong>??
  • </span>???smem[i]?=?a[i];??
  • ????__syncthreads();??
  • ????if(i?==?0)??//?0號(hào)線程做平方和??
  • ????{??
  • ????????c[0]?=?0;??
  • ????????for(int?d?=?0;?d?<?5;?d++)??
  • ????????{??
  • ????????????c[0]?+=?smem[d]?*?smem[d];??
  • ????????}??
  • ????}??
  • ????if(i?==?1)//1號(hào)線程做累加??
  • ????{??
  • ????????c[1]?=?0;??
  • ????????for(int?d?=?0;?d?<?5;?d++)??
  • ????????{??
  • ????????????c[1]?+=?smem[d];??
  • ????????}??
  • ????}??
  • ????if(i?==?2)??//2號(hào)線程做累乘??
  • ????{??
  • ????????c[2]?=?1;??
  • ????????for(int?d?=?0;?d?<?5;?d++)??
  • ????????{??
  • ????????????c[2]?*=?smem[d];??
  • ????????}??
  • ????}??
  • }??
  • ??
  • int?main()??
  • {??
  • ????const?int?arraySize?=?5;??
  • ????const?int?a[arraySize]?=?{?1,?2,?3,?4,?5?};??
  • ????int?c[arraySize]?=?{?0?};??
  • ????//?Add?vectors?in?parallel.??
  • ????cudaError_t?cudaStatus?=?addWithCuda(c,?a,?arraySize);??
  • ????if?(cudaStatus?!=?cudaSuccess)???
  • ????{??
  • ????????fprintf(stderr,?"addWithCuda?failed!");??
  • ????????return?1;??
  • ????}??
  • ????printf("\t1+2+3+4+5?=?%d\n\t1^2+2^2+3^2+4^2+5^2?=?%d\n\t1*2*3*4*5?=?%d\n\n\n\n\n\n",?c[1],?c[0],?c[2]);??
  • ????//?cudaThreadExit?must?be?called?before?exiting?in?order?for?profiling?and??
  • ????//?tracing?tools?such?as?Nsight?and?Visual?Profiler?to?show?complete?traces.??
  • ????cudaStatus?=?cudaThreadExit();??
  • ????if?(cudaStatus?!=?cudaSuccess)???
  • ????{??
  • ????????fprintf(stderr,?"cudaThreadExit?failed!");??
  • ????????return?1;??
  • ????}??
  • ????return?0;??
  • }??
  • ??
  • //?Helper?function?for?using?CUDA?to?add?vectors?in?parallel.??
  • cudaError_t?addWithCuda(int?*c,?const?int?*a,??size_t?size)??
  • {??
  • ????int?*dev_a?=?0;??
  • ????int?*dev_c?=?0;??
  • ????cudaError_t?cudaStatus;??
  • ??
  • ????//?Choose?which?GPU?to?run?on,?change?this?on?a?multi-GPU?system.??
  • ????cudaStatus?=?cudaSetDevice(0);??
  • ????if?(cudaStatus?!=?cudaSuccess)???
  • ????{??
  • ????????fprintf(stderr,?"cudaSetDevice?failed!??Do?you?have?a?CUDA-capable?GPU?installed?");??
  • ????????goto?Error;??
  • ????}??
  • ??
  • ????//?Allocate?GPU?buffers?for?three?vectors?(two?input,?one?output)????.??
  • ????cudaStatus?=?cudaMalloc((void**)&dev_c,?size?*?sizeof(int));??
  • ????if?(cudaStatus?!=?cudaSuccess)???
  • ????{??
  • ????????fprintf(stderr,?"cudaMalloc?failed!");??
  • ????????goto?Error;??
  • ????}??
  • ??
  • ????cudaStatus?=?cudaMalloc((void**)&dev_a,?size?*?sizeof(int));??
  • ????if?(cudaStatus?!=?cudaSuccess)???
  • ????{??
  • ????????fprintf(stderr,?"cudaMalloc?failed!");??
  • ????????goto?Error;??
  • ????}??
  • ????//?Copy?input?vectors?from?host?memory?to?GPU?buffers.??
  • ????cudaStatus?=?cudaMemcpy(dev_a,?a,?size?*?sizeof(int),?cudaMemcpyHostToDevice);??
  • ????if?(cudaStatus?!=?cudaSuccess)???
  • ????{??
  • ????????fprintf(stderr,?"cudaMemcpy?failed!");??
  • ????????goto?Error;??
  • ????}??
  • ????//?Launch?a?kernel?on?the?GPU?with?one?thread?for?each?element.??
  • <span?style="font-size:24px;"><strong>????addKernel<<<1,?size,?size?*?sizeof(int),?0>>>(dev_c,?dev_a);</strong>??
  • </span>??
  • ????//?cudaThreadSynchronize?waits?for?the?kernel?to?finish,?and?returns??
  • ????//?any?errors?encountered?during?the?launch.??
  • ????cudaStatus?=?cudaThreadSynchronize();??
  • ????if?(cudaStatus?!=?cudaSuccess)???
  • ????{??
  • ????????fprintf(stderr,?"cudaThreadSynchronize?returned?error?code?%d?after?launching?addKernel!\n",?cudaStatus);??
  • ????????goto?Error;??
  • ????}??
  • ??
  • ????//?Copy?output?vector?from?GPU?buffer?to?host?memory.??
  • ????cudaStatus?=?cudaMemcpy(c,?dev_c,?size?*?sizeof(int),?cudaMemcpyDeviceToHost);??
  • ????if?(cudaStatus?!=?cudaSuccess)???
  • ????{??
  • ????????fprintf(stderr,?"cudaMemcpy?failed!");??
  • ????????goto?Error;??
  • ????}??
  • ??
  • Error:??
  • ????cudaFree(dev_c);??
  • ????cudaFree(dev_a);??????
  • ????return?cudaStatus;??
  • }??
  • 從代碼中看到執(zhí)行配置<<<>>>中第三個(gè)參數(shù)為共享內(nèi)存大小(字節(jié)數(shù)),這樣我們就知道了全部4個(gè)執(zhí)行配置參數(shù)的意義。恭喜,你的CUDA終于入門了!
    CUDA從入門到精通(十):性能剖析和Visual Profiler

    入門后的進(jìn)一步學(xué)習(xí)的內(nèi)容,就是如何優(yōu)化自己的代碼。我們前面的例子沒有考慮任何性能方面優(yōu)化,是為了更好地學(xué)習(xí)基本知識(shí)點(diǎn),而不是其他細(xì)節(jié)問題。從本節(jié)開始,我們要從性能出發(fā)考慮問題,不斷優(yōu)化代碼,使執(zhí)行速度提高是并行處理的唯一目的。

    測試代碼運(yùn)行速度有很多方法,C語言里提供了類似于SystemTime()這樣的API獲得系統(tǒng)時(shí)間,然后計(jì)算兩個(gè)事件之間的時(shí)長從而完成計(jì)時(shí)功能。在CUDA中,我們有專門測量設(shè)備運(yùn)行時(shí)間的API,下面一一介紹。

    翻開編程手冊《CUDA_Toolkit_Reference_Manual》,隨時(shí)準(zhǔn)備查詢不懂得API。我們在運(yùn)行核函數(shù)前后,做如下操作:

    [cpp] view plaincopy
  • cudaEvent_t?start,?stop;<span?style="white-space:pre">??</span>//事件對象??
  • cudaEventCreate(&start);<span?style="white-space:pre">??</span>//創(chuàng)建事件??
  • cudaEventCreate(&stop);<span?style="white-space:pre">???????</span>//創(chuàng)建事件??
  • cudaEventRecord(start,?stream);<span?style="white-space:pre">???</span>//記錄開始??
  • myKernel<<<dimg,dimb,size_smem,stream>>>(parameter?list);//執(zhí)行核函數(shù)??
  • ??
  • cudaEventRecord(stop,stream);<span?style="white-space:pre">?</span>//記錄結(jié)束事件??
  • cudaEventSynchronize(stop);<span?style="white-space:pre">???</span>//事件同步,等待結(jié)束事件之前的設(shè)備操作均已完成??
  • float?elapsedTime;??
  • cudaEventElapsedTime(&elapsedTime,start,stop);//計(jì)算兩個(gè)事件之間時(shí)長(單位為ms)??
  • 核函數(shù)執(zhí)行時(shí)間將被保存在變量elapsedTime中。通過這個(gè)值我們可以評(píng)估算法的性能。下面給一個(gè)例子,來看怎么使用計(jì)時(shí)功能。

    前面的例子規(guī)模很小,只有5個(gè)元素,處理量太小不足以計(jì)時(shí),下面將規(guī)模擴(kuò)大為1024,此外將反復(fù)運(yùn)行1000次計(jì)算總時(shí)間,這樣估計(jì)不容易受隨機(jī)擾動(dòng)影響。我們通過這個(gè)例子對比線程并行和塊并行的性能如何。代碼如下:

    [cpp] view plaincopy
  • #include?"cuda_runtime.h"??
  • #include?"device_launch_parameters.h"??
  • #include?<stdio.h>??
  • cudaError_t?addWithCuda(int?*c,?const?int?*a,?const?int?*b,?size_t?size);??
  • __global__?void?addKernel_blk(int?*c,?const?int?*a,?const?int?*b)??
  • {??
  • ????int?i?=?blockIdx.x;??
  • ????c[i]?=?a[i]+?b[i];??
  • }??
  • __global__?void?addKernel_thd(int?*c,?const?int?*a,?const?int?*b)??
  • {??
  • ????int?i?=?threadIdx.x;??
  • ????c[i]?=?a[i]+?b[i];??
  • }??
  • int?main()??
  • {??
  • ????const?int?arraySize?=?1024;??
  • ????int?a[arraySize]?=?{0};??
  • ????int?b[arraySize]?=?{0};??
  • ????for(int?i?=?0;i<arraySize;i++)??
  • ????{??
  • ????????a[i]?=?i;??
  • ????????b[i]?=?arraySize-i;??
  • ????}??
  • ????int?c[arraySize]?=?{0};??
  • ????//?Add?vectors?in?parallel.??
  • ????cudaError_t?cudaStatus;??
  • ????int?num?=?0;??
  • ????cudaDeviceProp?prop;??
  • ????cudaStatus?=?cudaGetDeviceCount(&num);??
  • ????for(int?i?=?0;i<num;i++)??
  • ????{??
  • ????????cudaGetDeviceProperties(&prop,i);??
  • ????}??
  • ????cudaStatus?=?addWithCuda(c,?a,?b,?arraySize);??
  • ????if?(cudaStatus?!=?cudaSuccess)???
  • ????{??
  • ????????fprintf(stderr,?"addWithCuda?failed!");??
  • ????????return?1;??
  • ????}??
  • ??
  • ????//?cudaThreadExit?must?be?called?before?exiting?in?order?for?profiling?and??
  • ????//?tracing?tools?such?as?Nsight?and?Visual?Profiler?to?show?complete?traces.??
  • ????cudaStatus?=?cudaThreadExit();??
  • ????if?(cudaStatus?!=?cudaSuccess)???
  • ????{??
  • ????????fprintf(stderr,?"cudaThreadExit?failed!");??
  • ????????return?1;??
  • ????}??
  • ????for(int?i?=?0;i<arraySize;i++)??
  • ????{??
  • ????????if(c[i]?!=?(a[i]+b[i]))??
  • ????????{??
  • ????????????printf("Error?in?%d\n",i);??
  • ????????}??
  • ????}??
  • ????return?0;??
  • }??
  • //?Helper?function?for?using?CUDA?to?add?vectors?in?parallel.??
  • cudaError_t?addWithCuda(int?*c,?const?int?*a,?const?int?*b,?size_t?size)??
  • {??
  • ????int?*dev_a?=?0;??
  • ????int?*dev_b?=?0;??
  • ????int?*dev_c?=?0;??
  • ????cudaError_t?cudaStatus;??
  • ??
  • ????//?Choose?which?GPU?to?run?on,?change?this?on?a?multi-GPU?system.??
  • ????cudaStatus?=?cudaSetDevice(0);??
  • ????if?(cudaStatus?!=?cudaSuccess)???
  • ????{??
  • ????????fprintf(stderr,?"cudaSetDevice?failed!??Do?you?have?a?CUDA-capable?GPU?installed?");??
  • ????????goto?Error;??
  • ????}??
  • ????//?Allocate?GPU?buffers?for?three?vectors?(two?input,?one?output)????.??
  • ????cudaStatus?=?cudaMalloc((void**)&dev_c,?size?*?sizeof(int));??
  • ????if?(cudaStatus?!=?cudaSuccess)???
  • ????{??
  • ????????fprintf(stderr,?"cudaMalloc?failed!");??
  • ????????goto?Error;??
  • ????}??
  • ????cudaStatus?=?cudaMalloc((void**)&dev_a,?size?*?sizeof(int));??
  • ????if?(cudaStatus?!=?cudaSuccess)???
  • ????{??
  • ????????fprintf(stderr,?"cudaMalloc?failed!");??
  • ????????goto?Error;??
  • ????}??
  • ????cudaStatus?=?cudaMalloc((void**)&dev_b,?size?*?sizeof(int));??
  • ????if?(cudaStatus?!=?cudaSuccess)???
  • ????{??
  • ????????fprintf(stderr,?"cudaMalloc?failed!");??
  • ????????goto?Error;??
  • ????}??
  • ????//?Copy?input?vectors?from?host?memory?to?GPU?buffers.??
  • ????cudaStatus?=?cudaMemcpy(dev_a,?a,?size?*?sizeof(int),?cudaMemcpyHostToDevice);??
  • ????if?(cudaStatus?!=?cudaSuccess)???
  • ????{??
  • ????????fprintf(stderr,?"cudaMemcpy?failed!");??
  • ????????goto?Error;??
  • ????}??
  • ????cudaStatus?=?cudaMemcpy(dev_b,?b,?size?*?sizeof(int),?cudaMemcpyHostToDevice);??
  • ????if?(cudaStatus?!=?cudaSuccess)???
  • ????{??
  • ????????fprintf(stderr,?"cudaMemcpy?failed!");??
  • ????????goto?Error;??
  • ????}??
  • ????cudaEvent_t?start,stop;??
  • ????cudaEventCreate(&start);??
  • ????cudaEventCreate(&stop);??
  • ????cudaEventRecord(start,0);??
  • ????for(int?i?=?0;i<1000;i++)??
  • ????{??
  • //??????addKernel_blk<<<size,1>>>(dev_c,?dev_a,?dev_b);??
  • ????????addKernel_thd<<<1,size>>>(dev_c,?dev_a,?dev_b);??
  • ????}??
  • ????cudaEventRecord(stop,0);??
  • ????cudaEventSynchronize(stop);??
  • ????float?tm;??
  • ????cudaEventElapsedTime(&tm,start,stop);??
  • ????printf("GPU?Elapsed?time:%.6f?ms.\n",tm);??
  • ????//?cudaThreadSynchronize?waits?for?the?kernel?to?finish,?and?returns??
  • ????//?any?errors?encountered?during?the?launch.??
  • ????cudaStatus?=?cudaThreadSynchronize();??
  • ????if?(cudaStatus?!=?cudaSuccess)???
  • ????{??
  • ????????fprintf(stderr,?"cudaThreadSynchronize?returned?error?code?%d?after?launching?addKernel!\n",?cudaStatus);??
  • ????????goto?Error;??
  • ????}??
  • ????//?Copy?output?vector?from?GPU?buffer?to?host?memory.??
  • ????cudaStatus?=?cudaMemcpy(c,?dev_c,?size?*?sizeof(int),?cudaMemcpyDeviceToHost);??
  • ????if?(cudaStatus?!=?cudaSuccess)???
  • ????{??
  • ????????fprintf(stderr,?"cudaMemcpy?failed!");??
  • ????????goto?Error;??
  • ????}??
  • Error:??
  • ????cudaFree(dev_c);??
  • ????cudaFree(dev_a);??
  • ????cudaFree(dev_b);??????
  • ????return?cudaStatus;??
  • }??
  • addKernel_blk是采用塊并行實(shí)現(xiàn)的向量相加操作,而addKernel_thd是采用線程并行實(shí)現(xiàn)的向量相加操作。分別運(yùn)行,得到的結(jié)果如下圖所示:

    線程并行:

    塊并行:

    可見性能竟然相差近16倍!因此選擇并行處理方法時(shí),如果問題規(guī)模不是很大,那么采用線程并行是比較合適的,而大問題分多個(gè)線程塊處理時(shí),每個(gè)塊內(nèi)線程數(shù)不要太少,像本文中的只有1個(gè)線程,這是對硬件資源的極大浪費(fèi)。一個(gè)理想的方案是,分N個(gè)線程塊,每個(gè)線程塊包含512個(gè)線程,將問題分解處理,效率往往比單一的線程并行處理或單一塊并行處理高很多。這也是CUDA編程的精髓。

    上面這種分析程序性能的方式比較粗糙,只知道大概運(yùn)行時(shí)間長度,對于設(shè)備程序各部分代碼執(zhí)行時(shí)間沒有一個(gè)深入的認(rèn)識(shí),這樣我們就有個(gè)問題,如果對代碼進(jìn)行優(yōu)化,那么優(yōu)化哪一部分呢?是將線程數(shù)調(diào)節(jié)呢,還是改用共享內(nèi)存?這個(gè)問題最好的解決方案就是利用Visual Profiler。下面內(nèi)容摘自《CUDA_Profiler_Users_Guide》

    “Visual Profiler是一個(gè)圖形化的剖析工具,可以顯示你的應(yīng)用程序中CPU和GPU的活動(dòng)情況,利用分析引擎幫助你尋找優(yōu)化的機(jī)會(huì)。”

    其實(shí)除了可視化的界面,NVIDIA提供了命令行方式的剖析命令:nvprof。對于初學(xué)者,使用圖形化的方式比較容易上手,所以本節(jié)使用Visual Profiler。

    打開Visual Profiler,可以從CUDA Toolkit安裝菜單處找到。主界面如下:

    我們點(diǎn)擊File->New Session,彈出新建會(huì)話對話框,如下圖所示:

    其中File一欄填入我們需要進(jìn)行剖析的應(yīng)用程序exe文件,后面可以都不填(如果需要命令行參數(shù),可以在第三行填入),直接Next,見下圖:

    第一行為應(yīng)用程序執(zhí)行超時(shí)時(shí)間設(shè)定,可不填;后面三個(gè)單選框都勾上,這樣我們分別使能了剖析,使能了并發(fā)核函數(shù)剖析,然后運(yùn)行分析器。

    點(diǎn)Finish,開始運(yùn)行我們的應(yīng)用程序并進(jìn)行剖析、分析性能。

    上圖中,CPU和GPU部分顯示了硬件和執(zhí)行內(nèi)容信息,點(diǎn)某一項(xiàng)則將時(shí)間條對應(yīng)的部分高亮,便于觀察,同時(shí)右邊詳細(xì)信息會(huì)顯示運(yùn)行時(shí)間信息。從時(shí)間條上看出,cudaMalloc占用了很大一部分時(shí)間。下面分析器給出了一些性能提升的關(guān)鍵點(diǎn),包括:低計(jì)算利用率(計(jì)算時(shí)間只占總時(shí)間的1.8%,也難怪,加法計(jì)算復(fù)雜度本來就很低呀!);低內(nèi)存拷貝/計(jì)算交疊率(一點(diǎn)都沒有交疊,完全是拷貝——計(jì)算——拷貝);低存儲(chǔ)拷貝尺寸(輸入數(shù)據(jù)量太小了,相當(dāng)于你淘寶買了個(gè)日記本,運(yùn)費(fèi)比實(shí)物價(jià)格還高!);低存儲(chǔ)拷貝吞吐率(只有1.55GB/s)。這些對我們進(jìn)一步優(yōu)化程序是非常有幫助的。

    我們點(diǎn)一下Details,就在Analysis窗口旁邊。得到結(jié)果如下所示:

    通過這個(gè)窗口可以看到每個(gè)核函數(shù)執(zhí)行時(shí)間,以及線程格、線程塊尺寸,占用寄存器個(gè)數(shù),靜態(tài)共享內(nèi)存、動(dòng)態(tài)共享內(nèi)存大小等參數(shù),以及內(nèi)存拷貝函數(shù)的執(zhí)行情況。這個(gè)提供了比前面cudaEvent函數(shù)測時(shí)間更精確的方式,直接看到每一步的執(zhí)行時(shí)間,精確到ns。

    在Details后面還有一個(gè)Console,點(diǎn)一下看看。

    這個(gè)其實(shí)就是命令行窗口,顯示運(yùn)行輸出。看到加入了Profiler信息后,總執(zhí)行時(shí)間變長了(原來線程并行版本的程序運(yùn)行時(shí)間只需4ms左右)。這也是“測不準(zhǔn)定理”決定的,如果我們希望測量更細(xì)微的時(shí)間,那么總時(shí)間肯定是不準(zhǔn)的;如果我們希望測量總時(shí)間,那么細(xì)微的時(shí)間就被忽略掉了。

    后面Settings就是我們建立會(huì)話時(shí)的參數(shù)配置,不再詳述。

    通過本節(jié),我們應(yīng)該能對CUDA性能提升有了一些想法,好,下一節(jié)我們將討論如何優(yōu)化CUDA程序。

    http://blog.csdn.net/kkk584520/article/details/9413973

    http://blog.csdn.net/kkk584520/article/details/9414191

    http://blog.csdn.net/kkk584520/article/details/9415199

    http://blog.csdn.net/kkk584520/article/details/9417251

    http://blog.csdn.net/kkk584520/article/details/9420793

    http://blog.csdn.net/kkk584520/article/details/9428389

    http://blog.csdn.net/kkk584520/article/details/9428859

    http://blog.csdn.net/kkk584520/article/details/9449635

    http://blog.csdn.net/kkk584520/article/details/9472695

    http://blog.csdn.net/kkk584520/article/details/9473319

    http://blog.csdn.net/kkk584520/article/details/9490233



    總結(jié)

    以上是生活随笔為你收集整理的CUDA5.5入门文章:VS10设置的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。

    无码播放一区二区三区 | 国内老熟妇对白xxxxhd | 国产又爽又猛又粗的视频a片 | 国产色精品久久人妻 | 国产亚洲欧美在线专区 | 亚洲人成网站在线播放942 | 久久精品国产99久久6动漫 | 免费国产黄网站在线观看 | a片在线免费观看 | 亚洲日本一区二区三区在线 | 一二三四在线观看免费视频 | 丰满少妇高潮惨叫视频 | 国产又粗又硬又大爽黄老大爷视 | 丝袜足控一区二区三区 | 精品偷拍一区二区三区在线看 | 国产无遮挡又黄又爽又色 | 亚洲一区二区三区含羞草 | 欧美熟妇另类久久久久久多毛 | 亚洲成av人在线观看网址 | 亚洲成色www久久网站 | 国产口爆吞精在线视频 | 亚洲爆乳精品无码一区二区三区 | 美女张开腿让人桶 | 2019nv天堂香蕉在线观看 | 国产特级毛片aaaaaaa高清 | 国产精品美女久久久久av爽李琼 | 国产精品久久久久久久影院 | 熟女俱乐部五十路六十路av | 亚洲自偷自偷在线制服 | 久久久亚洲欧洲日产国码αv | 国产香蕉尹人综合在线观看 | 2020最新国产自产精品 | 中文字幕无码视频专区 | 国产真实伦对白全集 | 国产精品人人爽人人做我的可爱 | 精品亚洲韩国一区二区三区 | 欧美国产日韩亚洲中文 | 少妇一晚三次一区二区三区 | 亚欧洲精品在线视频免费观看 | 午夜熟女插插xx免费视频 | 一本久道久久综合婷婷五月 | 国产九九九九九九九a片 | 精品无码av一区二区三区 | 成人综合网亚洲伊人 | 久久人妻内射无码一区三区 | 最新国产乱人伦偷精品免费网站 | 天天做天天爱天天爽综合网 | 51国偷自产一区二区三区 | 一区二区三区乱码在线 | 欧洲 | 亚洲日韩乱码中文无码蜜桃臀网站 | 亚洲国产av精品一区二区蜜芽 | 四虎4hu永久免费 | 美女黄网站人色视频免费国产 | 初尝人妻少妇中文字幕 | 一本色道久久综合亚洲精品不卡 | 永久黄网站色视频免费直播 | 激情内射日本一区二区三区 | 国产特级毛片aaaaaa高潮流水 | 中文字幕无码av波多野吉衣 | 女人被男人爽到呻吟的视频 | 亚洲精品中文字幕久久久久 | 国产精品多人p群无码 | 国产精品久久久一区二区三区 | 亚洲一区二区观看播放 | 4hu四虎永久在线观看 | 亚洲春色在线视频 | 亚洲人交乣女bbw | 国产精品久久久久无码av色戒 | 国产免费久久精品国产传媒 | 色五月丁香五月综合五月 | 久久无码专区国产精品s | 美女毛片一区二区三区四区 | 欧美 日韩 人妻 高清 中文 | 超碰97人人射妻 | 国产真人无遮挡作爱免费视频 | 99久久人妻精品免费二区 | 丁香花在线影院观看在线播放 | 国内老熟妇对白xxxxhd | 亚洲国产av精品一区二区蜜芽 | www一区二区www免费 | 国产手机在线αⅴ片无码观看 | 丰满少妇女裸体bbw | 正在播放老肥熟妇露脸 | 装睡被陌生人摸出水好爽 | 丰满少妇熟乱xxxxx视频 | 一本久道久久综合狠狠爱 | 蜜桃臀无码内射一区二区三区 | 中文久久乱码一区二区 | 成人女人看片免费视频放人 | 午夜精品久久久内射近拍高清 | 日本欧美一区二区三区乱码 | 欧美真人作爱免费视频 | 国产精品久久久久久久9999 | 999久久久国产精品消防器材 | 无码av岛国片在线播放 | 日韩av激情在线观看 | 国产猛烈高潮尖叫视频免费 | v一区无码内射国产 | 婷婷五月综合缴情在线视频 | 国精产品一区二区三区 | 无码人妻久久一区二区三区不卡 | 久久精品丝袜高跟鞋 | 日韩人妻系列无码专区 | 久久精品人人做人人综合试看 | 成在人线av无码免观看麻豆 | 久久亚洲a片com人成 | 欧美日本精品一区二区三区 | 免费观看又污又黄的网站 | 色五月丁香五月综合五月 | 亚洲精品无码人妻无码 | 成人aaa片一区国产精品 | 色综合久久中文娱乐网 | 国内老熟妇对白xxxxhd | 亚洲成av人影院在线观看 | 澳门永久av免费网站 | 国产亚洲欧美在线专区 | 亚洲国产精品无码久久久久高潮 | 国产成人无码av在线影院 | 亚洲爆乳大丰满无码专区 | 特黄特色大片免费播放器图片 | 国产福利视频一区二区 | av香港经典三级级 在线 | 黑人大群体交免费视频 | 无人区乱码一区二区三区 | 国产农村妇女aaaaa视频 撕开奶罩揉吮奶头视频 | 国产小呦泬泬99精品 | 自拍偷自拍亚洲精品10p | 国产无av码在线观看 | 人人妻人人澡人人爽精品欧美 | 亚洲 欧美 激情 小说 另类 | 色欲av亚洲一区无码少妇 | 粗大的内捧猛烈进出视频 | 国产精品高潮呻吟av久久4虎 | 97精品人妻一区二区三区香蕉 | 中文字幕人妻丝袜二区 | 亚洲人成影院在线观看 | 亚拍精品一区二区三区探花 | 亚洲一区二区三区在线观看网站 | 久久国产精品二国产精品 | 欧美日韩一区二区三区自拍 | 中文字幕日韩精品一区二区三区 | 日本xxxx色视频在线观看免费 | 午夜福利试看120秒体验区 | 理论片87福利理论电影 | 日韩精品无码一区二区中文字幕 | 日韩精品无码一本二本三本色 | 中文字幕无码日韩专区 | 夜夜躁日日躁狠狠久久av | 狠狠色色综合网站 | 国产精品亚洲综合色区韩国 | 国内精品九九久久久精品 | 老子影院午夜精品无码 | 内射爽无广熟女亚洲 | 中文亚洲成a人片在线观看 | 丰满少妇人妻久久久久久 | 亚洲伊人久久精品影院 | 又紧又大又爽精品一区二区 | 日本一区二区更新不卡 | 99er热精品视频 | 欧美熟妇另类久久久久久多毛 | 少妇被黑人到高潮喷出白浆 | 精品国产aⅴ无码一区二区 | 熟妇人妻激情偷爽文 | 亚洲欧美日韩成人高清在线一区 | 九九在线中文字幕无码 | 国产亚洲精品久久久久久 | 天天躁日日躁狠狠躁免费麻豆 | 成人免费视频一区二区 | 一本色道久久综合亚洲精品不卡 | 2020最新国产自产精品 | 大肉大捧一进一出视频出来呀 | 亚洲欧美日韩成人高清在线一区 | 日本大香伊一区二区三区 | 国产小呦泬泬99精品 | 双乳奶水饱满少妇呻吟 | 狠狠色噜噜狠狠狠狠7777米奇 | 中文字幕日韩精品一区二区三区 | 精品国产国产综合精品 | 亚洲七七久久桃花影院 | 国内老熟妇对白xxxxhd | 久久成人a毛片免费观看网站 | 日产精品高潮呻吟av久久 | 欧美freesex黑人又粗又大 | 乱中年女人伦av三区 | 波多野结衣一区二区三区av免费 | 99国产欧美久久久精品 | 内射欧美老妇wbb | 帮老师解开蕾丝奶罩吸乳网站 | 婷婷六月久久综合丁香 | 亚洲gv猛男gv无码男同 | 老子影院午夜伦不卡 | 人妻少妇被猛烈进入中文字幕 | 正在播放老肥熟妇露脸 | 久久午夜无码鲁丝片秋霞 | 日本精品久久久久中文字幕 | 国产精品久久国产三级国 | 成年女人永久免费看片 | 老头边吃奶边弄进去呻吟 | 亚洲日韩一区二区 | 人妻少妇精品无码专区动漫 | 国产美女精品一区二区三区 | 又粗又大又硬毛片免费看 | 日韩亚洲欧美中文高清在线 | 麻花豆传媒剧国产免费mv在线 | 亚洲国产精品成人久久蜜臀 | 亚洲精品久久久久中文第一幕 | 亚洲阿v天堂在线 | 樱花草在线社区www | 超碰97人人做人人爱少妇 | 2019午夜福利不卡片在线 | av小次郎收藏 | 欧美老妇与禽交 | 大肉大捧一进一出好爽视频 | 午夜熟女插插xx免费视频 | 强开小婷嫩苞又嫩又紧视频 | 97夜夜澡人人双人人人喊 | 又紧又大又爽精品一区二区 | 亚洲欧美国产精品久久 | 久久精品人妻少妇一区二区三区 | 人妻少妇精品久久 | 久久久久se色偷偷亚洲精品av | 国内精品一区二区三区不卡 | 18禁止看的免费污网站 | 三上悠亚人妻中文字幕在线 | 一区二区三区高清视频一 | 男女猛烈xx00免费视频试看 | 无码中文字幕色专区 | 丁香啪啪综合成人亚洲 | 精品一区二区不卡无码av | 亚拍精品一区二区三区探花 | 亚洲人成网站在线播放942 | 麻豆国产97在线 | 欧洲 | 国内精品久久毛片一区二区 | 全黄性性激高免费视频 | 67194成是人免费无码 | 国产精品爱久久久久久久 | 亚洲阿v天堂在线 | 一本久久伊人热热精品中文字幕 | 丰满护士巨好爽好大乳 | 日韩精品无码一区二区中文字幕 | 国产另类ts人妖一区二区 | 午夜熟女插插xx免费视频 | 亚洲熟妇自偷自拍另类 | 欧美日韩久久久精品a片 | 麻豆国产97在线 | 欧洲 | 国产成人综合色在线观看网站 | 日韩精品无码一本二本三本色 | 精品夜夜澡人妻无码av蜜桃 | 中文无码成人免费视频在线观看 | 亚洲国产成人a精品不卡在线 | 中文亚洲成a人片在线观看 | 麻豆精品国产精华精华液好用吗 | 日产国产精品亚洲系列 | 国产麻豆精品精东影业av网站 | а√天堂www在线天堂小说 | 狂野欧美性猛xxxx乱大交 | 国产一区二区三区影院 | 国产三级精品三级男人的天堂 | 国产在线精品一区二区三区直播 | 欧美日韩一区二区综合 | 少妇愉情理伦片bd | 国产美女精品一区二区三区 | 国产成人精品久久亚洲高清不卡 | 欧美野外疯狂做受xxxx高潮 | 十八禁真人啪啪免费网站 | 熟妇激情内射com | 无码人妻黑人中文字幕 | 亚洲人成人无码网www国产 | 兔费看少妇性l交大片免费 | 国产欧美亚洲精品a | 久久久无码中文字幕久... | 麻豆md0077饥渴少妇 | 1000部夫妻午夜免费 | 四虎永久在线精品免费网址 | 好屌草这里只有精品 | 99久久亚洲精品无码毛片 | 鲁鲁鲁爽爽爽在线视频观看 | 成年女人永久免费看片 | 久久综合九色综合欧美狠狠 | 国产福利视频一区二区 | 成人无码精品一区二区三区 | 色综合久久久无码中文字幕 | 少妇无码吹潮 | 欧美老人巨大xxxx做受 | 亚洲国产欧美国产综合一区 | 精品国产av色一区二区深夜久久 | 欧美国产亚洲日韩在线二区 | 日本护士毛茸茸高潮 | 中文字幕无码视频专区 | 国产午夜无码精品免费看 | 人妻体内射精一区二区三四 | 少妇被粗大的猛进出69影院 | 无码人妻丰满熟妇区毛片18 | 精品国产精品久久一区免费式 | 国产精品视频免费播放 | 国产亚洲日韩欧美另类第八页 | 少妇无码av无码专区在线观看 | 婷婷五月综合缴情在线视频 | 国产成人精品一区二区在线小狼 | 亚洲国产精品无码一区二区三区 | 久久aⅴ免费观看 | 亚洲爆乳大丰满无码专区 | 欧美一区二区三区视频在线观看 | 中文字幕日韩精品一区二区三区 | 国产三级久久久精品麻豆三级 | 人人妻人人澡人人爽精品欧美 | 亚洲色成人中文字幕网站 | 国产激情艳情在线看视频 | 蜜臀aⅴ国产精品久久久国产老师 | 秋霞成人午夜鲁丝一区二区三区 | 中文精品无码中文字幕无码专区 | 免费观看又污又黄的网站 | 国产精品亚洲专区无码不卡 | 国产农村乱对白刺激视频 | 成人三级无码视频在线观看 | 中文字幕无码av波多野吉衣 | 性色av无码免费一区二区三区 | 亚洲无人区一区二区三区 | 久久久久成人精品免费播放动漫 | 久久精品成人欧美大片 | 亚洲熟妇色xxxxx亚洲 | 无码国产激情在线观看 | 领导边摸边吃奶边做爽在线观看 | 日本精品久久久久中文字幕 | 国产香蕉97碰碰久久人人 | 国产精品高潮呻吟av久久4虎 | 国产精品嫩草久久久久 | 国产偷国产偷精品高清尤物 | 中文字幕日韩精品一区二区三区 | 天下第一社区视频www日本 | 无码中文字幕色专区 | 人人爽人人爽人人片av亚洲 | 久久99热只有频精品8 | 国产亚洲美女精品久久久2020 | 未满小14洗澡无码视频网站 | 少妇人妻偷人精品无码视频 | 永久黄网站色视频免费直播 | 亚洲成av人在线观看网址 | 18无码粉嫩小泬无套在线观看 | 欧美亚洲国产一区二区三区 | 好爽又高潮了毛片免费下载 | 亚洲 激情 小说 另类 欧美 | 欧美真人作爱免费视频 | 精品人妻av区 | 麻豆成人精品国产免费 | 久久zyz资源站无码中文动漫 | 国产人妻精品一区二区三区 | 久久五月精品中文字幕 | 风流少妇按摩来高潮 | 丰满人妻精品国产99aⅴ | 天干天干啦夜天干天2017 | 国产高潮视频在线观看 | 亚洲成a人片在线观看日本 | 天海翼激烈高潮到腰振不止 | 精品国偷自产在线视频 | 2019nv天堂香蕉在线观看 | 午夜理论片yy44880影院 | 成年美女黄网站色大免费视频 | 99国产精品白浆在线观看免费 | 性欧美熟妇videofreesex | 少妇久久久久久人妻无码 | 亚洲人成网站免费播放 | 综合人妻久久一区二区精品 | 狂野欧美性猛交免费视频 | 伦伦影院午夜理论片 | 综合人妻久久一区二区精品 | 扒开双腿疯狂进出爽爽爽视频 | 国产综合在线观看 | 成人免费视频视频在线观看 免费 | 日本精品人妻无码77777 天堂一区人妻无码 | 欧美日韩在线亚洲综合国产人 | 极品尤物被啪到呻吟喷水 | 动漫av一区二区在线观看 | 国产国产精品人在线视 | 国产无遮挡又黄又爽免费视频 | 最新国产乱人伦偷精品免费网站 | 亚洲精品一区二区三区在线观看 | 国内少妇偷人精品视频 | 国产特级毛片aaaaaaa高清 | 97久久精品无码一区二区 | 亚洲精品久久久久avwww潮水 | 天下第一社区视频www日本 | 人妻无码αv中文字幕久久琪琪布 | 狂野欧美激情性xxxx | 免费乱码人妻系列无码专区 | 欧洲欧美人成视频在线 | 精品一区二区三区波多野结衣 | 国产人妻精品一区二区三区 | 老子影院午夜精品无码 | 色偷偷人人澡人人爽人人模 | 亚洲精品中文字幕乱码 | 久久精品国产99精品亚洲 | 领导边摸边吃奶边做爽在线观看 | 老司机亚洲精品影院 | 国产美女极度色诱视频www | 日本爽爽爽爽爽爽在线观看免 | 精品无码一区二区三区爱欲 | 色五月丁香五月综合五月 | 人妻有码中文字幕在线 | 久久国产精品精品国产色婷婷 | aⅴ亚洲 日韩 色 图网站 播放 | 欧美黑人巨大xxxxx | 久久综合九色综合欧美狠狠 | 人人妻人人澡人人爽欧美一区九九 | 麻豆md0077饥渴少妇 | 国产精品人妻一区二区三区四 | 综合激情五月综合激情五月激情1 | 日本免费一区二区三区最新 | 日韩精品无码免费一区二区三区 | 亚洲国产欧美国产综合一区 | 中文字幕乱码人妻无码久久 | 久久精品国产亚洲精品 | 一本色道久久综合狠狠躁 | 国产午夜亚洲精品不卡下载 | 亚洲一区二区三区在线观看网站 | 亚洲熟妇色xxxxx欧美老妇 | 欧美 亚洲 国产 另类 | 成人无码视频在线观看网站 | 欧美放荡的少妇 | 综合激情五月综合激情五月激情1 | 亚洲乱码日产精品bd | 乌克兰少妇xxxx做受 | 激情五月综合色婷婷一区二区 | 99麻豆久久久国产精品免费 | 日本精品少妇一区二区三区 | 日本va欧美va欧美va精品 | 成年美女黄网站色大免费全看 | 国产精品99爱免费视频 | 国产成人久久精品流白浆 | 在线精品国产一区二区三区 | 久9re热视频这里只有精品 | www国产亚洲精品久久网站 | 久久这里只有精品视频9 | 日本肉体xxxx裸交 | 丝袜 中出 制服 人妻 美腿 | 久久亚洲精品中文字幕无男同 | 久久 国产 尿 小便 嘘嘘 | 欧美第一黄网免费网站 | 国产精品无码永久免费888 | 国产九九九九九九九a片 | 在教室伦流澡到高潮hnp视频 | 欧美黑人性暴力猛交喷水 | 久久久久久av无码免费看大片 | 扒开双腿疯狂进出爽爽爽视频 | 日韩av无码一区二区三区 | 久精品国产欧美亚洲色aⅴ大片 | a在线观看免费网站大全 | 天天躁日日躁狠狠躁免费麻豆 | 国产精品久久久久7777 | 亚洲中文字幕在线无码一区二区 | 亚洲精品成人福利网站 | 熟妇人妻无码xxx视频 | 久久亚洲精品成人无码 | 人妻少妇精品视频专区 | 日本护士xxxxhd少妇 | 日本饥渴人妻欲求不满 | 东京热男人av天堂 | 在线观看欧美一区二区三区 | 老头边吃奶边弄进去呻吟 | 国产午夜精品一区二区三区嫩草 | 天堂一区人妻无码 | 精品乱子伦一区二区三区 | 亚洲啪av永久无码精品放毛片 | 2020久久超碰国产精品最新 | 亚洲经典千人经典日产 | 亚洲经典千人经典日产 | 亲嘴扒胸摸屁股激烈网站 | 又紧又大又爽精品一区二区 | 国产九九九九九九九a片 | 亚洲色欲色欲天天天www | 欧美一区二区三区视频在线观看 | 亚洲欧美精品aaaaaa片 | 黑人巨大精品欧美黑寡妇 | 久久久精品成人免费观看 | 亚洲色偷偷偷综合网 | 久久国产精品_国产精品 | 国产艳妇av在线观看果冻传媒 | 久久精品中文字幕大胸 | 中文字幕av伊人av无码av | 久久人人爽人人爽人人片av高清 | 小sao货水好多真紧h无码视频 | 亚洲人成网站在线播放942 | 丰满少妇熟乱xxxxx视频 | 色五月丁香五月综合五月 | 俺去俺来也www色官网 | 精品无码一区二区三区爱欲 | 露脸叫床粗话东北少妇 | 亚洲人成影院在线观看 | 一区二区传媒有限公司 | 中文精品久久久久人妻不卡 | 少女韩国电视剧在线观看完整 | 99精品久久毛片a片 | 亚洲成熟女人毛毛耸耸多 | 成人欧美一区二区三区黑人免费 | 18禁黄网站男男禁片免费观看 | 女高中生第一次破苞av | 少妇人妻av毛片在线看 | 又紧又大又爽精品一区二区 | 图片小说视频一区二区 | 性欧美大战久久久久久久 | 国产无遮挡又黄又爽免费视频 | 成人片黄网站色大片免费观看 | 特黄特色大片免费播放器图片 | √8天堂资源地址中文在线 | 帮老师解开蕾丝奶罩吸乳网站 | 无套内谢的新婚少妇国语播放 | 无套内谢老熟女 | 亚洲日韩av一区二区三区四区 | 欧美猛少妇色xxxxx | 一二三四社区在线中文视频 | 国产网红无码精品视频 | 免费人成网站视频在线观看 | 国产美女极度色诱视频www | 亚洲国产午夜精品理论片 | 激情国产av做激情国产爱 | 天天综合网天天综合色 | 日本丰满熟妇videos | 成人试看120秒体验区 | 亚洲成熟女人毛毛耸耸多 | 成人三级无码视频在线观看 | 高潮喷水的毛片 | 国产香蕉尹人视频在线 | 久久99精品久久久久婷婷 | 精品少妇爆乳无码av无码专区 | 亚洲精品一区二区三区在线观看 | 精品人妻人人做人人爽夜夜爽 | 国产精品自产拍在线观看 | 任你躁国产自任一区二区三区 | 偷窥日本少妇撒尿chinese | 1000部啪啪未满十八勿入下载 | 麻花豆传媒剧国产免费mv在线 | 婷婷五月综合激情中文字幕 | 国产va免费精品观看 | 波多野42部无码喷潮在线 | 奇米综合四色77777久久 东京无码熟妇人妻av在线网址 | 亚洲中文字幕乱码av波多ji | 秋霞特色aa大片 | 久久亚洲中文字幕无码 | 亚洲日本一区二区三区在线 | 亚洲欧洲中文日韩av乱码 | 亚洲精品国产精品乱码视色 | 国产精品18久久久久久麻辣 | 人妻少妇精品久久 | 国产免费久久精品国产传媒 | 国产高清不卡无码视频 | 国产成人精品三级麻豆 | 国产热a欧美热a在线视频 | 久久伊人色av天堂九九小黄鸭 | 少妇激情av一区二区 | 内射爽无广熟女亚洲 | 日韩av无码一区二区三区不卡 | 日日躁夜夜躁狠狠躁 | 国产精品内射视频免费 | 青草视频在线播放 | 欧美成人午夜精品久久久 | 国产精品人人妻人人爽 | 国产精品久久久久9999小说 | 一区二区三区高清视频一 | 亚洲精品久久久久久一区二区 | 亚洲中文字幕在线观看 | 久久天天躁夜夜躁狠狠 | 国产精品毛多多水多 | 国产三级久久久精品麻豆三级 | 国产色视频一区二区三区 | 成人亚洲精品久久久久 | 欧美国产亚洲日韩在线二区 | 国产精品二区一区二区aⅴ污介绍 | 欧美人妻一区二区三区 | 成年美女黄网站色大免费全看 | 亚洲一区二区三区 | 18无码粉嫩小泬无套在线观看 | 久久久久久亚洲精品a片成人 | 精品国产麻豆免费人成网站 | 亚洲国产av美女网站 | 亚洲精品中文字幕 | 扒开双腿吃奶呻吟做受视频 | 丰满人妻翻云覆雨呻吟视频 | 午夜成人1000部免费视频 | 国产成人无码av在线影院 | 国产三级精品三级男人的天堂 | 中文字幕乱妇无码av在线 | 国产亚洲精品久久久久久大师 | 精品厕所偷拍各类美女tp嘘嘘 | 国产成人一区二区三区别 | 国产国产精品人在线视 | 欧洲熟妇精品视频 | 乱码av麻豆丝袜熟女系列 | 国产精品国产自线拍免费软件 | 暴力强奷在线播放无码 | 丰满人妻一区二区三区免费视频 | 中文字幕乱码亚洲无线三区 | 精品国产乱码久久久久乱码 | 久久国产精品精品国产色婷婷 | 自拍偷自拍亚洲精品被多人伦好爽 | 亚洲日韩av一区二区三区四区 | 夜精品a片一区二区三区无码白浆 | 久久99精品国产.久久久久 | 少妇性l交大片欧洲热妇乱xxx | 国产精品国产三级国产专播 | 人妻夜夜爽天天爽三区 | 欧美一区二区三区视频在线观看 | 无码人妻久久一区二区三区不卡 | 中文久久乱码一区二区 | 蜜臀aⅴ国产精品久久久国产老师 | 日韩av无码一区二区三区不卡 | 亚洲精品久久久久久久久久久 | 亚洲热妇无码av在线播放 | 亚洲一区二区三区 | 国产农村妇女高潮大叫 | 性色av无码免费一区二区三区 | 亚洲成a人一区二区三区 | 久久精品人妻少妇一区二区三区 | 在线精品国产一区二区三区 | 中文字幕无码免费久久99 | 亚洲s码欧洲m码国产av | 无码av最新清无码专区吞精 | 久久午夜无码鲁丝片秋霞 | 纯爱无遮挡h肉动漫在线播放 | 精品人妻中文字幕有码在线 | 伦伦影院午夜理论片 | 亚洲区小说区激情区图片区 | 人人妻人人澡人人爽欧美精品 | 久久久久99精品成人片 | 日韩精品无码一区二区中文字幕 | 色偷偷人人澡人人爽人人模 | 暴力强奷在线播放无码 | 成熟女人特级毛片www免费 | 大屁股大乳丰满人妻 | 高潮毛片无遮挡高清免费视频 | 在线播放免费人成毛片乱码 | 性啪啪chinese东北女人 | 樱花草在线社区www | 正在播放老肥熟妇露脸 | 国产成人无码av一区二区 | 午夜福利不卡在线视频 | 国产成人一区二区三区在线观看 | 麻豆国产丝袜白领秘书在线观看 | 日韩人妻少妇一区二区三区 | 久久精品国产精品国产精品污 | 中文字幕日产无线码一区 | 成人三级无码视频在线观看 | 国产乱码精品一品二品 | 精品厕所偷拍各类美女tp嘘嘘 | 色一情一乱一伦一区二区三欧美 | 日韩欧美群交p片內射中文 | 国产成人综合在线女婷五月99播放 | 最近的中文字幕在线看视频 | 欧美三级不卡在线观看 | 伊人久久大香线蕉av一区二区 | 国产乱码精品一品二品 | 色综合视频一区二区三区 | 波多野结衣av一区二区全免费观看 | 97色伦图片97综合影院 | 国产精品无码mv在线观看 | 1000部啪啪未满十八勿入下载 | 人妻少妇精品无码专区二区 | 亚洲日本一区二区三区在线 | 99久久99久久免费精品蜜桃 | 大肉大捧一进一出好爽视频 | 狂野欧美性猛交免费视频 | 少女韩国电视剧在线观看完整 | 成人av无码一区二区三区 | 中文字幕av无码一区二区三区电影 | 精品国产一区二区三区四区在线看 | 国产精品久久久久久无码 | 亚洲精品综合五月久久小说 | 久久伊人色av天堂九九小黄鸭 | 色婷婷久久一区二区三区麻豆 | 无遮无挡爽爽免费视频 | 国产办公室秘书无码精品99 | 午夜无码区在线观看 | 又大又硬又黄的免费视频 | 风流少妇按摩来高潮 | 伦伦影院午夜理论片 | 性欧美疯狂xxxxbbbb | 久久精品人人做人人综合试看 | 少妇性l交大片欧洲热妇乱xxx | 妺妺窝人体色www婷婷 | 日韩欧美中文字幕在线三区 | 天干天干啦夜天干天2017 | 999久久久国产精品消防器材 | 波多野结衣乳巨码无在线观看 | 国产在线aaa片一区二区99 | 国产精品久久久久久亚洲毛片 | 亚洲精品国偷拍自产在线观看蜜桃 | 国产人妻精品一区二区三区不卡 | 国产在线一区二区三区四区五区 | 国产成人精品无码播放 | 亚洲成a人片在线观看无码3d | 99精品视频在线观看免费 | 97资源共享在线视频 | 在线亚洲高清揄拍自拍一品区 | 扒开双腿吃奶呻吟做受视频 | 久久人妻内射无码一区三区 | 乱中年女人伦av三区 | 日日躁夜夜躁狠狠躁 | 狠狠色欧美亚洲狠狠色www | 欧美人与牲动交xxxx | 国产高清av在线播放 | 激情五月综合色婷婷一区二区 | 国产激情综合五月久久 | 人妻有码中文字幕在线 | 亚洲天堂2017无码中文 | 精品 日韩 国产 欧美 视频 | 夜精品a片一区二区三区无码白浆 | 暴力强奷在线播放无码 | 国产精品美女久久久网av | 无码一区二区三区在线 | 男女下面进入的视频免费午夜 | 欧美性色19p | 夜夜夜高潮夜夜爽夜夜爰爰 | 波多野结衣aⅴ在线 | 免费无码av一区二区 | 98国产精品综合一区二区三区 | 免费国产黄网站在线观看 | 国产真实乱对白精彩久久 | 日本va欧美va欧美va精品 | 精品欧洲av无码一区二区三区 | 给我免费的视频在线观看 | 国产精品久久精品三级 | 噜噜噜亚洲色成人网站 | 欧美丰满老熟妇xxxxx性 | 国产日产欧产精品精品app | 国产精品毛片一区二区 | 人妻中文无码久热丝袜 | 蜜臀av在线观看 在线欧美精品一区二区三区 | 精品成人av一区二区三区 | 在线播放亚洲第一字幕 | 亚洲性无码av中文字幕 | 国产绳艺sm调教室论坛 | 亚洲国产精华液网站w | 综合激情五月综合激情五月激情1 | 亚洲欧美日韩综合久久久 | 亚洲成在人网站无码天堂 | 欧洲熟妇色 欧美 | 成人免费视频一区二区 | av无码久久久久不卡免费网站 | 国产av一区二区精品久久凹凸 | 欧美国产日韩久久mv | 蜜臀av在线播放 久久综合激激的五月天 | 国产香蕉97碰碰久久人人 | 无码人中文字幕 | 午夜不卡av免费 一本久久a久久精品vr综合 | 成人精品天堂一区二区三区 | 最新国产麻豆aⅴ精品无码 | 狠狠亚洲超碰狼人久久 | 熟妇人妻无码xxx视频 | 国产精品久久久久影院嫩草 | 亚洲色欲色欲欲www在线 | 国产成人精品必看 | 丰满少妇高潮惨叫视频 | 欧美老人巨大xxxx做受 | 色婷婷香蕉在线一区二区 | 久久精品无码一区二区三区 | 午夜精品一区二区三区在线观看 | 荫蒂被男人添的好舒服爽免费视频 | 亚洲精品国产精品乱码不卡 | 少妇一晚三次一区二区三区 | 欧洲精品码一区二区三区免费看 | 无码免费一区二区三区 | 国产激情无码一区二区app | 高中生自慰www网站 | 日日摸天天摸爽爽狠狠97 | 成人欧美一区二区三区黑人 | 中文字幕av日韩精品一区二区 | 成人免费视频一区二区 | 久久aⅴ免费观看 | 亚洲经典千人经典日产 | 青青草原综合久久大伊人精品 | 亚洲s色大片在线观看 | 国内揄拍国内精品人妻 | 野狼第一精品社区 | 亚洲码国产精品高潮在线 | 无码人妻精品一区二区三区下载 | 国产sm调教视频在线观看 | 色婷婷av一区二区三区之红樱桃 | v一区无码内射国产 | 久久精品一区二区三区四区 | 日韩人妻无码一区二区三区久久99 | 丝袜 中出 制服 人妻 美腿 | 亚洲午夜福利在线观看 | 国产又粗又硬又大爽黄老大爷视 | 人人爽人人澡人人高潮 | 2019nv天堂香蕉在线观看 | 日韩无套无码精品 | 亚洲精品国偷拍自产在线麻豆 | 激情内射亚州一区二区三区爱妻 | 色综合久久88色综合天天 | 宝宝好涨水快流出来免费视频 | 国产免费观看黄av片 | 无码av最新清无码专区吞精 | 国产性猛交╳xxx乱大交 国产精品久久久久久无码 欧洲欧美人成视频在线 | 1000部啪啪未满十八勿入下载 | 久久久久99精品成人片 | 999久久久国产精品消防器材 | 99久久99久久免费精品蜜桃 | 中文字幕无码免费久久99 | 国产亚洲视频中文字幕97精品 | 东京热男人av天堂 | 国产超级va在线观看视频 | 婷婷五月综合缴情在线视频 | 麻豆人妻少妇精品无码专区 | 国产亲子乱弄免费视频 | 波多野结衣高清一区二区三区 | 在线欧美精品一区二区三区 | 麻豆蜜桃av蜜臀av色欲av | 人妻插b视频一区二区三区 | 亚洲国产成人a精品不卡在线 | 女人被男人爽到呻吟的视频 | 亚洲欧美国产精品专区久久 | 丰满少妇熟乱xxxxx视频 | 久久精品国产一区二区三区肥胖 | 天天综合网天天综合色 | 国产精品美女久久久久av爽李琼 | 久久久久免费精品国产 | 久久精品国产99久久6动漫 | 久久 国产 尿 小便 嘘嘘 | 成人免费无码大片a毛片 | 亚洲精品综合五月久久小说 | 亚洲呦女专区 | 国产精品va在线播放 | 国产在线aaa片一区二区99 | 三上悠亚人妻中文字幕在线 | 免费男性肉肉影院 | 性色欲情网站iwww九文堂 | 亚洲精品美女久久久久久久 | 婷婷五月综合激情中文字幕 | 亚洲精品一区二区三区大桥未久 | 国产亚洲精品久久久久久国模美 | 久久天天躁狠狠躁夜夜免费观看 | 成人毛片一区二区 | 日本一区二区三区免费高清 | 精品欧美一区二区三区久久久 | 人人妻人人澡人人爽欧美一区九九 | 色婷婷综合中文久久一本 | 成人精品一区二区三区中文字幕 | 四虎国产精品免费久久 | 精品国偷自产在线视频 | 欧美日韩一区二区综合 | 娇妻被黑人粗大高潮白浆 | 国产手机在线αⅴ片无码观看 | 国产成人无码a区在线观看视频app | 久久精品国产一区二区三区肥胖 | 日本乱偷人妻中文字幕 | 国产精品二区一区二区aⅴ污介绍 | 国产亚洲欧美日韩亚洲中文色 | 奇米综合四色77777久久 东京无码熟妇人妻av在线网址 | 无套内谢的新婚少妇国语播放 | 日本在线高清不卡免费播放 | 成 人 网 站国产免费观看 | 熟妇女人妻丰满少妇中文字幕 | 久久成人a毛片免费观看网站 | 伊人久久大香线蕉亚洲 | 色综合久久久久综合一本到桃花网 | 草草网站影院白丝内射 | 妺妺窝人体色www婷婷 | 女人被男人躁得好爽免费视频 | 乱人伦人妻中文字幕无码 | 午夜精品久久久久久久久 | 亚洲精品成人av在线 | 蜜桃av蜜臀av色欲av麻 999久久久国产精品消防器材 | 成年女人永久免费看片 | 中文久久乱码一区二区 | 国产精品亚洲专区无码不卡 | 天堂亚洲免费视频 | 97精品人妻一区二区三区香蕉 | 亚洲伊人久久精品影院 | 亚洲成a人片在线观看无码3d | 亚洲一区av无码专区在线观看 | 色一情一乱一伦一区二区三欧美 | 日欧一片内射va在线影院 | 亚洲欧美国产精品久久 | 人妻与老人中文字幕 | 国产69精品久久久久app下载 | 精品无人国产偷自产在线 | а√天堂www在线天堂小说 | 久久久久久a亚洲欧洲av冫 | 亚洲精品中文字幕久久久久 | 欧美一区二区三区视频在线观看 | 日本爽爽爽爽爽爽在线观看免 | 三上悠亚人妻中文字幕在线 | www国产精品内射老师 | 婷婷综合久久中文字幕蜜桃三电影 | 啦啦啦www在线观看免费视频 | 国产在线一区二区三区四区五区 | www一区二区www免费 | 永久免费精品精品永久-夜色 | 亚洲成熟女人毛毛耸耸多 | 欧美真人作爱免费视频 | 国产成人精品久久亚洲高清不卡 | 亚洲成在人网站无码天堂 | 亚洲国产精品无码久久久久高潮 | 成年美女黄网站色大免费视频 | 小鲜肉自慰网站xnxx | 亚洲男女内射在线播放 | 亚洲 a v无 码免 费 成 人 a v | 国产精品久久久久7777 | 国内精品久久久久久中文字幕 | 偷窥村妇洗澡毛毛多 | 成人精品视频一区二区三区尤物 | 亚洲成在人网站无码天堂 | 中文亚洲成a人片在线观看 | 国产亚洲精品久久久久久国模美 | 精品偷拍一区二区三区在线看 | 大肉大捧一进一出好爽视频 | 麻豆md0077饥渴少妇 | 婷婷五月综合缴情在线视频 | 亚洲 欧美 激情 小说 另类 | 亚洲一区二区三区四区 | 久久五月精品中文字幕 | 午夜性刺激在线视频免费 | 亚洲日本在线电影 | 内射后入在线观看一区 | 一个人看的www免费视频在线观看 | 国产农村乱对白刺激视频 | www国产亚洲精品久久网站 | 美女扒开屁股让男人桶 | 免费中文字幕日韩欧美 | 日韩av无码中文无码电影 | 国产精品美女久久久久av爽李琼 | 4hu四虎永久在线观看 | 狠狠综合久久久久综合网 | 牛和人交xxxx欧美 | 亚洲 a v无 码免 费 成 人 a v | 图片区 小说区 区 亚洲五月 | 蜜臀av在线观看 在线欧美精品一区二区三区 | 国产熟妇高潮叫床视频播放 | 无码午夜成人1000部免费视频 | www成人国产高清内射 | 欧美成人免费全部网站 | 激情内射亚州一区二区三区爱妻 | 亚洲欧美日韩综合久久久 | 免费观看激色视频网站 | yw尤物av无码国产在线观看 | 亚洲色www成人永久网址 | 无码人妻少妇伦在线电影 | 欧美老人巨大xxxx做受 | 久久综合狠狠综合久久综合88 | 久久久无码中文字幕久... | 国产内射老熟女aaaa | 国产精品视频免费播放 | 久久亚洲a片com人成 | 亚洲成av人综合在线观看 | 欧美日韩精品 | 在线观看国产午夜福利片 | 一本精品99久久精品77 | 乌克兰少妇xxxx做受 | 国产亚洲人成a在线v网站 | 日日摸天天摸爽爽狠狠97 | 无码人妻少妇伦在线电影 | 动漫av网站免费观看 | 国产精品资源一区二区 | 正在播放东北夫妻内射 | a在线亚洲男人的天堂 | 国产成人无码av在线影院 | 精品无码国产自产拍在线观看蜜 | 精品厕所偷拍各类美女tp嘘嘘 | 色综合久久久久综合一本到桃花网 | 欧美xxxx黑人又粗又长 | 国模大胆一区二区三区 | 国产精品久久久久7777 | 蜜桃av抽搐高潮一区二区 | 性欧美熟妇videofreesex | 日韩欧美中文字幕在线三区 | 在线播放免费人成毛片乱码 | 99国产欧美久久久精品 | 国产成人久久精品流白浆 | 奇米影视7777久久精品人人爽 | 久久久久久国产精品无码下载 | 熟妇人妻激情偷爽文 | 久久久婷婷五月亚洲97号色 | 久久99久久99精品中文字幕 | 色婷婷欧美在线播放内射 | 欧美一区二区三区 | 精品一区二区不卡无码av | 精品亚洲韩国一区二区三区 | 欧美一区二区三区 | 中国女人内谢69xxxxxa片 | 少妇一晚三次一区二区三区 | 无码国模国产在线观看 | 亚洲综合色区中文字幕 | 欧美国产亚洲日韩在线二区 | 国产在线无码精品电影网 | 十八禁视频网站在线观看 | 少妇高潮一区二区三区99 | 一本色道婷婷久久欧美 | 暴力强奷在线播放无码 | 欧美一区二区三区 | 丁香啪啪综合成人亚洲 | 日韩欧美群交p片內射中文 | 丰满妇女强制高潮18xxxx | 性欧美熟妇videofreesex | 久久久久av无码免费网 | 99久久婷婷国产综合精品青草免费 | 久久aⅴ免费观看 | 久久午夜无码鲁丝片午夜精品 | www国产亚洲精品久久网站 | 免费人成网站视频在线观看 | 久久精品中文闷骚内射 | 特黄特色大片免费播放器图片 | 国产成人久久精品流白浆 | 无遮无挡爽爽免费视频 | 国产成人人人97超碰超爽8 | 99re在线播放 | 99视频精品全部免费免费观看 | 日欧一片内射va在线影院 | 国产成人人人97超碰超爽8 | 一个人看的视频www在线 | 黑人粗大猛烈进出高潮视频 | 无码任你躁久久久久久久 | 麻豆果冻传媒2021精品传媒一区下载 | 国产成人一区二区三区在线观看 | 无码成人精品区在线观看 | 亚洲大尺度无码无码专区 | 久久99精品国产.久久久久 | 扒开双腿疯狂进出爽爽爽视频 | 久在线观看福利视频 | 亚洲精品一区二区三区婷婷月 | 十八禁真人啪啪免费网站 | 成人一区二区免费视频 | 一本久道久久综合婷婷五月 | 欧美老熟妇乱xxxxx | 色婷婷综合中文久久一本 | 久久精品一区二区三区四区 | 色婷婷综合激情综在线播放 | 国产免费观看黄av片 | 99re在线播放 | 99精品视频在线观看免费 | 国产一区二区三区日韩精品 | 99久久精品无码一区二区毛片 | 国产熟妇另类久久久久 | 欧美一区二区三区视频在线观看 | 无码国模国产在线观看 | 久久精品国产精品国产精品污 | 性色欲情网站iwww九文堂 | 天海翼激烈高潮到腰振不止 | 欧美放荡的少妇 | 亚洲七七久久桃花影院 | 国产麻豆精品精东影业av网站 | 18禁止看的免费污网站 | 乱码av麻豆丝袜熟女系列 | 国产成人无码午夜视频在线观看 | 一本色道久久综合狠狠躁 | 无码毛片视频一区二区本码 | 中文字幕日产无线码一区 | 国产偷国产偷精品高清尤物 | 又粗又大又硬又长又爽 | 四虎永久在线精品免费网址 | 亚洲国产午夜精品理论片 | 国产成人午夜福利在线播放 | 亚洲熟悉妇女xxx妇女av | 欧美老人巨大xxxx做受 | 欧美刺激性大交 | 精品久久久久香蕉网 | 扒开双腿吃奶呻吟做受视频 | 中文字幕av伊人av无码av | 亚洲精品国产品国语在线观看 | 丰满少妇熟乱xxxxx视频 | 3d动漫精品啪啪一区二区中 | 亚洲成av人影院在线观看 | 成人无码视频在线观看网站 | 天天爽夜夜爽夜夜爽 | 中文字幕av日韩精品一区二区 | 玩弄少妇高潮ⅹxxxyw | 一本大道伊人av久久综合 | 国产深夜福利视频在线 | 丰满少妇高潮惨叫视频 | 人人妻人人澡人人爽精品欧美 | 97资源共享在线视频 | 精品aⅴ一区二区三区 | 亚洲小说春色综合另类 | 亚洲精品美女久久久久久久 | 牲欲强的熟妇农村老妇女视频 | 蜜臀av无码人妻精品 | 国产精品人妻一区二区三区四 | 亚洲日本va中文字幕 | 任你躁国产自任一区二区三区 | 国产精品久免费的黄网站 | 久久综合九色综合欧美狠狠 | 曰韩少妇内射免费播放 | 精品久久久久久亚洲精品 | 国产va免费精品观看 | 国产在线aaa片一区二区99 | 国产精品怡红院永久免费 | 波多野结衣高清一区二区三区 | 蜜臀aⅴ国产精品久久久国产老师 | 精品国产一区二区三区四区 | 成人无码精品1区2区3区免费看 | 精品无人区无码乱码毛片国产 | 国产成人一区二区三区在线观看 | 大色综合色综合网站 | 97资源共享在线视频 | 国产激情综合五月久久 | √8天堂资源地址中文在线 | 欧美成人家庭影院 | 精品成人av一区二区三区 | 亚洲高清偷拍一区二区三区 | 少妇无套内谢久久久久 | 人妻天天爽夜夜爽一区二区 | 一二三四在线观看免费视频 | 国产亚洲日韩欧美另类第八页 | 性生交片免费无码看人 | 久久久久成人精品免费播放动漫 | 麻豆国产97在线 | 欧洲 | 国产手机在线αⅴ片无码观看 | 亚洲一区二区三区四区 | 又黄又爽又色的视频 | 欧美成人高清在线播放 | 国产国语老龄妇女a片 | 18无码粉嫩小泬无套在线观看 | 黑人粗大猛烈进出高潮视频 | 亚洲人成网站在线播放942 | 国产亚洲tv在线观看 | 全黄性性激高免费视频 | 青草青草久热国产精品 | 久久国产劲爆∧v内射 | 麻豆蜜桃av蜜臀av色欲av | 久久99精品国产.久久久久 | 人人妻人人澡人人爽欧美一区 | 无码一区二区三区在线观看 | 老熟妇乱子伦牲交视频 | 国产尤物精品视频 | 亚洲精品一区二区三区在线观看 | 国产在线精品一区二区高清不卡 | 最新国产乱人伦偷精品免费网站 | 无套内谢的新婚少妇国语播放 | 国产网红无码精品视频 | 97夜夜澡人人双人人人喊 | 精品国产一区av天美传媒 | 少妇的肉体aa片免费 | 亚洲精品美女久久久久久久 | 思思久久99热只有频精品66 | 亚洲国产精品一区二区美利坚 | 亚洲 激情 小说 另类 欧美 | 亚洲国产精华液网站w | 丰满肥臀大屁股熟妇激情视频 | 国产国产精品人在线视 | 国产精品毛片一区二区 | 中文字幕无码人妻少妇免费 | 内射老妇bbwx0c0ck | 久久久久久a亚洲欧洲av冫 | 国产精品内射视频免费 | 久久亚洲精品中文字幕无男同 | 无套内谢老熟女 | 国色天香社区在线视频 | 夫妻免费无码v看片 | 国产精品自产拍在线观看 | 永久免费观看美女裸体的网站 | 亚洲人成网站免费播放 | 国产精品久久久久久久9999 | 成人欧美一区二区三区黑人 | 久久久国产一区二区三区 | 精品成人av一区二区三区 | 亚洲s码欧洲m码国产av | 亚洲第一无码av无码专区 | 中文无码伦av中文字幕 | 国产明星裸体无码xxxx视频 | 亚洲精品国产a久久久久久 | 亚洲综合另类小说色区 | 草草网站影院白丝内射 | 搡女人真爽免费视频大全 | 狠狠噜狠狠狠狠丁香五月 | 国产成人无码一二三区视频 | 激情国产av做激情国产爱 | 久久人妻内射无码一区三区 | 亚洲国产成人av在线观看 | 大肉大捧一进一出视频出来呀 | 少妇性荡欲午夜性开放视频剧场 | 久久99精品国产麻豆蜜芽 | 久久久婷婷五月亚洲97号色 | 亚洲综合色区中文字幕 | 国产热a欧美热a在线视频 | 无遮挡国产高潮视频免费观看 | 亚欧洲精品在线视频免费观看 | 中国女人内谢69xxxx | 亚洲欧美国产精品专区久久 | 人妻少妇被猛烈进入中文字幕 | 国产偷国产偷精品高清尤物 | 奇米影视888欧美在线观看 | 日本精品高清一区二区 | 偷窥村妇洗澡毛毛多 | 精品国产一区二区三区四区在线看 | 亚洲成在人网站无码天堂 | 无码av免费一区二区三区试看 | 亚洲精品国产第一综合99久久 | 无码一区二区三区在线观看 | 少妇人妻偷人精品无码视频 | 日韩人妻无码中文字幕视频 | 亚洲国产精品一区二区美利坚 | 亚洲の无码国产の无码步美 | 中文字幕人妻丝袜二区 | 日韩av无码一区二区三区不卡 | 亚洲国产精品美女久久久久 | 日日摸日日碰夜夜爽av | 18黄暴禁片在线观看 | 亚洲精品成人福利网站 | 日韩视频 中文字幕 视频一区 | 青青青爽视频在线观看 | 国产精品手机免费 | 日韩精品成人一区二区三区 | 中文字幕 人妻熟女 | 老熟妇乱子伦牲交视频 | 国产三级精品三级男人的天堂 | 精品午夜福利在线观看 | 日日干夜夜干 | 午夜精品久久久久久久久 | 成人免费无码大片a毛片 | 欧美国产亚洲日韩在线二区 | 国产精品沙发午睡系列 | 久久久久国色av免费观看性色 | 自拍偷自拍亚洲精品10p | 欧美人与牲动交xxxx | 国产成人无码区免费内射一片色欲 | 高潮毛片无遮挡高清免费 | 久久国产劲爆∧v内射 | 日本一区二区三区免费播放 | 中文字幕日产无线码一区 | 女人被男人躁得好爽免费视频 | 丰满诱人的人妻3 | 特黄特色大片免费播放器图片 | 精品久久久无码中文字幕 | 国产莉萝无码av在线播放 | 精品久久久久香蕉网 | 波多野结衣乳巨码无在线观看 | 久久精品无码一区二区三区 | 好男人www社区 | 色综合天天综合狠狠爱 | 国产美女精品一区二区三区 | 欧美性生交活xxxxxdddd | 国产精品无码永久免费888 | 亚洲国产午夜精品理论片 | 亚洲精品中文字幕乱码 | 黄网在线观看免费网站 | 男女下面进入的视频免费午夜 | 在线观看免费人成视频 | 老熟妇乱子伦牲交视频 | 特大黑人娇小亚洲女 | 日韩精品一区二区av在线 | 色狠狠av一区二区三区 | 奇米影视7777久久精品人人爽 | 国产热a欧美热a在线视频 | 欧美性生交xxxxx久久久 | 日韩精品a片一区二区三区妖精 | 亚洲中文字幕久久无码 | 国产肉丝袜在线观看 | 荫蒂被男人添的好舒服爽免费视频 | 欧美日本精品一区二区三区 | 亚洲国产精品毛片av不卡在线 | 精品无码一区二区三区的天堂 | 亚洲の无码国产の无码步美 | 久久国语露脸国产精品电影 | 妺妺窝人体色www婷婷 | 亚洲日本va午夜在线电影 | 少妇人妻偷人精品无码视频 | 亚洲s色大片在线观看 | 亚洲乱码国产乱码精品精 | 狠狠亚洲超碰狼人久久 | 青青久在线视频免费观看 | 东京热一精品无码av | 精品日本一区二区三区在线观看 | 亚洲日本va中文字幕 | 国产两女互慰高潮视频在线观看 | 中国女人内谢69xxxxxa片 | 久久久久免费精品国产 | 国产麻豆精品一区二区三区v视界 | 午夜精品久久久久久久久 | 久久婷婷五月综合色国产香蕉 | 在线亚洲高清揄拍自拍一品区 | 亚洲精品一区二区三区大桥未久 | 久久久久人妻一区精品色欧美 | 精品水蜜桃久久久久久久 | 一本色道婷婷久久欧美 | 国产性生大片免费观看性 | 国产午夜福利100集发布 | 国产绳艺sm调教室论坛 | 亚洲а∨天堂久久精品2021 | 香蕉久久久久久av成人 | 久久精品视频在线看15 | 欧美成人免费全部网站 | 澳门永久av免费网站 | 极品嫩模高潮叫床 | 天天爽夜夜爽夜夜爽 | 亚洲国产精品成人久久蜜臀 | 国产内射爽爽大片视频社区在线 | 日本饥渴人妻欲求不满 | 国产av久久久久精东av | 丝袜人妻一区二区三区 | 图片小说视频一区二区 | 国产av久久久久精东av | 亚洲天堂2017无码 | 亚洲另类伦春色综合小说 | 国产精品99久久精品爆乳 | 乱人伦人妻中文字幕无码久久网 | 女人被男人爽到呻吟的视频 | 2019午夜福利不卡片在线 | 人人妻人人澡人人爽精品欧美 | 秋霞特色aa大片 | 3d动漫精品啪啪一区二区中 | 青青青手机频在线观看 | 中文字幕乱码人妻无码久久 | 国产97在线 | 亚洲 | 久久亚洲a片com人成 | 久久99精品久久久久久 | 久久国产精品偷任你爽任你 | 99久久婷婷国产综合精品青草免费 | 亚洲毛片av日韩av无码 | 国产成人精品一区二区在线小狼 | 99在线 | 亚洲 | 婷婷五月综合缴情在线视频 | 国产精品久久久 | 国产成人无码a区在线观看视频app | 狠狠亚洲超碰狼人久久 | 国产精品福利视频导航 | 无码人妻丰满熟妇区毛片18 | 亚洲精品久久久久久一区二区 | 人人爽人人澡人人高潮 | 久久国产自偷自偷免费一区调 | 黑人粗大猛烈进出高潮视频 | 亚洲精品国产品国语在线观看 | 98国产精品综合一区二区三区 | 国产无遮挡吃胸膜奶免费看 | 欧美日韩人成综合在线播放 | 欧美乱妇无乱码大黄a片 | 老司机亚洲精品影院无码 | 久久精品成人欧美大片 | 曰韩少妇内射免费播放 | 成人影院yy111111在线观看 | 无码播放一区二区三区 | 国产明星裸体无码xxxx视频 | 在线精品国产一区二区三区 | 欧美黑人乱大交 | 全球成人中文在线 | 亚洲国产精品毛片av不卡在线 | 国内精品久久久久久中文字幕 | 国产又爽又猛又粗的视频a片 | 久久久久久国产精品无码下载 | 少妇被黑人到高潮喷出白浆 | 国产xxx69麻豆国语对白 | 中文字幕人妻无码一区二区三区 | 国产熟女一区二区三区四区五区 | 日本xxxx色视频在线观看免费 | 精品久久综合1区2区3区激情 | 一本久久伊人热热精品中文字幕 | 成人影院yy111111在线观看 | 性色av无码免费一区二区三区 | 捆绑白丝粉色jk震动捧喷白浆 | 麻豆精产国品 | 亚洲欧美日韩综合久久久 | 久久人人97超碰a片精品 | 亚洲阿v天堂在线 | 亚洲阿v天堂在线 | 又紧又大又爽精品一区二区 | 久久久av男人的天堂 | 天天摸天天透天天添 | 国产三级久久久精品麻豆三级 | 久久久精品成人免费观看 | 欧美精品国产综合久久 | 久久精品国产大片免费观看 | 丝袜 中出 制服 人妻 美腿 | 99视频精品全部免费免费观看 | 黑人大群体交免费视频 | 久久人人爽人人人人片 | 亚洲国产精品无码一区二区三区 | 久久久久久久女国产乱让韩 | 西西人体www44rt大胆高清 | 久久久久久国产精品无码下载 | 精品国产一区二区三区av 性色 | 少妇被黑人到高潮喷出白浆 | 亚洲欧美国产精品久久 | 亚洲精品国偷拍自产在线观看蜜桃 | 天天拍夜夜添久久精品大 | 漂亮人妻洗澡被公强 日日躁 | 久久精品一区二区三区四区 | 亚洲国产精品美女久久久久 | 九九综合va免费看 | 无码国产激情在线观看 | 中国女人内谢69xxxxxa片 | 国产精品多人p群无码 | 熟女俱乐部五十路六十路av | 18禁黄网站男男禁片免费观看 | 极品尤物被啪到呻吟喷水 | 色诱久久久久综合网ywww | 国产精品久久久久7777 | 日本爽爽爽爽爽爽在线观看免 | 99riav国产精品视频 | 久久国产精品萌白酱免费 | 亚洲精品欧美二区三区中文字幕 | 久久久www成人免费毛片 | 99久久久国产精品无码免费 | 亚洲国产午夜精品理论片 | 国产超级va在线观看视频 | 国产亚洲tv在线观看 | 国产麻豆精品一区二区三区v视界 | 人人妻人人澡人人爽欧美精品 | 久久久久se色偷偷亚洲精品av | 西西人体www44rt大胆高清 | 久久zyz资源站无码中文动漫 | 人人妻人人澡人人爽人人精品 | 少妇的肉体aa片免费 | 九九热爱视频精品 | 午夜成人1000部免费视频 | 东京无码熟妇人妻av在线网址 | 日本www一道久久久免费榴莲 | www一区二区www免费 | 日韩在线不卡免费视频一区 | 色 综合 欧美 亚洲 国产 | 亚洲无人区一区二区三区 | 日韩亚洲欧美中文高清在线 | 精品国产aⅴ无码一区二区 | 亚洲精品一区二区三区四区五区 | 欧美人与物videos另类 | 澳门永久av免费网站 | 中国女人内谢69xxxx | 国产人妻精品一区二区三区不卡 | 99re在线播放 | 无码国内精品人妻少妇 | 国内揄拍国内精品人妻 | 蜜臀aⅴ国产精品久久久国产老师 | 高清国产亚洲精品自在久久 | 熟妇人妻激情偷爽文 | 任你躁国产自任一区二区三区 | 国产亚洲tv在线观看 | 骚片av蜜桃精品一区 | 奇米综合四色77777久久 东京无码熟妇人妻av在线网址 | 成年女人永久免费看片 | 99久久婷婷国产综合精品青草免费 | 欧美人与禽zoz0性伦交 | 熟妇人妻无码xxx视频 | 中文字幕乱码人妻二区三区 | 亚洲自偷自偷在线制服 | 精品欧洲av无码一区二区三区 | 国产av人人夜夜澡人人爽麻豆 | 人人爽人人爽人人片av亚洲 | 欧美亚洲国产一区二区三区 | 搡女人真爽免费视频大全 | 久久www免费人成人片 | 中文字幕无码人妻少妇免费 | 无码人妻少妇伦在线电影 | 天堂在线观看www | 亚洲熟妇色xxxxx欧美老妇y | 精品一区二区三区无码免费视频 | 国产小呦泬泬99精品 | 欧美一区二区三区视频在线观看 | 久久久久免费看成人影片 | 亚洲自偷自拍另类第1页 | 欧美性猛交内射兽交老熟妇 | 久久国产精品二国产精品 | 成 人 免费观看网站 | 人妻aⅴ无码一区二区三区 | 国产97在线 | 亚洲 | 色综合久久久久综合一本到桃花网 | 精品国产一区二区三区四区在线看 | 久久久国产一区二区三区 | 99久久精品国产一区二区蜜芽 | 久久精品国产一区二区三区肥胖 | 国产一精品一av一免费 | 乱码午夜-极国产极内射 | 亚洲中文字幕va福利 | 国产手机在线αⅴ片无码观看 | 久久国产36精品色熟妇 | 亚洲欧美精品aaaaaa片 | 麻豆国产人妻欲求不满谁演的 | 国产热a欧美热a在线视频 | 国产精品自产拍在线观看 | 亚洲人成网站免费播放 | 国产免费无码一区二区视频 | 久久久久久久人妻无码中文字幕爆 | 欧美放荡的少妇 | 99久久婷婷国产综合精品青草免费 | 久久99精品国产麻豆蜜芽 | 欧美三级a做爰在线观看 | 久久99精品国产麻豆蜜芽 | 乱码av麻豆丝袜熟女系列 | 无码帝国www无码专区色综合 | 欧美xxxxx精品 | 男女作爱免费网站 | 精品aⅴ一区二区三区 | 高清不卡一区二区三区 | 亚洲男人av香蕉爽爽爽爽 | 一二三四在线观看免费视频 | 装睡被陌生人摸出水好爽 | 兔费看少妇性l交大片免费 | 永久黄网站色视频免费直播 | 国产真实乱对白精彩久久 | 成 人 免费观看网站 | 久久亚洲日韩精品一区二区三区 | 欧美真人作爱免费视频 | 欧美老熟妇乱xxxxx | 亚洲 欧美 激情 小说 另类 | 九九在线中文字幕无码 | 国产亚洲精品久久久久久国模美 | 亚洲va中文字幕无码久久不卡 | 思思久久99热只有频精品66 | 亚洲 高清 成人 动漫 | 精品一区二区三区无码免费视频 | 波多野结衣av在线观看 | 亚洲毛片av日韩av无码 | 无码乱肉视频免费大全合集 | av无码不卡在线观看免费 | 少妇久久久久久人妻无码 | 久久久成人毛片无码 | 又湿又紧又大又爽a视频国产 | 亚洲精品一区二区三区大桥未久 | 亚洲国产av精品一区二区蜜芽 | 国产av人人夜夜澡人人爽麻豆 | 国产一区二区三区四区五区加勒比 | 97久久超碰中文字幕 | 天天躁夜夜躁狠狠是什么心态 | 中文字幕人妻丝袜二区 | 中文字幕日产无线码一区 | 伊人久久大香线蕉av一区二区 | 丰满肥臀大屁股熟妇激情视频 | 国产精品久久久午夜夜伦鲁鲁 | 三上悠亚人妻中文字幕在线 | 一本大道久久东京热无码av | 动漫av网站免费观看 | 国产成人无码av片在线观看不卡 | 国产人妻久久精品二区三区老狼 | 婷婷色婷婷开心五月四房播播 | 欧美高清在线精品一区 | 亚洲精品一区二区三区婷婷月 | 久久久久久a亚洲欧洲av冫 | 日韩精品成人一区二区三区 | 小泽玛莉亚一区二区视频在线 | 性色欲网站人妻丰满中文久久不卡 | 天天做天天爱天天爽综合网 | 日本一区二区三区免费高清 | 亚洲精品中文字幕久久久久 | 欧美日韩久久久精品a片 | 久久亚洲精品中文字幕无男同 | 55夜色66夜色国产精品视频 | 精品欧洲av无码一区二区三区 | 国产一精品一av一免费 | 黑人玩弄人妻中文在线 | 嫩b人妻精品一区二区三区 | 日韩精品无码一本二本三本色 | 图片小说视频一区二区 | 国产成人综合在线女婷五月99播放 | 丝袜 中出 制服 人妻 美腿 | 巨爆乳无码视频在线观看 | 久久精品国产一区二区三区肥胖 | 亚洲 欧美 激情 小说 另类 | 国产综合久久久久鬼色 | 久久久久久国产精品无码下载 | 国产超碰人人爽人人做人人添 | 无码人妻久久一区二区三区不卡 | 亚洲自偷精品视频自拍 | 老头边吃奶边弄进去呻吟 | 99精品久久毛片a片 | 正在播放老肥熟妇露脸 | 色狠狠av一区二区三区 | 色一情一乱一伦一区二区三欧美 | 一本久久a久久精品vr综合 | 国产精品a成v人在线播放 | 亚洲精品一区三区三区在线观看 | 亚洲综合另类小说色区 | 久久人人爽人人爽人人片ⅴ | 日本熟妇人妻xxxxx人hd | 天天av天天av天天透 | 色欲久久久天天天综合网精品 | 久久精品国产大片免费观看 | 四虎国产精品一区二区 | 亚洲码国产精品高潮在线 | 国产亚洲欧美在线专区 | 99久久人妻精品免费二区 | 午夜肉伦伦影院 | www国产亚洲精品久久久日本 | 99久久精品午夜一区二区 | 日韩精品a片一区二区三区妖精 | 亚洲精品成人av在线 | а√天堂www在线天堂小说 | www一区二区www免费 | 理论片87福利理论电影 | 欧美日本精品一区二区三区 | 一本大道伊人av久久综合 | 亚洲精品久久久久中文第一幕 | 少妇人妻av毛片在线看 | 最新国产麻豆aⅴ精品无码 | 久久亚洲a片com人成 | 精品无码一区二区三区爱欲 | 欧美人与物videos另类 | 成人无码精品1区2区3区免费看 | 少妇无码av无码专区在线观看 | 99久久久国产精品无码免费 | 最新版天堂资源中文官网 | 日韩视频 中文字幕 视频一区 | 国产无遮挡又黄又爽免费视频 | 国产精品怡红院永久免费 | a片在线免费观看 | 亚洲国产精品毛片av不卡在线 | 捆绑白丝粉色jk震动捧喷白浆 | 国产精品久久久久久亚洲影视内衣 | 国产午夜精品一区二区三区嫩草 | 亚洲国产欧美日韩精品一区二区三区 | 纯爱无遮挡h肉动漫在线播放 | 欧美激情综合亚洲一二区 | 国产欧美亚洲精品a | 欧美日韩一区二区综合 | 亚洲熟女一区二区三区 | 中文字幕无码人妻少妇免费 | 波多野结衣 黑人 | 一本久久伊人热热精品中文字幕 | 午夜理论片yy44880影院 | 国产精品亚洲综合色区韩国 | 日日摸夜夜摸狠狠摸婷婷 | 青青青手机频在线观看 | 97夜夜澡人人爽人人喊中国片 | 日韩av激情在线观看 | 亚洲另类伦春色综合小说 | 国产成人精品优优av | а√天堂www在线天堂小说 | 国产人妻人伦精品1国产丝袜 | 久久亚洲国产成人精品性色 | 亚洲一区二区三区播放 | 国产成人无码区免费内射一片色欲 | 麻豆国产人妻欲求不满谁演的 | 国产精品久久久久久亚洲毛片 | 国产成人av免费观看 | а√天堂www在线天堂小说 | 99麻豆久久久国产精品免费 | 99国产欧美久久久精品 | 精品久久8x国产免费观看 | 日韩精品一区二区av在线 | 亚洲精品综合五月久久小说 | 国产内射老熟女aaaa | 内射白嫩少妇超碰 | 无码人妻出轨黑人中文字幕 | 午夜男女很黄的视频 | 大色综合色综合网站 | 在线播放亚洲第一字幕 | 国产精品.xx视频.xxtv | 国产精品免费大片 | 女人被爽到呻吟gif动态图视看 | 国产在线精品一区二区三区直播 | 日韩精品无码一本二本三本色 | 黑人巨大精品欧美黑寡妇 | 久久99精品久久久久久 | 妺妺窝人体色www婷婷 | 亚洲精品成人福利网站 | 久久久久99精品成人片 | 国语精品一区二区三区 | 中文字幕无码热在线视频 | 欧美精品一区二区精品久久 | 日本一卡2卡3卡四卡精品网站 | 亚洲理论电影在线观看 | 亚洲精品久久久久中文第一幕 | 中文字幕精品av一区二区五区 | 亚洲经典千人经典日产 | 国产亚洲精品久久久久久久久动漫 | 97色伦图片97综合影院 | 国产特级毛片aaaaaa高潮流水 | 成人av无码一区二区三区 | 熟女体下毛毛黑森林 | 九一九色国产 | 一二三四社区在线中文视频 | 久久综合给合久久狠狠狠97色 | 波多野结衣aⅴ在线 | 亚洲自偷自拍另类第1页 | 丰满人妻被黑人猛烈进入 | 97久久超碰中文字幕 | 精品欧美一区二区三区久久久 | 亚洲日韩中文字幕在线播放 | 人妻aⅴ无码一区二区三区 | 久久亚洲a片com人成 | 亚洲第一无码av无码专区 | 色综合久久久无码网中文 | 亚洲中文字幕无码中字 | 麻豆md0077饥渴少妇 | 又紧又大又爽精品一区二区 | 国产精品无套呻吟在线 | 少妇厨房愉情理9仑片视频 | 色综合天天综合狠狠爱 | 中国女人内谢69xxxxxa片 | 四虎影视成人永久免费观看视频 | 日欧一片内射va在线影院 | 国产熟女一区二区三区四区五区 |