最简示例 简介洗牌函数 之 __shfl_sync() cuda 之 shuffle
生活随笔
收集整理的這篇文章主要介紹了
最简示例 简介洗牌函数 之 __shfl_sync() cuda 之 shuffle
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
雖然叫做洗牌函數(shù),但是效果只是跟真正的洗牌有點(diǎn)像,但還是不一樣。撲克牌不可以復(fù)制,但這里的shuffle函數(shù)很多時(shí)候會(huì)復(fù)制牌值。
這個(gè)函數(shù)具有廣播功能,當(dāng)同一個(gè)warp內(nèi)的其他線程想獲得某一個(gè)特定線程中的某個(gè)局部變量的值時(shí),使用__shfl_sync()。
__shfl_sync(0xffffffff, value, 9, 32);//把 laneId == 9線程的 value變量的值, return 廣播給其他線程
#include <cuda_runtime.h> //#include <iostream>#include <stdio.h> #define warpSize 32__global__ void bcast(float* a, float* b) {int laneId = threadIdx.x & 0x1f;float value;value = a[laneId];value = __shfl_sync(0xffffffff, value, 9, 32);//把 laneId == 9線程的value變量的值, return 廣播給其他線程b[laneId] = value;}void printVector(char* desc, float* ptr_vec, unsigned int n){printf("%s =\n", desc);for(int i=0; i<n; i++){printf(" %5.2f ",ptr_vec[i]);}printf("\n"); }int main() {float* a_h = NULL;float* a_d = NULL;float* b_h = NULL;float* b_d = NULL;a_h = (float*)malloc(warpSize*sizeof(float));b_h = (float*)malloc(warpSize*sizeof(float));for(int i=0; i<warpSize; i++){a_h[i] = i+100.0;}for(int i=0; i<warpSize; i++){b_h[i] = i+100;}printVector("a_h",a_h, warpSize);printVector("b_h",b_h, warpSize);cudaMalloc((void**)&a_d, warpSize*sizeof(float));cudaMalloc((void**)&b_d, warpSize*sizeof(float));cudaMemcpy(a_d, a_h, warpSize*sizeof(float), cudaMemcpyHostToDevice); cudaMemcpy(b_d, b_h, warpSize*sizeof(float), cudaMemcpyHostToDevice); bcast<<< 1, warpSize >>>(a_d, b_d);cudaDeviceSynchronize();cudaMemcpy(b_h, b_d, warpSize*sizeof(float), cudaMemcpyDeviceToHost);printVector("b_d", b_h, warpSize);cudaFree(a_d);cudaFree(b_d);return 0; }?
總結(jié)
以上是生活随笔為你收集整理的最简示例 简介洗牌函数 之 __shfl_sync() cuda 之 shuffle的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Linux 痕迹清理
- 下一篇: python中的snip用法_简单说说S