在使用动态共享内存分配的情况下更正内核调用
Correct kernel call in case of using dynamic shared memory allocation
我没有找到任何关于如何在同一内核中分配静态和动态共享内存的信息,或者让我们更准确地问:
如何调用在编译时仅部分知道需要分配的共享内存量的内核?
例如,提到分配共享内存,如何进行动态分配变得非常明显。
但是让我们假设我有以下内核:
__global__ void MyKernel(int Float4ArrSize, int FloatArrSize)
{
__shared__ float Arr1[256];
__shared__ char Arr2[256];
extern __shared_ float DynamArr[];
float4* DynamArr1 = (float4*) DynamArr;
float* DynamArr = (float*) &DynamArr1[Float4ArrSize];
// do something
}
内核启动:
int SharedMemorySize = Float4ArrSize + FloatArrSize;
SubstractKernel<<< numBlocks, threadsPerBlock, SharedMemorySize, stream>>>(Float4ArrSize, FloatArrSize)
实际上,我无法弄清楚编译器如何将共享内存的大小仅链接到我想要动态分配的部分。还是参数SharedMemorySize
表示每个块的共享内存总量,所以我需要计算静态共享内存的大小(int SharedMemorySize = Float4ArrSize + FloatArrSize + 256*sizeof(float)+ 256*sizeof(char)
(?
请启发我或只是简单地指出一些代码片段。提前非常感谢。
干杯格雷格
引用编程指南,SharedMemorySize
指定了共享内存中除了静态分配的内存之外,每个块为此调用动态分配的字节数;此动态分配的内存由任何声明为外部数组的变量。 SharedMemorySize
是一个可选参数,默认为 0。
所以如果我明白你想做什么,它应该看起来像
extern __shared_ float DynamArr[];
float* DynamArr1 = DynamArr;
float4* DynamArr2 = (float4*) &DynamArr[DynamArr1_size];
请注意,我没有测试它。
这是非常有用的帖子。
来自 CUDA 编程指南:
[内核] 的执行配置是通过插入表达式函数名称和
<<< Dg, Db, Ns, S >>>
括号参数列表,其中:
- [...]
Ns
的类型为size_t
,除了静态分配的内存外,还指定了共享内存中每个块为此调用动态分配的字节数; 此动态分配的内存由声明为外部数组的任何变量使用,如__shared__
中所述;Ns
是一个可选参数,默认为 0;
因此,基本上,您在内核调用期间指定的共享内存大小与动态分配的共享内存相关。您不必在共享内存中手动添加静态分配的数组的大小。
相关文章:
- 在没有太多条件句的情况下,我如何避免被零除
- 为什么在没有显式默认构造函数的情况下,将另一个结构封装在联合中作为成员的结构不能编译
- 在未初始化映射的情况下,将值插入到映射的映射中
- 是默认情况下分配给char数组常量的值
- 为什么我不能在不创建字符串变量的情况下使用函数的字符串输出
- 如何在不产生任何垃圾的情况下获得C中的像素
- 在已经使用Git的情况下减少编译时间
- 为什么在Windows上的VS 2019和Clang 9中"size_t"在没有标题的情况下工作
- 如何在没有信号的情况下从C++执行QML插槽
- 如何在不知道向量大小的情况下输入向量内部的向量?
- 为什么在某些情况下不写入此文件?
- 为什么Mat类的两个对象可以在不重载运算符+的情况下添加
- 在没有Xcode的情况下在Mac捆绑包中嵌入框架
- UE4-如何在给定4个屏幕坐标的情况下缩放纹理或材质
- 为什么需要复制构造函数,在哪些情况下它们非常有用
- 在C++中如何在没有pow的情况下进行基础计算
- 松弛原子与无同步情况下的记忆连贯性
- 在 Windows 上,是否可以让 dll 在不使用 PATH 环境变量的情况下在另一个文件夹中查找依赖项?
- 在编写类似的CUDA内核时,如何避免在没有宏的情况下重复自己
- 在使用动态共享内存分配的情况下更正内核调用