迭代卡拉苏巴算法在C++中使用OpenACC并行化和矢量化

Iterative Karatsuba algorithm parallelized and vectorized using OpenACC in C++

本文关键字：OpenACC 并行化矢量化 C++ 苏巴算法迭代更新时间：2023-10-16

我正在尝试在C++中使用OpenACC并行化Karatsuba算法的迭代版本。我想问一下如何矢量化内部for loop.我的编译器向我显示了有关该循环的以下消息：

526, Complex loop carried dependence of result-> prevents parallelization
     Loop carried dependence of result-> prevents parallelization
     Loop carried backward dependence of result-> prevents vectorization

这里是两个嵌套循环的代码：

#pragma acc kernels num_gangs(1024) num_workers(32) copy (result[0:2*size-1]) copyin(A[0:size],$
{
    #pragma acc loop gang 
    for (TYPE position = 1; position < 2 * (size - 1); position++) {
        // for even coefficient add Di/2
        if (position % 2 == 0)
            result[position] += D[position / 2];
        TYPE start = (position >= size) ? (position % size ) + 1  : 0;
        TYPE end = (position + 1) / 2;
        // inner loop: sum (Dst) - sum (Ds + Dt) where s+t=i
        #pragma acc loop worker 
        for(TYPE inner = start; inner < end; inner++){
            result[position] += (A[inner] + A[position - inner]) * (B[inner] + B[position - inn$
            result[position] -= (D[inner] + D[position - inner]);
        }
    }
}

实际上，我不确定是否可以对其进行矢量化。但如果是这样，我就无法意识到我做错了什么。谢谢

"复杂循环携带结果的依赖性"问题是由于指针混叠造成的。编译器无法判断"result"指向的对象是否与其他指针的对象之一重叠。

作为C++扩展，您可以将 C99 "restrict" 关键字添加到数组的声明中。这将向编译器断言指针不会别名。

或者，您可以在循环指令上添加 OpenACC "独立"子句，以告知编译器循环没有任何依赖项。

请注意，OpenACC 不支持数组缩减，因此除非您修改代码以使用标量，否则您将无法并行化"内部"循环。像这样：

rtmp = result[position];
#pragma acc loop vector reduction(+:rtmp) 
    for(TYPE inner = start; inner < end; inner++){
        rtmp += (A[inner] + A[position - inner]) * (B[inner] + B[position - inn$
        rtmp -= (D[inner] + D[position - inner]);
    }
result[position] = rtmp;