关于连续迭代器的 SIMD 指令
SIMD instructions on contiguous iterators
我有两个v1
和T
类型的向量v2
,并希望创建一个使用 SIMD 指令执行v1 & v2
并将输出存储在向量out
中的函数。
理想情况下,我们将拥有的是
first1 = v1.begin();
last1 = v1.end();
first2 = v2.begin();
d_first = out.begin();
while(distance(first1, last1) >= 64 / sizeof(T)) {
*d_first = _mm512_and_epi32(first1, first2);
first1 += 64 / sizeof(T)
first2 += 64 / sizeof(T)
d_first1 += 64 / sizeof(T)
}
auto and_op = [](T a, T b) {return a & b;};
std::transform(first1, last1, first2, d_first, and_op);
上面代码的第一个问题是它适用于 32 位整数。我不确定它是否希望这些对齐,如果是这样,那么如果代码是类似char
或short int
的东西,那么代码将无法T
工作。
第二个问题是我无法正确转换向量迭代器。_mm512_and_epi32
需要两个__m512i
变量作为输入。每当我传递一个连续的迭代器或地址时,编译器总是抱怨说没有从我传递给"'__m512i"(向量 8 '长长'值(">
我能够通过做来让它工作
__m512i _a = _mm512_load_epi64(&*first1.base());
__m512i _b = _mm512_load_epi64(&*first2.base());'
__m512i _res = _mm512_and_epi64(_a, _b);
_mm512_store_epi64(&*d_first.base(), _res);
但我不确定加载/存储操作的成本有多高,或者我是否可以跳过它们。
在大型连续阵列上运行 SIMD 指令的正确方法是什么?有没有办法让它适用于所有类型的连续数组,无论它们的对齐方式如何?
通常你只是从容器上的.data()
中获取一个指针,然后手动循环到数组上,就像 C 样式数组一样。 或者递增索引并执行_mm512_loadu_si512(&vec[i])
. (除非您为std::vector
使用了自定义对齐的分配器,否则不应假定数据已对齐。 但是,当前硬件上的 512 位向量从确保数据对齐中受益匪浅,例如可能是 20%,而 256 位向量则为几%(。
如果保证取消引用迭代器方式是对基础数组元素的引用,而不是标量临时元素,则它可能是安全的。
加载/存储内部函数并不比通过取消引用某些内容从内存隐式加载更昂贵;您需要从 asm 的角度思考以了解成本。 编译器必须发出矢量加载指令(或 ALU 指令的内存源操作数(并存储指令,以使 asm 对内存中的数据进行操作。_mm_load_si128
vs._mm_loadu_si128
基本上只是为了将对齐信息传达给编译器并强制转换。 并表达对其他 C 类型(如 memcpy(的严格混叠和对齐安全访问。
- 使用std::multimap迭代器创建std::list
- 来自 std::list 的迭代器 .end() 按预期返回"0xcdcdcdcdcdcdcdcd"但 .begin()
- C++中带有List类的迭代器Segfault
- 如何在c++迭代器类型中包装std::chrono
- 集合上的输出迭代器:assign和increment迭代器
- Boost Spirit,获取迭代器内部语义动作
- 对于set上的循环-获取next元素迭代器
- 为什么output_editor Concept不需要output_e迭代器标记
- c++17文件系统::recursive_directory迭代器()在mac上没有给出这样的目录,但在windows上
- 使用迭代器时如何访问对象在向量中的位置?
- std::vector::迭代器是否可以合法地作为指针
- 跟随整数索引列表的自定义类迭代器
- 不明白迭代器,引用和指针失效,一个例子
- 我可以使用反向迭代器作为ForwardIt吗
- ESP8266单片机矢量迭代器的C++问题
- 如何在C++中将迭代器作为函数参数传递
- 是否应避免从非常量迭代器转换为常量迭代器?
- 如何在 c++ 中将字符串迭代器变量传递给函数?
- 关于连续迭代器的 SIMD 指令
- 特征 使用 SIMD 迭代稀疏矩阵中的内部迭代器