如何通过 cython 将 numpy 数组列表传递给 C++

how to pass list of numpy arrays to c++ via cython

本文关键字：C++ 列表数组何通过 cython numpy 更新时间：2023-10-16

我想将 2d numpy 数组的列表传递给 c++ 函数。我的第一个想法是使用std::vector<float *>来接收数组列表，但我找不到传递列表的方法。

c++ 函数如下所示：

double cpp_func(const std::vector<const float*>& vec) {
return 0.0;
}

Cython函数是这样的：

cpdef py_func(list list_of_array):
cdef vector[float*] vec
cdef size_t i
cdef size_t n = len(list_of_array)
for i in range(n):
vec.push_back(&list_of_array[i][0][0])  # error: Cannot take address of Python object
return cpp_func(vec)

我尝试过使用list[float[:,:]]声明list_of_array，但也不起作用。

我将稍微更改您的函数的签名：

对于每个 numpy-array ，函数还需要知道该数组中的元素数量
数据double *而不是float *，因为这是默认np.float-类型对应的数据。但这可以根据您的需求进行调整。

这导致了以下 c++ 接口/代码(为了方便起见，我对 Cython>=0.28 使用 C 逐字代码功能(：

%%cython --cplus -c=-std=c++11
from libcpp.vector cimport vector
cdef extern from *:
"""
struct Numpy1DArray{
double *ptr;
int   size;
};
static double cpp_func(const std::vector<Numpy1DArray> &vec){
// Fill with life to see, that it really works:
double res = 0.0;
for(const auto &a : vec){
if(a.size>0)
res+=a.ptr[0];
}
return res;
}   
"""
cdef struct Numpy1DArray:
double *ptr
int size          
double cpp_func(const vector[Numpy1DArray] &vec)
...

struct Numpy1DArray只是捆绑了 np 数组所需的信息，因为这不仅仅是指向连续数据的指针。

幼稚版

现在，编写包装器函数非常简单：

%%cython --cplus -c=-std=c++11
....
def call_cpp_func(list_of_arrays):
cdef Numpy1DArray ar_descr
cdef vector[Numpy1DArray] vec
cdef double[::1] ar
for ar in list_of_arrays:  # coerse elements to double[::1]
ar_descr.size = ar.size
if ar.size > 0:
ar_descr.ptr = &ar[0]
else:
ar_descr.ptr = NULL  # set to nullptr
vec.push_back(ar_descr)
return cpp_func(vec)

有一些事情值得注意：

你需要强制列表

的元素实现缓冲区协议，否则&ar[0]显然不起作用，因为Cython希望ar[0]是一个Python对象。顺便说一句，这就是你错过的。
我选择了Cython的内存视图(即double[::1](作为胁迫的目标。与np.ndarray相比，它的优点是它也适用于array.array并且还会自动检查数据是否连续(这就是::1的含义(。
一个常见的陷阱是访问空ndarray的ar[0]- 必须保护此访问。
此代码不是线程安全的。另一个线程可能会使指针无效，例如通过就地调整 numpy 数组的大小或完全删除 numpy 数组。
IIRC，对于 Python 2，您必须cimport array代码才能与array.array一起使用。

最后，这里有一个测试，代码是否有效(列表中还有一个array.array来说明这一点(：

import array
import numpy as np
lst = (np.full(3, 1.0), np.full(0, 2.0), array.array('d', [2.0]))
call_cpp_func(lst)  # 3.0 as expected!

线程安全版本

上面的代码也可以用线程安全的 manier 编写。可能的问题有：

另一个线程可以通过调用例如list_of_arrays.clear()来触发 numpy-array 的删除 - 之后就不再有数组的引用，它们将被删除。这意味着只要我们使用指针，我们就需要保留对每个输入数组的引用。
另一个线程可以调整数组的大小，从而使指针无效。这意味着我们必须使用缓冲区协议 - 它的__getbuffer__锁定缓冲区，因此一旦我们完成计算，它就不会失效并通过__releasebuffer__释放缓冲区。

Cython 的内存视图可用于锁定缓冲区并保留输入数组的引用：

%%cython --cplus -c=-std=c++11
....
def call_cpp_func_safe(list_of_arrays):
cdef Numpy1DArray ar_descr
cdef vector[Numpy1DArray] vec
cdef double[::1] ar
cdef list stay_alive = []
for ar in list_of_arrays:  # coerse elements to double[::1]
stay_alive.append(ar)    # keep arrays alive and locked
ar_descr.size = ar.size
if ar.size > 0:
ar_descr.ptr = &ar[0]
else:
ar_descr.ptr = NULL  # set to nullptr
vec.push_back(ar_descr)
return cpp_func(vec)

开销很小：将内存视图添加到列表中 - 安全的价格。

释放吉尔

最后一个改进：当计算cpp_fun时，gil 可以释放，这意味着我们必须将cpp_func导入为 nogil 并释放它，为什么要调用函数：

%%cython --cplus -c=-std=c++11
from libcpp.vector cimport vector
cdef extern from *:
....          
double cpp_func(const vector[Numpy1DArray] &vec) nogil
...
def call_cpp_func(list_of_arrays):
...
with nogil:
result = cpp_func(vec)       
return result

Cython会发现，result是双类型，因此能够在调用cpp_func时释放gil。