如何使用 Cupy 将矩阵的伪逆应用于 N 个数组？-解网

问：

我想将 cupy.linalg.pinv 函数应用于 100k 数组，但与 Numpy 等效项相比，我发现性能有所下降。

我的 100k 数组是二维数组。主要数组形状为：（100000， 1397， 2）

# generating the data
arr = np.random.uniform(low=0.5, high=1500.20,size=(1397, 2))
main_arr = np.tile(arr, (100000, 1, 1))

使用 NumPy，该函数在 11 秒内运行：

%%time
np.linalg.pinv(main_arr)

CPU 时间：用户 22.5 秒，sys：27.4 秒，总计：49.9 秒墙体时间： 11 秒

在使用 Cupy 的 GPU 上，完全等效的会给出错误：

main_arr_gpu = cp.array(main_arr) # Copy the array to the GPU
cp.linalg.pinv(main_arr_gpu)

LinAlgError：给定三维数组。数组必须是二维的

因此，我使用列表推导来遍历数组：

%%time
[cp.linalg.pinv(arr_gpu) for arr_gpu in main_arr_gpu]

CPU 时间：用户 22.3 秒，系统：0 ns，总计：22.3 秒壁挂时间： 22.3 s

它需要 22.3 秒，是 CPU 时间的两倍，不计算数据传输。Nvidia-smi 命令确认 GPU 正在工作。

那么，为什么CPU的性能更好呢？

注意：CPU 是 Intel 24 Core 13900k，GPU 是 Nvidia RTX 4090

numpy 矩阵-逆 cupy

如何使用 Cupy 将矩阵的伪逆应用于 N 个数组？