如何借助 avx2 内部函数为 Zen2 编写高效的 GEMM 微内核?
作者:kaisong 提问时间:11/7/2022
我希望能够编写快速内核,当表达式足够计算密集时,这些内核实际上可以充分利用*(*90% 也可以)使用我的硬件的计算能力。顺便说一句,在上一个问题中,我问了同样的内存性能而不是计算性能。 对于手头的问...
矩阵乘法 问答列表
作者:kaisong 提问时间:11/7/2022
我希望能够编写快速内核,当表达式足够计算密集时,这些内核实际上可以充分利用*(*90% 也可以)使用我的硬件的计算能力。顺便说一句,在上一个问题中,我问了同样的内存性能而不是计算性能。 对于手头的问...
作者:tparker 提问时间:11/11/2017
如果是密集的 m x n 矩阵并且是 n 分量向量,则乘积是 的 m 分量向量,由下式给出。这种乘法的一个简单实现是Mvu = Mvu[i] = sum(M[i,j] * v[j], 1 <= j <...
作者:singa1994 提问时间:5/28/2019
我有两个numpy数组(image和environment map), MatA MatB 两者都有形状(256, 512, 3) 当我用numpy进行乘法(元素)时: prod = np....
作者:singa1994 提问时间:6/11/2019
我有两个数组: A B 数组包含一批RGB图像,形状为:A [batch, Width, Height, 3] 而 Array 包含对图像进行“类似变换”操作所需的系数,其形状为:B [...
作者:stats_noob 提问时间:10/21/2021
我正在使用 R 编程语言。 我有以下数据: 1) 平均向量(4 行 1 列) 4 个变量(x1、x2、x3、x4) 5.0060022 3.4280049 1.4620007 ...
作者:KiraHoneybee 提问时间:1/7/2023
我有一个对象,它需要旋转两个轴(为简单起见,我们称它们为 X 轴和 Y 轴,但要理解它们可以是完全任意的)。 所以,像这样的东西: Matrix aMat; aMat.RotateAroundAx...
作者:spellard 提问时间:7/13/2023
几个简单的问题: 我想构建以下类型的矩阵:X N = 1000 A = seq(1, N, 1) B = A X = A %*% t(rep(1,N)) - rep(1,N) %*% t(B) ...
作者:galib 提问时间:8/11/2023
我正在尝试将我的MATLAB代码转换为Python。我必须将两个矩阵相乘并计算乘法结果的特征向量和特征值。下面是两个矩阵 P = [0.153833459882762 0.7335526315789...
作者:Blade 提问时间:9/28/2023
在神经网络中,卷积运算通常使用过滤器(或内核)执行,该过滤器在输入数据上滑动并计算每个位置的点积以生成输出特征图。这些运算通常以元素乘法和求和的形式实现,而不是显式矩阵乘法。但是,可以将卷积运算编写为...
作者:Another User 提问时间:10/2/2023
我正在 Fortran 中使用矩阵和向量进行基本的线性代数计算。我已将编译器从 gfortran 更改为 ifort,我发现当我的矩阵变得太大时(特别是当它们的大小为 724 x 724 时,类型为 ...