提问人:Emman Sun 提问时间:11/8/2023 最后编辑:Peter CordesEmman Sun 更新时间:11/8/2023 访问量:55
如何在 Go 的汇编程序中更高效地将全局数据加载到 NEON 寄存器?
How to load global data to NEON registers more efficiently in Go's Assembler?
问:
arm64 asm 代码中有 p256one 全局数据作为示例:
DATA p256one<>+0x00(SB)/8, $0x0000000000000001
DATA p256one<>+0x08(SB)/8, $0xffffffff00000000
DATA p256one<>+0x10(SB)/8, $0xffffffffffffffff
DATA p256one<>+0x18(SB)/8, $0x00000000fffffffe
GLOBL p256one<>(SB), 8, $32
我需要将 p256one<>(SB) 加载到 V0 和 V1 寄存器中。目前我使用以下方法:
LDP p256one<>+0x00(SB), (R0, R1)
LDP p256one<>+0x10(SB), (R2, R3)
VMOV R0, V0.D[0]
VMOV R1, V0.D[1]
VMOV R2, V1.D[0]
VMOV R3, V1.D[1]
这里总共使用了六个指令。我们知道我们可以按如下方式加载内存数据:
VLD1 (R0), [V0.B16, V1.B16]
但似乎我们不能用同样的方法加载全局数据。
那么,在 Go 的汇编代码中,有没有更有效的方法将全局数据加载到 NEON 寄存器中呢?
答:
2赞
fuz
11/8/2023
#1
尝试将地址加载到寄存器中,然后从该地址加载:
MOVD $p256one<>(SB), R0
VLD1 (R0), [V0.B16, V1.B16]
评论
0赞
Emman Sun
11/8/2023
谢谢@fuz,它奏效了!
0赞
fuz
11/8/2023
总是乐意帮忙。
评论