提问人:Eric 提问时间:3/28/2022 最后编辑:Peter MortensenEric 更新时间:3/30/2022 访问量:7870
为什么比较匹配的字符串比比较不匹配的字符串更快?[复制]
Why is it faster to compare strings that match than strings that do not? [duplicate]
问:
以下是两个测量值:
timeit.timeit('"toto"=="1234"', number=100000000)
1.8320042459999968
timeit.timeit('"toto"=="toto"', number=100000000)
1.4517491540000265
如您所见,比较两个匹配的字符串比比较两个大小相同但不匹配的字符串要快。
这非常令人不安:在字符串比较期间,我认为 Python 正在逐个字符测试字符串,因此测试时间应该比它需要四次测试才能进行不匹配比较的时间更长。也许比较是基于哈希的,但在这种情况下,两种比较的时间应该是相同的。"toto"=="toto"
"toto"=="1234"
为什么?
答:
结合我的评论和@khelwood的评论:
TL的;DR:
在分析两个比较的字节码时,它揭示了 和 字符串被分配给同一个对象。因此,前期身份检查(在 C 级别)是提高比较速度的原因。'time'
'time'
相同对象分配的原因是,作为实现细节,CPython 实习字符串仅包含“名称字符”(即字母和下划线字符)。这将启用对象的身份检查。
字节码:
import dis
In [24]: dis.dis("'time'=='time'")
1 0 LOAD_CONST 0 ('time') # <-- same object (0)
2 LOAD_CONST 0 ('time') # <-- same object (0)
4 COMPARE_OP 2 (==)
6 RETURN_VALUE
In [25]: dis.dis("'time'=='1234'")
1 0 LOAD_CONST 0 ('time') # <-- different object (0)
2 LOAD_CONST 1 ('1234') # <-- different object (1)
4 COMPARE_OP 2 (==)
6 RETURN_VALUE
分配时间:
“加速”也可以在使用时间测试的分配中看到。将两个变量赋值(和比较)到同一字符串比将两个变量赋值(和比较)到不同的字符串要快。为了进一步支持这一假设,底层逻辑正在执行对象比较。这在下一节中得到证实。
In [26]: timeit.timeit("x='time'; y='time'; x==y", number=1000000)
Out[26]: 0.0745926329982467
In [27]: timeit.timeit("x='time'; y='1234'; x==y", number=1000000)
Out[27]: 0.10328884399496019
Python 源码:
正如 @mkrieger1 和 @Masklinn 在他们的评论中提供的,源代码首先执行指针比较,如果 ,则立即返回。unicodeobject.c
True
int
_PyUnicode_Equal(PyObject *str1, PyObject *str2)
{
assert(PyUnicode_CheckExact(str1));
assert(PyUnicode_CheckExact(str2));
if (str1 == str2) { // <-- Here
return 1;
}
if (PyUnicode_READY(str1) || PyUnicode_READY(str2)) {
return -1;
}
return unicode_compare_eq(str1, str2);
}
附录:
评论
_PyUnicode_Equal
中看到这一点。第 11139 行到第 11141 行是 C 级相等性检查,这意味着它比较指针,在 CPython 中是恒等比较(因为两个对象不能重叠,因此不能具有相同的指针)。
比较匹配的字符串并不总是更快。相反,比较共享相同 ID 的字符串总是更快。身份确实是这种行为的原因的证据(正如@S3DEV精彩解释的那样):
>>> x = 'toto'
>>> y = 'toto'
>>> z = 'totoo'[:-1]
>>> w = 'abcd'
>>> x == y
True
>>> x == z
True
>>> x == w
False
>>> id(x) == id(y)
True
>>> id(x) == id(z)
False
>>> id(x) == id(w)
False
>>> timeit.timeit('x==y', number=100000000, globals={'x': x, 'y': y})
3.893762200000083
>>> timeit.timeit('x==z', number=100000000, globals={'x': x, 'z': z})
4.205321462000029
>>> timeit.timeit('x==w', number=100000000, globals={'x': x, 'w': w})
4.15288594499998
比较具有相同 id 的对象总是更快(从示例中可以看出,与 和 之间的比较相比,and 之间的比较速度较慢,这是因为 和 不共享相同的 id)。x
z
x
y
x
z
评论
x is y
id(x) == id(y)
int
x is y
评论
"toto" is "toto"