什么比 np.sum 和 numpy 布尔运算符更有效？-解网

问：

我在快速运行代码时遇到了一些问题。

在我的代码上使用逐行分析器后，我发现以下行是我大部分效率低下的来源：

import numpy as np
import datetime

timestamps = np.array(timestamps)
mask = (minTime <= timestamps) & (timestamps <= maxTime)
count = np.sum(mask)

timestamps以日期时间列表开头，并且是单个日期时间。minTime

时间戳的示例值：

minTime = datetime.datetime(2020, 5, 21, 2, 27, 26)

timestamps = [datetime.datetime(2020, 5, 21, 2, 27, 26), datetime.datetime(2020, 5, 21, 2, 27, 26), 
 datetime.datetime(2020, 5, 21, 2, 27, 26), datetime.datetime(2020, 5, 21, 2, 30, 55),
 datetime.datetime(2020, 5, 21, 2, 30, 55), datetime.datetime(2020, 5, 21, 2, 30, 55),
 datetime.datetime(2020, 5, 21, 2, 34, 26), datetime.datetime(2020, 5, 21, 2, 34, 26),
 datetime.datetime(2020, 5, 21, 2, 34, 26), datetime.datetime(2020, 5, 21, 2, 39, 26),
 datetime.datetime(2020, 5, 21, 2, 39, 26), datetime.datetime(2020, 5, 21, 2, 39, 26)]

有没有更有效的方法来重写上面的代码？

任何建议都是值得赞赏的。

python 数组 numpy boolean-logic

from datetime import datetime

import numpy
import pandas


py_dts = numpy.array([
    datetime(2020, 5, 21, 2, 27, 26),
    datetime(2020, 5, 21, 2, 27, 26), 
    datetime(2020, 5, 21, 2, 27, 26),
    datetime(2020, 5, 21, 2, 30, 55),
    datetime(2020, 5, 21, 2, 30, 55),
    datetime(2020, 5, 21, 2, 30, 55),
    datetime(2020, 5, 21, 2, 34, 26),
    datetime(2020, 5, 21, 2, 34, 26),
    datetime(2020, 5, 21, 2, 34, 26),
    datetime(2020, 5, 21, 2, 39, 26),
    datetime(2020, 5, 21, 2, 39, 26),
    datetime(2020, 5, 21, 2, 39, 26)
])

min_pydt = datetime(2020, 5, 21, 2, 27, 26)
max_pydt = datetime(2020, 5, 21, 2, 39, 26)

min_npdt = numpy.datetime64(min_pydt)
max_npdt = numpy.datetime64(max_pydt)

min_pddt = pandas.Timestamp(min_pydt)
max_pddt = pandas.Timestamp(max_pydt)

np_64s = numpy.array([numpy.datetime64(d) for d in py_dts])
pd_tss = pandas.Series([pandas.Timestamp(d) for d in py_dts])


def counter(timestamps, mindt, maxdt):    
    return ((mindt <= timestamps) & (timestamps <= maxdt)).sum()

在 Jupyter 笔记本中，我做了：

%%timeit
counter(py_dts, min_pydt, max_pydt)

每个循环 17.4 μs ± 1.31 μs（平均±标准开发 7 次，每次 100000 个循环）

%%timeit
counter(np_64s, min_npdt, max_npdt)

每个循环 7.42 μs ± 102 ns（平均±标准开发 7 次，每次 100000 个循环）

%%timeit
counter(pd_tss, min_pddt, max_pddt)

每个循环 531 μs ± 2.99 μs（平均±标准开发，7 次运行，每次 1000 个循环）

什么比 np.sum 和 numpy 布尔运算符更有效？

What is more efficient that np.sum and numpy boolean operators?

评论

评论