问：

我有一个包含数字的文本文件，如下所示：

[mpz(0), mpz(0), mpz(0), mpz(0), mpz(4), mpz(54357303843626),...]

有没有一种简单的方法可以将其直接解析为整数列表？目标数据类型是 mpz 整数还是普通 python 整数都无关紧要。

到目前为止，我尝试过并且有效的是纯解析（注意：目标数组需要提前用零初始化，因为它可能大于文本文件中的列表）：y_val3

text_file = open("../prod_sum_copy.txt", "r")
content = text_file.read()[1:-1]
text_file.close()
content_list = content.split(",")
y_val3 = [0]*10000
print(content_list)
for idx, str in enumerate(content_list):
    m = re.search('mpz\(([0-9]+)\)', str)
    y_val3[idx]=int(m.group(1))
print(y_val3)

尽管这种方法有效，但我不确定这是否是最佳实践，或者是否存在比普通解析更优雅的方法。

为了方便起见：这是 GitHub 上的原始文本文件。注意：此文本文件可能会增长，从而在性能和可伸缩性等方面发挥作用。

Python 解析多精度 GMPY

原始方法（在函数中）

import re

def original():
    text_file = open("../prod_sum_copy.txt", "r")
    content = text_file.read()[1:-1]
    text_file.close()
    content_list = content.split(",")

    y_val3 = [0]*10000

    for idx, element in enumerate(content_list):
        m = re.search('mpz\(([0-9]+)\)', element)
        y_val3[idx]=int(m.group(1))
    return y_val3

我假设，对于我非常短的示例数据，处理时间的很大一部分只是用于打开磁盘上的文件、将数据读入内存、关闭文件等的时间。

%timeit original()
140 µs ± 10.2 µs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)

将读文件与数据处理方法分开

此方法包括对文件读取过程的微小改进。计时测试不包括文件读取过程，因此我们不知道微小的更改对整个过程的影响有多大。作为记录，我通过将读取过程封装在上下文管理器中（在后台处理关闭）来消除对该方法的手动调用，因为这是读取文件的 Python 最佳实践。.close()with

import re

def read_filea():
    with open("../prod_sum_copy.txt", "r") as text_file:
        content = text_file.read()[1:-1]
        return content

content = read_filea()
print(content)
def a():
    y_val3 = [0]*10000
    content_list = content.split(",")
    for idx, element in enumerate(content_list):
        m = re.search('mpz\(([0-9]+)\)', element)
        y_val3[idx]=int(m.group(1))
    return y_val3

通过仅对数据处理部分进行计时，我们发现，我们预测的文件读取（IO）在这个简单的测试用例中发挥了重要作用。它还为我们提供了一个想法，即我们应该为数据处理部分花费多少时间。让我们看看另一种方法，看看我们是否可以将时间缩短一点。

%timeit read_filea()
21.5 µs ± 185 ns per loop (mean ± std. dev. of 7 runs, 10,000 loops each)

简化的数据处理方法（和单独的读取文件）

在这里，我们将尝试使用一些 Python 最佳实践或 Python 工具来减少总体时间，包括：

列表推导
使用该方法来消除对函数的一些直接和重复调用以及对该方法的直接和重复调用（注意：findall 可能会在后台执行一些操作，老实说，我不知道我们避免它是否会有好处）。但是我发现这种方法的可读性高于原始方法。re.findall()re.search()m.group()

让我们看一下代码：

import re

def read_fileb():
    with open("../prod_sum_copy.txt", "r") as text_file:
        content = text_file.read()[1:-1]
    return content

content = read_fileb()

def b():
    y_val3 = [int(element) for element in re.findall(r'mpz\(([0-9]+)\)', content)]
    return y_val3

这种方法的数据处理部分比原始方法中的数据处理步骤快约 10 倍。

%timeit b()
2.89 µs ± 210 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)

下面的代码使用了带有示例文件内容的字符串。我使用字符串而不是文件作为示例，因此我的代码可以完全由 StackOverflow 访问者运行，没有依赖关系。如果只读打开的文件，您只需将其替换为，仅此而已，代码就可以工作了。textffor line in text.split('\n'):for line in f:

在线试用！

from gmpy2 import mpz

text = '''
[mpz(12), mpz(34), mpz(56)]
[mpz(78), mpz(90), mpz(21)]
'''

nums = []
for line in text.split('\n'):
    if not line.strip():
        continue
    nums.append(eval(line))

print(nums)

输出：

[[mpz(12), mpz(34), mpz(56)], [mpz(78), mpz(90), mpz(21)]]

上一个：在 Windows 上的 Matlab 中使用 Conda 环境（导入 DLL 错误）

下一个：防止（GPU）优化方法（如 gmpy2 和 numba）中大整数溢出

有没有一种更优雅的方法可以将包含 mpz 值的 Textfile 读取到整数列表中？

Is there a more elegant way to read a Textfile containing mpz values into a list of integers?

评论

原始方法（在函数中）

将读文件与数据处理方法分开

简化的数据处理方法（和单独的读取文件）

评论