加载 parquet 文件时筛选器中的布尔逻辑-解网

问：

我想删除 1900 年出生但尚未死亡的人。

下面的代码可以工作，但我需要两个过滤器来删除特定行。有没有更简单的方法来删除一个筛选器的行？

要重现的最少代码：

import pandas as pd

data = [
    (1900, None,),  # needs to be removed
    (1900, 2000,),
    (2000, None,),
    (2000, 2020,),
]
df = pd.DataFrame(data, columns=['birth', 'death'])
df.to_parquet('test.parquet')

# Rows which do not match the filter predicate will be removed
filters= [
    [
        ('birth', '!=', 1900),
    ],
    [
        ('birth', '=', 1900),
        ('death', 'not in', [None]),
    ]
]

df2 = pd.read_parquet('test.parquet', filters=filters)
df2.head()

文档：https://arrow.apache.org/docs/python/generated/pyarrow.parquet.read_table.html#pyarrow.parquet.read_table

python pandas parquet 布尔逻辑

加载 parquet 文件时筛选器中的布尔逻辑

Boolean logic in filters when loading parquet file

评论

评论