apache-arrow 问答列表

Pyarrow 飞行服务器,用于公开自定义终结点

作者:Phani Varanasi 提问时间:6/11/2023

我可以创建一个可以公开客户端可以调用的自定义端点的 pyarrow 飞行服务器吗? 我只看到do_get方法返回pyarrow表的代码。 客户端可以传递可用于在服务器端过滤数据并返回过滤后的箭头表的参...

Dremio SQL 注入漏洞

作者:Bylaw 提问时间:11/17/2023

我想通过使用 Dremio 的 Spring Java 应用程序查询包含 parquet 文件的 S3 存储。这些是具有用户给定参数的动态查询。 我使用 Apache Arrow SQl 驱动程序,只...

超大数据的数据格式,同时保留 data.table 功能

作者:Nils R 提问时间:11/13/2023

我有一个脚本,它生成了几个中间数据文件,这些文件将大大超过(2^31-1)中的最大行数。我的系统足够大,可以存储数据(例如,我可以存储这种大小的矩阵,但不能将它们转换为长格式),但我不知道哪种文件格式...

PyArrow Flight:pa中的空字符串。读取/写入 Exasol 时将表转换为 NULL

作者:altabq 提问时间:10/27/2023

我正在使用 PyArrow Flight 在 Exasol 上阅读和编写表格。我注意到一个问题,即空字符串在飞行过程中被转换为 NULL。当我写一个pa。包含 “” 列的表到 Exasol,生成的表包...

pyarrow 飞行错误:关闭前无法完成写入

作者:dom159 提问时间:10/28/2023

我有这段代码,我用来在 Dremio 中使用 pyarrow flight 执行查询: class DremioConnector: env: str auth_token: str def...

如何在 go 中将 apache 箭头飞行数据拆分为块

作者:liana 提问时间:9/30/2023

箭头飞行数据是列式数据,我想以这样一种方式实现 DoGet 函数,即它首先将 arrow.record 拆分为特定大小的数据(比如 4 MB),然后使用流将其发送到客户端。我该怎么做?...

如何在 Go 中使用 DuckDB 读取 parquet 文件?

作者:knightcool 提问时间:9/12/2023

我正在用 Go 包装 DuckDB 构建一个 Arrow Flight SQL 服务器来查询大量 parquet 文件(每个文件都有不同的架构)。我希望这些 parquet 文件按需加载到 DuckD...

使用 pyarrow dtype 创建 dask 数组

作者:Adrien Pacifico 提问时间:8/21/2023

在 pandas 中,我可以通过以下方式使用 pyarrow dtype 创建一个系列: >>> import pandas as pd >>> s = pd.Series([1,2,3]).as...

从 Apache Arrow Parquet CPP 库版本 11.0.0 读取十进制数据类型时出错

作者:Anamika Ahmed 提问时间:8/9/2023

我正在尝试读取一个镶木地板文件并将其存储在自定义 C 结构中,以便在我的 C 代码中进一步使用 case arrow::Type::DECIMAL: { const arrow::Decimal1...

我可以使用 Apache Flight 发送和接收字节数据吗?

作者:Sameer Kulkarni 提问时间:8/2/2023

我正在使用 Apache Http 客户端从服务器发送和接收数据。对于大型请求,我手动对数据进行了分块,并逐个发送。有没有办法并行发送这些数据块。就在那时,我读到了关于阿帕奇飞行的文章。对我的情况有帮...


共19条 当前第1页