数据工程 问答列表

读取 .parquet 文件时出现 OOM 错误。我该如何解决这个问题?

作者:mdein 提问时间:8/18/2023

我正在从事一个 ETL 项目。为此,我正在尝试读取 .parquet 文件,以便查看、转换数据并上传它。 我一直在失败,因为我在阅读它时总是得到一个“OOM 错误”。 有什么方法可以在本地阅读吗? ...

如何在 SelectKBest 之后仅将必要的功能传递给管道

作者:Nikitosiwe 提问时间:8/19/2023

我有一个常规的表格数据集,从数据库中添加了 100 个要素 我想把它推送到一个常规的sklearn.pipeline中,其中将有预处理、编码、一些自定义转换器等。 倒数第二个估计器是 Select...

AWS Athena 上的架构不匹配

作者:Hassaan Murtaza 提问时间:11/9/2023

我在 Athena 中有一个表,它每天使用胶水爬虫进行更新,使用存储在 s3 上的 parquet 文件,使用 id 和 date 分区。 此表每天接收数据,因此每天都会创建一个新的日期分区,但最近数...

如何在Pentaho DI中添加新列进行流,而不阻塞流,新列值不是恒定的

作者:Imangali 提问时间:10/20/2023

我在节点中有来自主流的管道结果,如下所示sv 和节点的结果 辅助节点 在图片顶部 在结果中,我应该得到这样的结果 如何获得像笛卡尔的结果一样的结果,但不阻塞流 标准: 它不应该阻止流式处理 ...

为本地地图数据存储选择合适的基础架构 [已关闭]

作者:Hamid 提问时间:11/15/2023

闭。这个问题与编程或软件开发无关。它目前不接受答案。 这个问题似乎与特定的编程问题、软件算法或程序员主要使用的软件工具无关。如果您认为该问题在另一个 Stack Exchange 站点上是主题,您可...


共5条 当前第1页