apache-Spark 问答列表

UserWarning:createDataFrame 尝试在 pyspark createDataFrame 中进行箭头优化

作者:RunTheGauntlet 提问时间:11/16/2023

在具有运行时 12.2 LTS ML(包括 Apache Spark 3.3.2、Scala 2.12)的 Azure DataBricks 中,我正在尝试运行以下脚本: import pandas...

动态 Spark 结构化流式处理:通过更改处理流-流联接

作者:Baubau Tran 提问时间:11/16/2023

我想使用 Spark 结构化流式处理创建一个简单的应用程序,以便在股价数据满足特定要求时提醒用户(通过电子邮件、短信等)。 我有一个数据流:data_stream 但是,我正在努力解决主要问题:用...

为什么 Spark-BigQuery 连接器在从查询加载数据时会创建临时表?

作者:Kohsuke Kawaguchi 提问时间:11/16/2023

我正在尝试在BQ上运行一些查询,然后将结果加载到Spark中进行进一步处理。我假设这是一个非常常见的用例。上游文档是这样说的: 重要提示:此功能的实现方法是在 BigQuery 上运行查询并将结果保...

寻求 Redis Spark 连接器的 3 个数据帧选项的用法清晰度

作者:Nikhil Choudhari 提问时间:11/16/2023

谁能帮我简要说明下面的 Redis spark 数据帧选项和示例。 max.pipeline.size(最大管道大小) 扫描计数 迭代器.grouping.size 我已经浏览了 github 上...

如何将所有权重和树从 xgboost.spark.SparkXGBClassifier 复制到 xgboost.sklearn.XGBClassifier?

作者:Analysa Marie 提问时间:11/16/2023

长话短说,我使用 xgboost.spark.SparkXGBClassifier 在 Spark 中训练了一个 xgboost 分类器模型: from xgboost.spark import S...

在使用 Spark SQL 的 Databricks 工作簿中,如何通过 SQL UDF 函数传递参数?

作者:Trevor C 提问时间:11/14/2023

以前发布在 Databricks Community: https://community.databricks.com/t5/community-discussions/can-we-pass-pa...

运行 Spyder 的快捷方式指定不存在的文件夹

作者:user2153235 提问时间:10/28/2023

就在刚才(2023 年 10 月),我在 Windows 10 上重新安装了 Anaconda 以便安装 Python 3.9、Pyspark 和 Spyder。The Conda(康达酒店) 环境为...

Spark - 读取带引号的 csv 文件

作者:Mariano Cacchiarelli 提问时间:10/27/2023

我们在 csv 文件中包含以下内容: DI_SEQUENCE_NUMBER;DI_OPERATION_TYPE;MANDT;SPRAS;MVGR2;BEZEI;SRC_SYSTEM;LOAD_DAT...

PySpark GC 问题 - 作业需要 3 个多小时才能完成

作者:amogha_sharma 提问时间:11/8/2023

我正在使用 5 节点 16gb 机器运行只有 1GB 未压缩 csv 文件的 spark 应用程序,面临非常高的 GC 时间,实际计算只需要 15 分钟和 3 小时+ 对于 GC,这可能是解决这个问题...

Spark Row 对象的实例化与重载原型不同?

作者:user2153235 提问时间:10/18/2023

中的 Spark 类不包含任何方法,但显示以下重载类型提示:Rowpyspark/sql/types.py__init____new__ @overload def __new__(cls, *ar...


共80条 当前第2页