pyspark 问答列表

UserWarning:createDataFrame 尝试在 pyspark createDataFrame 中进行箭头优化

作者:RunTheGauntlet 提问时间:11/16/2023

在具有运行时 12.2 LTS ML(包括 Apache Spark 3.3.2、Scala 2.12)的 Azure DataBricks 中,我正在尝试运行以下脚本: import pandas...

按顺序从数组列中获取非重复行 pyspark

作者:mouli lee 提问时间:11/16/2023

我有一个包含 2 列的 pyspark 数据帧。Column1 是整数列,Column2 是 ArrayType。我需要获取一个数据帧,该 Column2 的前几行中没有任何重复元素。在 Column...

连接 API,使用 pyspark 解析结果并将其存储在 neo4j 中

作者:Sathyamoorthy 提问时间:11/16/2023

我的要求是直截了当的。我有一个 API 调用,它检索了大量数据。我想使用 PySpark 将它们转换为 DataFrame 并写入 Neo4J。 将 API 结果转换为 Dataframes 并将其...

如何从 Azure Databricks 输出“基础 SQLException”而不是一般异常消息?

作者:LearneR 提问时间:11/16/2023

我们从数据工厂管道调用 Azure Databricks 笔记本,该管道将引入到 Azure Synapse 中。但是,每当笔记本运行失败时,它只会显示以下错误消息: com.databricks....

寻求 Redis Spark 连接器的 3 个数据帧选项的用法清晰度

作者:Nikhil Choudhari 提问时间:11/16/2023

谁能帮我简要说明下面的 Redis spark 数据帧选项和示例。 max.pipeline.size(最大管道大小) 扫描计数 迭代器.grouping.size 我已经浏览了 github 上...

在 Pyspark 中记录链接

作者:Bidyasagar Pradhan 提问时间:2/22/2023

如何在 Pyspark ??? 中实现记录链接功能 我想在 Dataset1 名称和数据集 2 名称之间进行相似性检查。 如果有任何可用于 pyspark 的库,请帮助建议我。 我尝试使用 pyh...

使用 pyspark 计算概率

作者:Thomas 提问时间:8/4/2023

我想在我的 spark DataFrame 中添加一个额外的功能,这个功能是一个表示(失败次数/总数)的概率,这个功能会让我知道有多少失败。我想知道我是否可以使用其他假设,例如使用统计检验或类似的东西...

针对 SQL Server 表的 spark.write 写入错误(通过 JDBC 连接)

作者:Moisés 提问时间:7/26/2023

我们尝试使用以下方法在 SQL Server (V2005) 中保存 DataFrame: df_cards.write.jdbc(url=conn_str, table=tablename, mo...

PySpark 中具有有意义的存储桶名称的存储桶数据名称

作者:Minura Punchihewa 提问时间:7/11/2023

我在 PySpark 中有一个函数,可以使用 .由于返回存储桶的数值,因此我还有另一个函数,称为 main 函数 create bucket names 中,这是有意义的。BucketizerBuck...

在将函数应用于 PySpark DataFrame 中的列时检测错误和意外值,在每行的单独列中捕获注释

作者:Vivek Vadadoriya 提问时间:7/7/2023

我有一个名为 df 的 pyspark 数据帧。df 有 170 列。df 的列名表示函数名称,我们必须在该列上应用该函数。 例如,df 包含 square、cube、rename...等字段。然后...


共98条 当前第6页