pyspark知识经验-第8页-解网

作者：Florida Man 提问时间：11/17/2022

我有这样的 df 列表 index_in_List ['一个'，'b'] 0 ['c'，'d'] 0 ['d'，'a'] 1 是通过在中查找索引来创建的，其中字符串（“a”）匹配。用：in...

作者：Yannick Widmer 提问时间：11/16/2022

当我将python浮点数77422223.0转换为spark FloatType时，我得到77422224。如果我使用 DoubleType 这样做，我会得到77422223。这种转换是如何工作的，有...

作者：MagMru 提问时间：9/27/2022

我遇到了一个问题。我导入一个 csv 并将其用作 df，导入后我看到了 0,000001 等变量，然后我加入了几个 dfs 并松开了结尾“1”。这不是不打印的情况，因为然后我正在尝试（x/sum（x...

作者：PracticingPython 提问时间：8/17/2022

我遇到以下功能的问题。我正在尝试将其转换为 SQL 语句，以便我可以更好地了解到底发生了什么，这样我就可以更有效地处理我的实际问题。我知道它包含valid_data到ri_data之间的连接、过滤...

作者：Smaillns 提问时间：4/6/2022

我有以下数据帧 root |-- AUTHOR_ID: integer (nullable = false) |-- Books: array (nullable = true) | |-...

作者：PracticingPython 提问时间：9/10/2021

我有一个相当大的 pyspark 数据帧，需要转换为 pandas（使用 toPandas（）方法），以便我可以更轻松地在我的 s3 存储桶中创建 csv。但是，当我尝试运行它时，脚本只是在那里放置...

作者：PracticingPython 提问时间：8/27/2021

我有一个大型 pyspark 数据帧，其中包含超过 50,000 行数据。一列包含我尝试对其执行正则表达式搜索的每条记录的文档文本。以下是我构建的正则表达式代码和模式： import re w...

作者：Naveen Balachandran 提问时间：9/17/2023

我有一个包含许多列的数据帧，在其中一列中，我有需要对数据帧执行的逻辑操作。例如，请看下面的数据帧我需要对相关行执行列逻辑操作中定义的逻辑操作在正常情况下，我可以使用expr（）。但是在这种情况...

作者：SunflowerParty 提问时间：10/25/2023

我想为我编写的 pyspark 函数定义一组参数，该函数需要下面列出的参数。许多参数是一致的，不包括 id 和 date。对于每个animal_id，我都有一个文件列表：即 database = ...

作者：Sadasivan m 提问时间：10/17/2023

我有一个 pyspark 数据帧，该数据帧是从 SQL 表填充的，其中包含以下字段列及其值。 transactionid docname docdetailfield1 docdetailfield...