根据与列表项的匹配项更改 pyspark.df 列值
作者:Florida Man 提问时间:11/17/2022
我有这样的 df 列表 index_in_List ['一个','b'] 0 ['c','d'] 0 ['d','a'] 1 是通过在 中查找索引来创建的,其中字符串 (“a”) 匹配。 用:in...
pyspark 问答列表
作者:Florida Man 提问时间:11/17/2022
我有这样的 df 列表 index_in_List ['一个','b'] 0 ['c','d'] 0 ['d','a'] 1 是通过在 中查找索引来创建的,其中字符串 (“a”) 匹配。 用:in...
作者:Yannick Widmer 提问时间:11/16/2022
当我将python浮点数77422223.0转换为spark FloatType时,我得到77422224。如果我使用 DoubleType 这样做,我会得到77422223。这种转换是如何工作的,有...
作者:MagMru 提问时间:9/27/2022
我遇到了一个问题。我导入一个 csv 并将其用作 df,导入后我看到了 0,000001 等变量,然后我加入了几个 dfs 并松开了结尾“1”。这不是不打印的情况,因为然后我正在尝试 (x/sum(x...
作者:PracticingPython 提问时间:8/17/2022
我遇到以下功能的问题。我正在尝试将其转换为 SQL 语句,以便我可以更好地了解到底发生了什么,这样我就可以更有效地处理我的实际问题。 我知道它包含valid_data到ri_data之间的连接、过滤...
作者:Smaillns 提问时间:4/6/2022
我有以下数据帧 root |-- AUTHOR_ID: integer (nullable = false) |-- Books: array (nullable = true) | |-...
作者:PracticingPython 提问时间:9/10/2021
我有一个相当大的 pyspark 数据帧,需要转换为 pandas(使用 toPandas() 方法),以便我可以更轻松地在我的 s3 存储桶中创建 csv。但是,当我尝试运行它时,脚本只是在那里放置...
作者:PracticingPython 提问时间:8/27/2021
我有一个大型 pyspark 数据帧,其中包含超过 50,000 行数据。一列包含我尝试对其执行正则表达式搜索的每条记录的文档文本。 以下是我构建的正则表达式代码和模式: import re w...
作者:Naveen Balachandran 提问时间:9/17/2023
我有一个包含许多列的数据帧,在其中一列中,我有需要对数据帧执行的逻辑操作。例如,请看下面的数据帧 我需要对相关行执行列逻辑操作中定义的逻辑操作 在正常情况下,我可以使用expr()。但是在这种情况...
作者:SunflowerParty 提问时间:10/25/2023
我想为我编写的 pyspark 函数定义一组参数,该函数需要下面列出的参数。许多参数是一致的,不包括 id 和 date。对于每个animal_id,我都有一个文件列表: 即 database = ...
作者:Sadasivan m 提问时间:10/17/2023
我有一个 pyspark 数据帧,该数据帧是从 SQL 表填充的,其中包含以下字段列及其值。 transactionid docname docdetailfield1 docdetailfield...