PySpark 中的模糊匹配优化
作者:Minura Punchihewa 提问时间:4/24/2023
我正在尝试通过PySpark对某些数据进行一些模糊匹配。为此,我正在使用该包并在 Databricks 上运行它。fuzzywuzzy 我的数据集非常简单。它存储在 CSV 文件中,包含两列:Nam...
PySpark 问答列表
作者:Minura Punchihewa 提问时间:4/24/2023
我正在尝试通过PySpark对某些数据进行一些模糊匹配。为此,我正在使用该包并在 Databricks 上运行它。fuzzywuzzy 我的数据集非常简单。它存储在 CSV 文件中,包含两列:Nam...
作者:Arturo Sbr 提问时间:6/3/2023
我外部连接了两个和操作的结果,并最终得到了这个数据帧():groupBycollect_setfoo >>> foo.show(3) +---+------+------+ | id| c1| c2...
作者:Sam 提问时间:1/30/2023
问题陈述: 当 PySpark 程序根据特定字段不为 NULL 的条件从数据帧中读取记录时,程序将挂起。此字段是一个字符串字段,其中可能包含字符串值,也可能不包含字符串值。对此字符串字段的任何操作,例...
作者:curios 提问时间:5/15/2023
我需要进行模糊匹配并使用 levenshtein pyspark 函数,因为它是内置的 pyspark 函数,我认为会比 udf 有速度优势。它非常慢,数据帧中大约有 341 行(最大),并且正在使用...
作者:curios 提问时间:4/24/2023
pyspark 的新手,我需要做模糊匹配。发现 levenhenstein 是一个可以做到这一点的原生函数。我有一个这样的数据帧: +----------------+---------------...
作者:SunflowerParty 提问时间:3/22/2023
我想将我的数据帧解析到下面列表中的列中。我有两个数据帧:一个模式数据帧包含我将使用的列名,另一个数据格式为数组行。pysparkarray_col 即 schema: cols = ['Brand...
作者:Wael Othmani 提问时间:8/3/2023
假设我有两个 Spark 数据帧: from pyspark.sql import SparkSession # Create a SparkSession spark = SparkSessio...
作者:charancherry 提问时间:2/23/2023
这个问题在这里已经有答案了: 使用 Pandas groupby 连接多行中的字符串 (8 个答案) pandas groupby 将字符串连接在多列中 (1 个答案) 9个月前关闭。 我创建了一个...
作者:AJR 提问时间:12/23/2022
我有一个复杂的 xml 文件,需要使用 PySpark 解析和展平。我将利用 AWS Glue 和 Spark 框架来完成此任务。我可以将我的 xml 文件转换为 spark 数据帧,但我需要展平数据...
作者:dja 提问时间:12/4/2022
我有html文件,我想在pySpark中解析。 例: <MainStruct Rank="1"> <Struct Name="A"> <Struct Name="AA"> <Struct N...