PySpark知识经验-第7页-解网

作者：Minura Punchihewa 提问时间：4/24/2023

我正在尝试通过PySpark对某些数据进行一些模糊匹配。为此，我正在使用该包并在 Databricks 上运行它。fuzzywuzzy 我的数据集非常简单。它存储在 CSV 文件中，包含两列：Nam...

作者：Arturo Sbr 提问时间：6/3/2023

我外部连接了两个和操作的结果，并最终得到了这个数据帧（）：groupBycollect_setfoo >>> foo.show(3) +---+------+------+ | id| c1| c2...

作者：Sam 提问时间：1/30/2023

问题陈述：当 PySpark 程序根据特定字段不为 NULL 的条件从数据帧中读取记录时，程序将挂起。此字段是一个字符串字段，其中可能包含字符串值，也可能不包含字符串值。对此字符串字段的任何操作，例...

作者：curios 提问时间：5/15/2023

我需要进行模糊匹配并使用 levenshtein pyspark 函数，因为它是内置的 pyspark 函数，我认为会比 udf 有速度优势。它非常慢，数据帧中大约有 341 行（最大），并且正在使用...

作者：curios 提问时间：4/24/2023

pyspark 的新手，我需要做模糊匹配。发现 levenhenstein 是一个可以做到这一点的原生函数。我有一个这样的数据帧： +----------------+---------------...

作者：SunflowerParty 提问时间：3/22/2023

我想将我的数据帧解析到下面列表中的列中。我有两个数据帧：一个模式数据帧包含我将使用的列名，另一个数据格式为数组行。pysparkarray_col 即 schema: cols = ['Brand...

作者：Wael Othmani 提问时间：8/3/2023

假设我有两个 Spark 数据帧： from pyspark.sql import SparkSession # Create a SparkSession spark = SparkSessio...

作者：charancherry 提问时间：2/23/2023

这个问题在这里已经有答案了：使用 Pandas groupby 连接多行中的字符串（8 个答案） pandas groupby 将字符串连接在多列中（1 个答案） 9个月前关闭。我创建了一个...

作者：AJR 提问时间：12/23/2022

我有一个复杂的 xml 文件，需要使用 PySpark 解析和展平。我将利用 AWS Glue 和 Spark 框架来完成此任务。我可以将我的 xml 文件转换为 spark 数据帧，但我需要展平数据...

作者：dja 提问时间：12/4/2022

我有html文件，我想在pySpark中解析。例： <MainStruct Rank="1"> <Struct Name="A"> <Struct Name="AA"> <Struct N...