简单查询 pyspark 中 GC 开销的原因是什么?
作者:Марсель Абдуллин 提问时间:11/17/2023
我使用apache iceberg作为数据格式执行查询 表的 DDL(类似于 raw 和 ods) CREATE TABLE ods.kafka_trbMetaEventTopic_v1 ( o...
PySpark 问答列表
作者:Марсель Абдуллин 提问时间:11/17/2023
我使用apache iceberg作为数据格式执行查询 表的 DDL(类似于 raw 和 ods) CREATE TABLE ods.kafka_trbMetaEventTopic_v1 ( o...
作者:Ilyas Ch 提问时间:11/17/2023
我正在尝试通过apache spark将一些数据从apache kafka发送到elasticsearch,现在我正在测试管道,但仍然遇到一些错误,最终我将构建一个机器学习模型来对spark中的传入数...
作者:Nguyễn Quốc Nhật Minh 提问时间:11/17/2023
已关闭。这个问题需要更加集中。它目前不接受答案。 想改进这个问题吗?更新问题,使其仅通过编辑这篇文章来关注一个问题。 2天前关闭。 改进此问题 我正在学习在 k8s (minikube) 上创...
作者:ByUnal 提问时间:11/16/2023
我有需要在pyspark中编码的T-SQL查询。但是,Pyspark 并不支持所有 SQL 操作,因此您必须相应地构建自己的逻辑。我已经设法转换了许多查询,但我无法确定如何在Pyspark中执行此操作...
作者:John Bryan 提问时间:11/16/2023
我有一个表,其中包含以下值 ID Date FinalDate 1 20120101 NULL 1 20120201 20120201 1 20120301 NULL 1 20120401 2012...
作者:Dan Albert 提问时间:11/17/2023
我有这个代码 from pyspark.sql import SparkSession # Create a Spark session spark = SparkSession.builder...
作者:rouble 提问时间:11/17/2023
我们有一些现有的代码曾经在 Spark 3.1 中工作,现在在 Spark 3.3 中不起作用。这真的是微不足道的代码,所以它让我大吃一惊为什么过滤器不起作用: widgets_df = widge...
作者:Filomeno Gonzalez 提问时间:11/17/2023
我有一个复杂的嵌套 json 结构文件,其中 100% 的元素(数组和结构)必须展平为相同的行。因此,每个 json 文件都是一行。10 个 Json 文件 = 10 行。下面是 json 文件的示例...
作者:Ravi Kiran.M 提问时间:11/17/2023
这是我尝试运行的代码 streaming_df = ( spark.readStream .option("option1", "value1") ) agg_df = ( streamin...
作者:Ronnie 提问时间:11/16/2023
我的 pyspark 代码尝试创建一个 DataFrame 并将 DataFrame 写入 s3 位置。完成此操作后,我将有一个名称为 part-*** 的文件,我正在尝试使用 hadoop 文件实用...