PySpark知识经验-第5页-解网

作者：Марсель Абдуллин 提问时间：11/17/2023

我使用apache iceberg作为数据格式执行查询表的 DDL（类似于 raw 和 ods） CREATE TABLE ods.kafka_trbMetaEventTopic_v1 ( o...

作者：Ilyas Ch 提问时间：11/17/2023

我正在尝试通过apache spark将一些数据从apache kafka发送到elasticsearch，现在我正在测试管道，但仍然遇到一些错误，最终我将构建一个机器学习模型来对spark中的传入数...

作者：Nguyễn Quốc Nhật Minh 提问时间：11/17/2023

已关闭。这个问题需要更加集中。它目前不接受答案。想改进这个问题吗？更新问题，使其仅通过编辑这篇文章来关注一个问题。 2天前关闭。改进此问题我正在学习在 k8s （minikube）上创...

作者：ByUnal 提问时间：11/16/2023

我有需要在pyspark中编码的T-SQL查询。但是，Pyspark 并不支持所有 SQL 操作，因此您必须相应地构建自己的逻辑。我已经设法转换了许多查询，但我无法确定如何在Pyspark中执行此操作...

作者：John Bryan 提问时间：11/16/2023

我有一个表，其中包含以下值 ID Date FinalDate 1 20120101 NULL 1 20120201 20120201 1 20120301 NULL 1 20120401 2012...

作者：Dan Albert 提问时间：11/17/2023

我有这个代码 from pyspark.sql import SparkSession # Create a Spark session spark = SparkSession.builder...

作者：rouble 提问时间：11/17/2023

我们有一些现有的代码曾经在 Spark 3.1 中工作，现在在 Spark 3.3 中不起作用。这真的是微不足道的代码，所以它让我大吃一惊为什么过滤器不起作用： widgets_df = widge...

作者：Filomeno Gonzalez 提问时间：11/17/2023

我有一个复杂的嵌套 json 结构文件，其中 100% 的元素（数组和结构）必须展平为相同的行。因此，每个 json 文件都是一行。10 个 Json 文件 = 10 行。下面是 json 文件的示例...

作者：Ravi Kiran.M 提问时间：11/17/2023

这是我尝试运行的代码 streaming_df = ( spark.readStream .option("option1", "value1") ) agg_df = ( streamin...

作者：Ronnie 提问时间：11/16/2023

我的 pyspark 代码尝试创建一个 DataFrame 并将 DataFrame 写入 s3 位置。完成此操作后，我将有一个名称为 part-*** 的文件，我正在尝试使用 hadoop 文件实用...