apache-spark知识经验-第4页-解网

作者：Andrea Campolonghi 提问时间：11/17/2023

Spark SQL 版本 3.3。以下查询： select d.from_id, d.to_id, d.hts_code, min(d.transaction_date) as earl...

作者：Ilyas Ch 提问时间：11/17/2023

我正在尝试通过apache spark将一些数据从apache kafka发送到elasticsearch，现在我正在测试管道，但仍然遇到一些错误，最终我将构建一个机器学习模型来对spark中的传入数...

作者：Nguyễn Quốc Nhật Minh 提问时间：11/17/2023

已关闭。这个问题需要更加集中。它目前不接受答案。想改进这个问题吗？更新问题，使其仅通过编辑这篇文章来关注一个问题。 2天前关闭。改进此问题我正在学习在 k8s （minikube）上创...

作者：ByUnal 提问时间：11/16/2023

我有需要在pyspark中编码的T-SQL查询。但是，Pyspark 并不支持所有 SQL 操作，因此您必须相应地构建自己的逻辑。我已经设法转换了许多查询，但我无法确定如何在Pyspark中执行此操作...

作者：Sathyamoorthy 提问时间：11/16/2023

我的要求是直截了当的。我有一个 API 调用，它检索了大量数据。我想使用 PySpark 将它们转换为 DataFrame 并写入 Neo4J。将 API 结果转换为 Dataframes 并将其...

作者：Dan Albert 提问时间：11/17/2023

我有这个代码 from pyspark.sql import SparkSession # Create a Spark session spark = SparkSession.builder...

作者：Pepria 提问时间：11/17/2023

我有一个用例，我需要以编程方式将数据从一个或多个 JSON 文件复制到 Snowflake 表中。但是，当我复制文件时，我还需要对记录进行更新插入。例如，如果我从以下 JSON 开始： [ { ...

作者：rouble 提问时间：11/17/2023

我们有一些现有的代码曾经在 Spark 3.1 中工作，现在在 Spark 3.3 中不起作用。这真的是微不足道的代码，所以它让我大吃一惊为什么过滤器不起作用： widgets_df = widge...

作者：Ilyas Ch 提问时间：11/16/2023

我想用python脚本通过apache spark从apache kafka主题中读取数据，然后对数据进行一些操作，然后实时流式传输到elasticsearch;最终，我将构建一个模型来对数据执行，并...

作者：Trevor C 提问时间：11/17/2023

我有一个大型工作 SQL 查询，我在 Databricks 工作区中将其参数化并注册为 SQL UDF。大型查询的部分内容在其他地方重复出现，因此，我想将其分成两个 SQL UDF：一个 covera...