为什么 Spark-BigQuery 连接器在从查询加载数据时会创建临时表?
作者:Kohsuke Kawaguchi 提问时间:11/16/2023
我正在尝试在BQ上运行一些查询,然后将结果加载到Spark中进行进一步处理。我假设这是一个非常常见的用例。上游文档是这样说的: 重要提示:此功能的实现方法是在 BigQuery 上运行查询并将结果保...
apache-Spark 问答列表
作者:Kohsuke Kawaguchi 提问时间:11/16/2023
我正在尝试在BQ上运行一些查询,然后将结果加载到Spark中进行进一步处理。我假设这是一个非常常见的用例。上游文档是这样说的: 重要提示:此功能的实现方法是在 BigQuery 上运行查询并将结果保...
作者:Mariano Cacchiarelli 提问时间:10/27/2023
我们在 csv 文件中包含以下内容: DI_SEQUENCE_NUMBER;DI_OPERATION_TYPE;MANDT;SPRAS;MVGR2;BEZEI;SRC_SYSTEM;LOAD_DAT...
作者:Trevor C 提问时间:11/14/2023
以前发布在 Databricks Community: https://community.databricks.com/t5/community-discussions/can-we-pass-pa...
作者:Metadata 提问时间:11/10/2023
我有一个带有嵌套列的数据帧,如下所示: df_schema = StructType([ StructField("response", StringType(), True), StructF...
作者:RunTheGauntlet 提问时间:11/16/2023
在具有运行时 12.2 LTS ML(包括 Apache Spark 3.3.2、Scala 2.12)的 Azure DataBricks 中,我正在尝试运行以下脚本: import pandas...
作者:alka 提问时间:11/10/2023
假设数据是 - "King Khaled Hospital """"NG""""" 长度(包括引号和空格)= 33 在上面的例子中: 保持起始和结束引号不变,均表示位置 1 和位置 33 在...
作者:krishna kaushik 提问时间:11/12/2023
我有一个Pyspark数据帧,结构如下。 | orderid | sub | filter-list | | -------- | ---- | -------- | | 1 | 367 | [[...
作者:user2153235 提问时间:10/28/2023
就在刚才(2023 年 10 月),我在 Windows 10 上重新安装了 Anaconda 以便安装 Python 3.9、Pyspark 和 Spyder。The Conda(康达酒店) 环境为...
作者:Rchee 提问时间:11/10/2023
我在 ADLS 容器中有多个增量表,对于每个表,我想生成一个脚本,将它们转换为 parquet 文件并显式列出每个表中的列。这是我目前所拥有的,但它并没有创建不同的 select 语句,只是将所有表中...
作者:amogha_sharma 提问时间:11/8/2023
我正在使用 5 节点 16gb 机器运行只有 1GB 未压缩 csv 文件的 spark 应用程序,面临非常高的 GC 时间,实际计算只需要 15 分钟和 3 小时+ 对于 GC,这可能是解决这个问题...