aws-glue 问答列表

解析嵌套 XML 并将数据展平为行 - PySpark

作者:AJR 提问时间:12/23/2022

我有一个复杂的 xml 文件,需要使用 PySpark 解析和展平。我将利用 AWS Glue 和 Spark 框架来完成此任务。我可以将我的 xml 文件转换为 spark 数据帧,但我需要展平数据...

Spark 动态帧显示方法不产生任何结果

作者:PyRaider 提问时间:5/7/2019

因此,我使用 AWS Glue 自动生成的代码从 S3 读取 csv 文件,并通过 JDBC 连接将其写入表。看起来很简单,Job 成功运行,没有错误,但它什么也没写。当我检查 Glue Spark ...

PySpark:无法将 MutableLong 转换为 MutableInt

作者:anonymus1205 提问时间:11/8/2023

我正在尝试使用 PySpark 和 Glue API 从 AWS Glue 作业中读取多个 parquet 文件,如下所示: snapshot_as_dynamic_frame = glueCont...

在 Glue 表上创建 presto 视图导致错误,数据类型无效:整数

作者:vvazza 提问时间:11/11/2023

我在 Glue 目录table_a中有一个表,它有 2 列 - 列 数据类型 emp_id bigint emp_name 字符串 年龄 int 我正在尝试创建一个 presto 视图来查询 At...

如何验证作业 AWS Glue Python Shell 是否实际在特定网络 (vpc) 上运行?

作者:masterdevsshm83_ 提问时间:11/15/2023

我目前有一个在glue python中执行了几次的作业,我已经配置了常用的参数,并且在所有执行中都出现连接失败错误。因此,当我使用源数据库(sql server 管理)调试我的凭据时,当我尝试在云中进...

用于连接到 Redshift 和查询表的 Lambda

作者:Saira Fayyaz 提问时间:11/16/2023

我正在尝试使用 Python 3.9 中的 Lambda 函数从 Redshift 检索数据。我最初尝试使用 Glue 连接器,但它导致了超时问题。然后我尝试使用 Boto3 会话,遇到了同样的超时问...

对布尔值进行过滤时出现奇怪的 pyspark 行为

作者:rouble 提问时间:11/17/2023

我们有一些现有的代码曾经在 Spark 3.1 中工作,现在在 Spark 3.3 中不起作用。这真的是微不足道的代码,所以它让我大吃一惊为什么过滤器不起作用: widgets_df = widge...

从 Glue 导入手动上传的 pytorch 时的 OSError

作者:JJH 提问时间:11/17/2023

我将使用 Glue 生成数据集,以从 RDS 中的原始数据训练 AI 模型。根据公司的某些政策(也许是互联网封锁),魔术不起作用。所以我将压缩的模块上传到 S3,并用于导入模块,但收到以下错误消息:%...

Iceberg 架构不合并缺失的列

作者:user1668814 提问时间:11/17/2023

我正在 AWS Glue 作业中使用以下代码创建 Iceberg 表: df.writeTo(f'glue_catalog.{DATABASE_NAME}.{TABLE_NAME}') \ .us...


共9条 当前第1页