以编程方式控制对 GCP BQ 的读取和写入

Control programmatically the reads from and writes to GCP BQ

提问人:Sanjeev Kumar 提问时间:11/16/2023 更新时间:11/16/2023 访问量:18

问:

要求是从多个 GCP BQ 表中读取数据,执行大量转换,然后将其加载回 GCP BQ 中的目标表。我们如何以编程方式实现它。

通过使用一组 PL/SQL,可以直接在 BQ 中完成对 GCP BQ 的数据读取和加载。但是,为了获得更好的可维护性,我们如何实现这一点?结合使用 spark 和 scala 并构建 jar 会在功能方面提供更大的灵活性吗?在这种情况下,是否应该使用 dataproc 集群来运行作业?

使用 spark、scala 并在 dataproc 中提交作业需要更多时间才能执行。有没有更好的选择。

scala apache-spark google-bigquery google-cloud-dataproc

评论

0赞 Javier Montón 11/17/2023
如果输入和输出是 BigQuery,您可以利用其处理能力并使用 SQL 执行所有转换,因此您无需将数据提取到其他位置,对其进行处理,然后再次加载。像DBT这样的工具可以在这方面有很大帮助。

答: 暂无答案