BigQuery 从多个文件创建外部表，所有文件共享相同的 18 列，但较新的文件有一个额外的列-解网

问：

我有一个情况，我想知道如果可能的话。我目前有一个BigQueryUpsertTableOperator，它转到谷歌云存储并从其中的所有csv文件创建一个外部表。所有这些文件共享完全相同的 18 列，它们只是不同的数据，每天有一个新文件进来。最近，较新的文件增加了额外的第 19 列。是否仍允许将所有这些文件创建到同一个外部表中？有某种方法可以使这些值在新文件中仅为 null？

 create_external_table = BigQueryUpsertTableOperator(
    task_id=f"create_external_{TABLE}_table",
    dataset_id=DATASET,
    project_id=INGESTION_PROJECT_ID,
    table_resource={
        "tableReference": {"tableId": f"{TABLE}_external"},
        "externalDataConfiguration": {
            "sourceFormat": "CSV",
            "allow_quoted_newlines": True,
            "allow_jagged_rows":True,
            "autodetect": True,
            "sourceUris": [f"gs://{ARCHIVE_BUCKET}/{DATASET}_data/*.csv"],
        },
        "labels": labeler.get_labels_bigquery_table_v2(
            target_project=INGESTION_PROJECT_ID,
            target_dataset=DATASET,
            target_table=f"{TABLE}_external",
        ),
    },
)

我是否需要手动进入这些旧文件并在每条记录的末尾添加逗号，并在第一行添加新列名，以便将它们与新文件并排摄取，或者以任何方式在任务中为此设置选项？

csv bigquery 谷歌- 云-存储外部表

"externalDataConfiguration": {
    "sourceFormat": "CSV",
    "allow_quoted_newlines": True,
    "allow_jagged_rows":True,
    "autodetect": False,
    "sourceUris": [f"gs://{ARCHIVE_BUCKET}/{DATASET}_data/*.csv"],
    "schema": {
        "fields": [
            {
              "name": "Column1",
              "type": "STRING",
              "mode": "REQUIRED"
            },
            ...
            {
              "name": "Column19",
              "type": "STRING"
            }
        ]
    }  
}

文档 ExternalDataConfiguration

为外部数据源创建表定义文件

上一个：从 CSV 文件创建外部 Bigquery 表 - 错误：缺少右引号字符（“）

下一个：用于外部表连接的 Kusto-use 托管标识

BigQuery 从多个文件创建外部表，所有文件共享相同的 18 列，但较新的文件有一个额外的列

BigQuery Create External table from multiples files all files share same 18 columns, except newer files have one extra column

评论