使用 ADF 对来自源的大量数据进行分区的选项是什么?

What is the option to partition huge amount of data from a source using ADF?

提问人:Guilherme Matheus 提问时间:11/17/2023 更新时间:11/17/2023 访问量:41

问:

我在 ADF 上有一个带有活动的管道,里面有一个正在运行的 Kusto 查询。在这个循环中,我在数组中使用了一个具有 10 个字符串的变量,以便我的数据流将基于这些值作为参数运行。For LoopData Flow

enter image description here

这是我的数据流和选项卡中的分区方法:Optimized

enter image description here

我使用 Kusto 查询作为源,但此查询总体上有大量数据,但对于每个循环,它有 1 亿行。如果我像下图一样对我的数据进行分区,源是按每个分区获得结果还是获得整个输出,然后进行分区?

例如:如果我将分区设置为循环选项并且有 200 个分区。查询是每次工作 200 次,每次 500k 行,还是运行一次 100M 行,然后再分区?

我的问题是,如果我使用例如:

MyTable | take 100000

管道会成功,但是如果我保留源的原始数据集(每个循环 100M 行),它最终会失败,有时只有它会成功。

正如我提到的,管道会成功,这与例如,使用分区运行 Kusto 查询相同。hash

azure-data-factory kql azure-data-explorer

评论


答: 暂无答案