提问人:Guilherme Matheus 提问时间:11/17/2023 更新时间:11/17/2023 访问量:41
使用 ADF 对来自源的大量数据进行分区的选项是什么?
What is the option to partition huge amount of data from a source using ADF?
问:
我在 ADF 上有一个带有活动的管道,里面有一个正在运行的 Kusto 查询。在这个循环中,我在数组中使用了一个具有 10 个字符串的变量,以便我的数据流将基于这些值作为参数运行。For Loop
Data Flow
这是我的数据流和选项卡中的分区方法:Optimized
我使用 Kusto 查询作为源,但此查询总体上有大量数据,但对于每个循环,它有 1 亿行。如果我像下图一样对我的数据进行分区,源是按每个分区获得结果还是获得整个输出,然后进行分区?
例如:如果我将分区设置为循环选项并且有 200 个分区。查询是每次工作 200 次,每次 500k 行,还是运行一次 100M 行,然后再分区?
我的问题是,如果我使用例如:
MyTable | take 100000
管道会成功,但是如果我保留源的原始数据集(每个循环 100M 行),它最终会失败,有时只有它会成功。
正如我提到的,管道会成功,这与例如,使用分区运行 Kusto 查询相同。hash
答: 暂无答案
评论