了解 Azure 数据工厂管道中的开始和结束时间

Understanding start and end time in Azure data factory pipeline

提问人:Hack-R 提问时间:3/8/2016 最后编辑:CommunityHack-R 更新时间:11/1/2017 访问量:6480

问:

我正在 Azure“数据工厂”中设置一个管道,目的是从存储中获取平面文件并将其加载到 Azure SQL DB 中的表中。

此管道的模板指定我需要一个开始和结束时间,本教程说将其设置为 1 天。

我试图理解这一点。如果它是 Linux 中的 CRON 作业或 Windows Server 中的计划任务,那么我只需告诉它何时开始(即每天早上 6 点),无论需要多长时间才能完成。

这让我想到了几个相关问题:

  • 为什么需要指定结束时间?
  • 如果我不知道运行需要多长时间怎么办?
  • 如果我在将来设置得太久,我是否会冒着数据管道无法及时完成的风险?
  • 如果我设置得太早,管道会断裂吗?
  • 为什么它被硬编码为日期而不是频率(即它说使用这种格式——“2014-10-14T16:32:41Z”)

我发现了一个之前的问题,它阐明了如何进行频率而不是硬编码日期,但我上面的问题仍然没有得到解决方案的解答。

azure-data-factory

评论


答:

4赞 Sonia Carlson 3/9/2016 #1

1 天计划只是一个示例,用于突出显示一个概念,即如果频率设置为每小时 1 天,则预期有 24 个活动窗口,如示例中所示。

为什么需要指定结束时间?

您不必指定结束时间,如果需要,可以无限期地运行管道。但是,您可能出于业务原因设置结束时间,例如与年度业务周期一致。整个管道开始和结束时间适用于其中的活动集合。活动将根据您为数据集的活动和可用性设置的频率(每小时、每天等)运行。您还可以设置活动的开始时间,或者抵消或延迟它们(例如,如果要今天处理昨天的数据),或者设置过去的开始日期来回填数据。

为什么它被硬编码为日期而不是频率?

管道开始和结束是日期而不是频率的原因是,它是管道处于活动状态的总日期间隔,并且各个处理活动处理其运行频率的频率和时间。

如果我不知道运行需要多长时间怎么办?

一旦活动开始,他们将完成。如果它们超过结束日期,管道将根本不会启动新的活动。

如果我在将来设置得太久,我是否会冒着数据管道无法及时完成的风险?

不可以,及时完成仅与群集大小、数据量和并发设置有关。

如果我设置得太早,管道会断裂吗?

见上文

我们提供这种复杂的计划,以便您可以更灵活地编排多个服务,同时让 ADF 管理云资源,而不仅仅是启动 cron 作业。此处的文档中提供了有关日程安排的更多细微信息 https://azure.microsoft.com/en-us/documentation/articles/data-factory-scheduling-and-execution/

评论

0赞 Ariox66 7/20/2017
嗨,@Sonia,关于如何在数据工厂中更改时区的任何想法?它目前基于 UTC。
1赞 Nick.Mc 7/27/2017
我认为这里缺少的关键是:当您指定开始和结束时间和时间表时,它会预先生成一个大的“时间片”列表。因此,如果您有 3 年的每日计划,它将生成 3 X 365 个时间片条目。您可以去使用这些特定的时间片。如果要运行过去具有“时间片参数”的作业,则找到它的时间片并运行它。如果你想在未来运行一个来测试它......运气不好,我无法让它工作(尽管我仍在学习)
0赞 Sudeep Singh Thakur 11/1/2017 #2

为什么需要指定结束时间?

在 ADF1 中,如果要指定开始时间,则必须指定结束时间。 如果未指定开始和结束时间,那很好,您将能够部署管道,但不会触发管道中的活动。