Opensearch 无服务器 - 初始化摄取性能问题

Opensearch serverless - init ingest performances issue

提问人:Oraluka 提问时间:11/14/2023 更新时间:11/14/2023 访问量:37

问:

我正在处理 Opensearch Serverless 的 Ingest 部分,我面临多个问题。 对于上下文,我编写了一个脚本来执行批量请求,主要是为了在 EC2 上维护的 Opensearch 实例中提取数据parallel_bulk。然后,我创建了一个 Step Function,以使用批量 API 执行第一个初始化。

当我尝试摄取我们的数据(1.8M 的文档时,就 ES / OS 的数据集大小而言,它应该有点低..)我面临一个例外:

{ ... , 'status': 429, 'error': {'type': 'circuit_breaking_exception', 'reason': 'rejected execution of primary operation [throttled]', 'bytes_wanted': 0, 'bytes_limit': 0, 'durability': 'TRANSIENT'}, ...}

由于出现此错误,我在摄取过程中丢失了大量数据。我发现这可能是由于数据发送太大,但在我们的 EC2 中我们没有任何问题。

我可以理解这是关于最初的 2 个 OCU,但在这种情况下,如何处理这种情况?即使存储处于“冷”状态,我也需要加载我的数据集,是否有任何提示/技巧可以避免此错误?有人知道我可以以哪种优化方式摄取这些数据吗? 是否有可能为该系列提供“预热”解决方案?

感谢您的时间和帮助。问候。

Elasticsearch OpenSearch amazon-opensearch 数据摄取

评论

0赞 Val 11/15/2023
每当您的客户端获得 429 时,您都需要添加重试逻辑,这不是一个永久性错误,而是一个暂时性错误,因此您不会丢失任何数据。您还可以以节点可以处理的较小批量发送数据。

答: 暂无答案