在 Elasticsearch 中管理实时和批处理以防止文档复活

Managing Real-time and Batch Processing in Elasticsearch to Prevent Document Resurrection

提问人:Taichi 提问时间:11/15/2023 更新时间:11/15/2023 访问量:13

问:

我正面临一个挑战,需要你的专业知识。在我们的系统中,我们有一个实时流程,该流程根据 RDBMS 中的更改添加或删除 Elasticsearch 索引中的文档。除此之外,我们还有一个批处理,可以定期刷新整个索引数据。

请考虑以下情况:

  • 在时间 T1,实时进程检测到 RDBMS 中的记录删除,并随后从 Elasticsearch 中删除相应的文档。
  • 在时间 T2,我们的批处理没有意识到最近的更改,引入了一个较旧的数据快照,其中仍然包含之前删除的记录,从而有可能在 Elasticsearch 中“复活”文档。 我希望这个例子能澄清这个困境。

Elasticsearch 中是否有任何内置机制或最佳实践来处理此类情况?或者,我是否需要在应用程序级别实施保护措施,以确保两个进程之间的数据完整性?

提前感谢您的见解和建议。

(我在 Elastic 论坛上发布了类似的问题,但没有得到回复,所以我也在这里问)

数据库 Elasticsearch OpenSearch

评论

0赞 Paulo 11/16/2023
您能否提供有关此批处理过程的更多信息,它到底是做什么的?从快照恢复数据?

答: 暂无答案