处理大量小文件的 AWS Managed Service

aws managed service handling large number of small files

提问人:gunsnroseshk 提问时间:8/10/2022 最后编辑:gunsnroseshk 更新时间:8/10/2022 访问量:112

问:

预计每天将从本地系统(不去互联网)生成大约 1,000,000 个 json 文件,并预计将汇总以进行分析。每个文本文件小于 4 kb。

我目前的想法是使用 AWS DataSync 将文件上传到 s3。使用 s3 存储文件,表示 3 年。我不确定使用什么服务来进行分析。

但 AWS 的良好做法是 Athena 和 Glue 擅长处理少量大文件,我们应该尽量避免大量小文件。

那么,是否有任何现有的 AWS 服务擅长聚合此类数据?

谢谢!

Amazon-Web-Services 性能 文件 类型 IO

评论

0赞 Ankush Jain 8/10/2022
您可以在 Redshift 中将 JSON 文件作为平面数据转储。Redshift 最适合分组依据和聚合。
0赞 gunsnroseshk 8/10/2022
会很快吗?
0赞 John Rotenstein 8/10/2022
处理如此大量的小文件总是很困难的(而且在时间和金钱方面都很昂贵)。是否可以将文件聚合在一起,或者将数据发送到 Amazon Kinesis Firehose 而不是 S3,并让它将聚合数据保存在更少的文件中?这些文件的生命周期是怎样的 -- 它们需要保留吗?在 S3 中拥有数百万个对象使得管理变得非常困难。请编辑您的问题并提供此额外信息,而不是在评论中回答。

答: 暂无答案