查询 S3 Common Crawl 索引的 Amazon Athena 返回状态代码：503-解网

问：

我一直在使用 Amazon Athena 成功查询 Common Crawl 档案的索引，直到几周后它开始返回“服务：Amazon S3;状态代码：503;错误代码：SlowDown”。我 https://skeptric.com/common-crawl-index-athena/ 遵循这种方法，它的效果非常快，正如预期的那样。如果成功运行 Athena 只需不到 10 秒的时间来扫描包含 300 个 parquet 文件的存储桶以返回结果，但现在它正在运行 1 分钟，然后无法打开随机 parquet 文件，返回前面提到的错误代码。

Athena 中的 SQL 语句如下所示：

SELECT url_host_registered_domain As domain, url_path, warc_filename, warc_record_offset, warc_record_length
FROM "ccindex"."ccindex"
WHERE crawl = 'CC-MAIN-2023-06' AND subset = 'warc' AND url_host_registered_domain IN ('ica.se', 'hemkop.se', 'spar.no', 'obs.no', 'obsbygg.no', 'rarecoin.store')

我现在每次得到的错误代码是：

HIVE_CANNOT_OPEN_SPLIT: Error opening Hive split s3://commoncrawl/cc-index/table/cc-main/warc/crawl=CC-MAIN-2023-06/subset=warc/part-00275-b5ddf469-bf28-43c4-9c36-5b5ccc3b2bf1.c000.gz.parquet (offset=0, length=67108864): com.amazonaws.services.s3.model.AmazonS3Exception: Please reduce your request rate. (Service: Amazon S3; Status Code: 503; Error Code: SlowDown...

我已经设置了一个指数退避算法来重试，它偶尔会奏效，但我不乐意一直扫描（并支付）千兆字节的数据而没有得到任何结果：/

这是我这边的问题，还是仅仅是亚马逊没有提供足够的资源？是否有人遇到过同样的问题，或者可以建议另一种方法来检索索引结果？

任何帮助，非常感谢！谢谢。

性能 Amazon-S3 Amazon-Athena Common-Crawl

我看到您通过制作镶木地板文件的镜像解决了自己的问题，但是，我们这边的根本问题不再发生。我们不确定每秒向我们发送数百万个请求的人是否停止了，或者亚马逊是否最终找到了删除这些请求的签名，但在过去的 12 小时内情况要好得多。

将来，我们建议您查看我们的新状态网页，了解正在发生的事情。此外，我们的博客有时会有一些有趣的帖子。例如，最近的性能博客文章包含您使用的解决方法。

感谢您使用 Common Crawl！

新状态网页：https://status.commoncrawl.org/

最近关于性能问题的博客文章：https://commoncrawl.org/blog/oct-nov-2023-performance-issues

查询 S3 Common Crawl 索引的 Amazon Athena 返回状态代码：503

Amazon Athena querying the S3 Common Crawl index is returning Status Code: 503

评论

评论