提问人:chaosheld 提问时间:11/13/2023 更新时间:11/17/2023 访问量:58
查询 S3 Common Crawl 索引的 Amazon Athena 返回状态代码:503
Amazon Athena querying the S3 Common Crawl index is returning Status Code: 503
问:
我一直在使用 Amazon Athena 成功查询 Common Crawl 档案的索引,直到几周后它开始返回“服务:Amazon S3;状态代码:503;错误代码:SlowDown”。我 https://skeptric.com/common-crawl-index-athena/ 遵循这种方法,它的效果非常快,正如预期的那样。 如果成功运行 Athena 只需不到 10 秒的时间来扫描包含 300 个 parquet 文件的存储桶以返回结果,但现在它正在运行 1 分钟,然后无法打开随机 parquet 文件,返回前面提到的错误代码。
Athena 中的 SQL 语句如下所示:
SELECT url_host_registered_domain As domain, url_path, warc_filename, warc_record_offset, warc_record_length
FROM "ccindex"."ccindex"
WHERE crawl = 'CC-MAIN-2023-06' AND subset = 'warc' AND url_host_registered_domain IN ('ica.se', 'hemkop.se', 'spar.no', 'obs.no', 'obsbygg.no', 'rarecoin.store')
我现在每次得到的错误代码是:
HIVE_CANNOT_OPEN_SPLIT: Error opening Hive split s3://commoncrawl/cc-index/table/cc-main/warc/crawl=CC-MAIN-2023-06/subset=warc/part-00275-b5ddf469-bf28-43c4-9c36-5b5ccc3b2bf1.c000.gz.parquet (offset=0, length=67108864): com.amazonaws.services.s3.model.AmazonS3Exception: Please reduce your request rate. (Service: Amazon S3; Status Code: 503; Error Code: SlowDown...
我已经设置了一个指数退避算法来重试,它偶尔会奏效,但我不乐意一直扫描(并支付)千兆字节的数据而没有得到任何结果:/
这是我这边的问题,还是仅仅是亚马逊没有提供足够的资源?是否有人遇到过同样的问题,或者可以建议另一种方法来检索索引结果?
任何帮助,非常感谢!谢谢。
答:
我看到您通过制作镶木地板文件的镜像解决了自己的问题,但是,我们这边的根本问题不再发生。我们不确定每秒向我们发送数百万个请求的人是否停止了,或者亚马逊是否最终找到了删除这些请求的签名,但在过去的 12 小时内情况要好得多。
将来,我们建议您查看我们的新状态网页,了解正在发生的事情。此外,我们的博客有时会有一些有趣的帖子。例如,最近的性能博客文章包含您使用的解决方法。
感谢您使用 Common Crawl!
新状态网页:https://status.commoncrawl.org/
最近关于性能问题的博客文章:https://commoncrawl.org/blog/oct-nov-2023-performance-issues
评论