请求大数据文件时如何限制内存成本?
作者:forestbat 提问时间:10/26/2023
我想从我的minio服务器下载文件: response = client.get_object(bucket_name, object_name, version_id) res_data: str...
大数据 问答列表
作者:forestbat 提问时间:10/26/2023
我想从我的minio服务器下载文件: response = client.get_object(bucket_name, object_name, version_id) res_data: str...
作者:Beavis Luckyano 提问时间:8/3/2023
因此,我正在寻找替代方案来从 Spark 旁边的 HDFS 访问大量数据,我找到了 vaex。无论如何都可以使用 vaex 直接从 HDFS 访问数据吗?我能有一些你们找到的示例行吗?谢谢...
作者:Hoarfrost Divine 提问时间:10/23/2018
对于 100,000 个用户群和每个游戏会话 4 个用户,我们是否应该为每个请求创建新线程,例如 create_session、move_player、use_attack 等? 我想知道处理大型连...
作者:saravan kumar 提问时间:12/22/2016
如果 JSON 数据大小约为 40 到 MB(大约 60K 行,大约 20 列)。用于导出到 excel 的最佳客户端库是什么?...
作者:la_lo_ca 提问时间:3/23/2023
我正在尝试从一个非常大的文本文件中随机抽取行。 当我在一个小子集上运行我的代码时,它就像一个魅力,但当使用真正的语料库(44mio 行)时会失败。 我的代码如下: #create minimal ...
作者:Aashish Tyagi 提问时间:11/14/2023
我有一个单列数据,有 100 万行,数字最多 2 个小数点。 假设数据为 1.07、1.83、1.90、1.02、1.23、1.4、3.1 我想搜索 1.06、1.80、1.90 并想搜索以返回最...
作者:DataExplorer 提问时间:11/9/2023
我是一名 ETL 开发人员,使用 Gathr 创建我的用例。目前,我正在寻找一种方法,在我的管道在 Gathr 中完成执行后更新数据库,我需要学习如何做到这一点。现在我被困住了。有人能帮我吗?我创建了...
作者:wudushang 提问时间:11/14/2023
已关闭。这个问题需要更加集中。它目前不接受答案。 想改进这个问题吗?更新问题,使其仅通过编辑这篇文章来关注一个问题。 9天前关闭。 改进此问题 我有一个数据库工作,内容是将维基百科的内容存储到...
作者:O.rka 提问时间:11/14/2023
我有一个大表,我想将其转换为 Python 字典,但我不想将所有数据加载到内存中。 是否可以在不先构建对象的情况下主动写入 pickle 转储? 例如: import gzip f_out = ...
作者:Cristoph Magoosh 提问时间:11/9/2023
我正在使用 R 语言的 fDMA 模型。该模型的输入是 x, y。就我而言,x 包含 194 个特征。问题在于,模型构造了一个矩阵,其中包含我们可以用这 194 个特征构建的所有模型组合(这里,组合的...