大数据知识经验-解网

作者：forestbat 提问时间：10/26/2023

我想从我的minio服务器下载文件： response = client.get_object(bucket_name, object_name, version_id) res_data: str...

作者：Beavis Luckyano 提问时间：8/3/2023

因此，我正在寻找替代方案来从 Spark 旁边的 HDFS 访问大量数据，我找到了 vaex。无论如何都可以使用 vaex 直接从 HDFS 访问数据吗？我能有一些你们找到的示例行吗？谢谢...

作者：Hoarfrost Divine 提问时间：10/23/2018

对于 100,000 个用户群和每个游戏会话 4 个用户，我们是否应该为每个请求创建新线程，例如 create_session、move_player、use_attack 等？我想知道处理大型连...

作者：saravan kumar 提问时间：12/22/2016

如果 JSON 数据大小约为 40 到 MB（大约 60K 行，大约 20 列）。用于导出到 excel 的最佳客户端库是什么？...

作者：la_lo_ca 提问时间：3/23/2023

我正在尝试从一个非常大的文本文件中随机抽取行。当我在一个小子集上运行我的代码时，它就像一个魅力，但当使用真正的语料库（44mio 行）时会失败。我的代码如下： #create minimal ...

作者：Aashish Tyagi 提问时间：11/14/2023

我有一个单列数据，有 100 万行，数字最多 2 个小数点。假设数据为 1.07、1.83、1.90、1.02、1.23、1.4、3.1 我想搜索 1.06、1.80、1.90 并想搜索以返回最...

作者：DataExplorer 提问时间：11/9/2023

我是一名 ETL 开发人员，使用 Gathr 创建我的用例。目前，我正在寻找一种方法，在我的管道在 Gathr 中完成执行后更新数据库，我需要学习如何做到这一点。现在我被困住了。有人能帮我吗？我创建了...

作者：wudushang 提问时间：11/14/2023

已关闭。这个问题需要更加集中。它目前不接受答案。想改进这个问题吗？更新问题，使其仅通过编辑这篇文章来关注一个问题。 9天前关闭。改进此问题我有一个数据库工作，内容是将维基百科的内容存储到...

作者：O.rka 提问时间：11/14/2023

我有一个大表，我想将其转换为 Python 字典，但我不想将所有数据加载到内存中。是否可以在不先构建对象的情况下主动写入 pickle 转储？例如： import gzip f_out = ...

作者：Cristoph Magoosh 提问时间：11/9/2023

我正在使用 R 语言的 fDMA 模型。该模型的输入是 x， y。就我而言，x 包含 194 个特征。问题在于，模型构造了一个矩阵，其中包含我们可以用这 194 个特征构建的所有模型组合（这里，组合的...