大数据 问答列表

从AMFI网站提取每日共同基金资产净值数据并将其存储在MongoDB中

作者:dewashya 提问时间:11/16/2023

我想从AMFI网站下载所有方案的每日NAV(资产净值),并将其全部存储在MongoDB中。但是使用我当前的代码,下载所有数据并将其推送到数据库中需要将近 5 天的时间太长,因为我正在尝试更改数据的结构...

动态 Spark 结构化流式处理:通过更改处理流-流联接

作者:Baubau Tran 提问时间:11/16/2023

我想使用 Spark 结构化流式处理创建一个简单的应用程序,以便在股价数据满足特定要求时提醒用户(通过电子邮件、短信等)。 我有一个数据流:data_stream 但是,我正在努力解决主要问题:用...

通过大量测试进行分类

作者:Phil Crom 提问时间:11/15/2023

我目前正在尝试解决一个分类问题,该问题稍后应该在模拟环境中运行。这意味着它从多个事件中获取数据,并应将数据实时分配到一个类或另一个类中。仿真将在仿真时间内运行1d,然后在此基础上评估算法。 对于算法的...

用于在单列数据中执行模式搜索的软件

作者:Aashish Tyagi 提问时间:11/14/2023

我有一个单列数据,有 100 万行,数字最多 2 个小数点。 假设数据为 1.07、1.83、1.90、1.02、1.23、1.4、3.1 我想搜索 1.06、1.80、1.90 并想搜索以返回最...

如何在数据库中存储有关维基数据的32GB大小的json格式数据? [已关闭]

作者:wudushang 提问时间:11/14/2023

已关闭。这个问题需要更加集中。它目前不接受答案。 想改进这个问题吗?更新问题,使其仅通过编辑这篇文章来关注一个问题。 9天前关闭。 改进此问题 我有一个数据库工作,内容是将维基百科的内容存储到...

如何在不将字典加载到内存中的情况下写入 Python 字典?

作者:O.rka 提问时间:11/14/2023

我有一个大表,我想将其转换为 Python 字典,但我不想将所有数据加载到内存中。 是否可以在不先构建对象的情况下主动写入 pickle 转储? 例如: import gzip f_out = ...

AgglomerativeClustering 大数据集

作者:Currant24 提问时间:11/13/2023

我有一个大型数据集data_arr - 2600 万行。 我将其聚类为 50 个聚类 对我有用的聚类方法是 WARD。 使用这种方法,我得到了最合适的结果。 使用以下代码进行聚类分析: n_clu...

无法使用 pcl::io::loadPCDFile 加载大型 .pcd 文件

作者:Olaf Verburg 提问时间:11/9/2023

我正在尝试使用 pcl 加载一个大的 ointcloud(5600 万点)。当我加载它时,它给出了正确的大小,但它在 [0,0,0] 处放置了 1900 万个点。我使用云比较和其他软件检查这些点是否不...

超过 R 中矩阵的大小限制

作者:Cristoph Magoosh 提问时间:11/9/2023

我正在使用 R 语言的 fDMA 模型。该模型的输入是 x, y。就我而言,x 包含 194 个特征。问题在于,模型构造了一个矩阵,其中包含我们可以用这 194 个特征构建的所有模型组合(这里,组合的...

在 Gathr 管道完成后触发数据库更新

作者:DataExplorer 提问时间:11/9/2023

我是一名 ETL 开发人员,使用 Gathr 创建我的用例。目前,我正在寻找一种方法,在我的管道在 Gathr 中完成执行后更新数据库,我需要学习如何做到这一点。现在我被困住了。有人能帮我吗?我创建了...


共35条 当前第2页