大数据知识经验-第2页-解网

作者：dewashya 提问时间：11/16/2023

我想从AMFI网站下载所有方案的每日NAV（资产净值），并将其全部存储在MongoDB中。但是使用我当前的代码，下载所有数据并将其推送到数据库中需要将近 5 天的时间太长，因为我正在尝试更改数据的结构...

作者：Baubau Tran 提问时间：11/16/2023

我想使用 Spark 结构化流式处理创建一个简单的应用程序，以便在股价数据满足特定要求时提醒用户（通过电子邮件、短信等）。我有一个数据流：data_stream 但是，我正在努力解决主要问题：用...

作者：Phil Crom 提问时间：11/15/2023

我目前正在尝试解决一个分类问题，该问题稍后应该在模拟环境中运行。这意味着它从多个事件中获取数据，并应将数据实时分配到一个类或另一个类中。仿真将在仿真时间内运行1d，然后在此基础上评估算法。对于算法的...

作者：Aashish Tyagi 提问时间：11/14/2023

我有一个单列数据，有 100 万行，数字最多 2 个小数点。假设数据为 1.07、1.83、1.90、1.02、1.23、1.4、3.1 我想搜索 1.06、1.80、1.90 并想搜索以返回最...

作者：wudushang 提问时间：11/14/2023

已关闭。这个问题需要更加集中。它目前不接受答案。想改进这个问题吗？更新问题，使其仅通过编辑这篇文章来关注一个问题。 9天前关闭。改进此问题我有一个数据库工作，内容是将维基百科的内容存储到...

作者：O.rka 提问时间：11/14/2023

我有一个大表，我想将其转换为 Python 字典，但我不想将所有数据加载到内存中。是否可以在不先构建对象的情况下主动写入 pickle 转储？例如： import gzip f_out = ...

作者：Currant24 提问时间：11/13/2023

我有一个大型数据集data_arr - 2600 万行。我将其聚类为 50 个聚类对我有用的聚类方法是 WARD。使用这种方法，我得到了最合适的结果。使用以下代码进行聚类分析： n_clu...

作者：Olaf Verburg 提问时间：11/9/2023

我正在尝试使用 pcl 加载一个大的 ointcloud（5600 万点）。当我加载它时，它给出了正确的大小，但它在 [0,0,0] 处放置了 1900 万个点。我使用云比较和其他软件检查这些点是否不...

作者：Cristoph Magoosh 提问时间：11/9/2023

我正在使用 R 语言的 fDMA 模型。该模型的输入是 x， y。就我而言，x 包含 194 个特征。问题在于，模型构造了一个矩阵，其中包含我们可以用这 194 个特征构建的所有模型组合（这里，组合的...

作者：DataExplorer 提问时间：11/9/2023

我是一名 ETL 开发人员，使用 Gathr 创建我的用例。目前，我正在寻找一种方法，在我的管道在 Gathr 中完成执行后更新数据库，我需要学习如何做到这一点。现在我被困住了。有人能帮我吗？我创建了...