大数据 问答列表

如何使用 reformulate 在嵌套回归建模中使用“biglasso”?

作者:Debajyoti Kabiraj 提问时间:8/23/2023

我正在尝试使用包在 R 中进行回归建模。我有一个 100000 行和 51 列的数据帧。前几列是响应变量,其余列是预测变量。 以前我使用函数对 、 和 进行嵌套建模。但是在 中实现时,这是行不通的。l...

如何使用 python 在非常大的数据集中进行搜索和替换?

作者:Jackson Dunn 提问时间:8/22/2023

我有一个大型数据集(100 万行以上)和几个定期更改的 GB。它通过将每个条目与其在流网络中的上游邻居相关联来对流特征进行建模。我想要的工具的基本逻辑是使用 ID 字段,搜索相关的上游设备,并将存储在...

比较大型 Excel 工作表

作者:Tomer Shenkar 提问时间:12/18/2022

我有两个 excel 文件,其中一列,但每个文件中有大量不同的单元格 - 在 5,000-10,000 之间。我想在两个文件之间进行比较以向我显示重复项,但我似乎找不到如何有效地做到这一点。 有什么...

在将函数应用于 PySpark DataFrame 中的列时检测错误和意外值,在每行的单独列中捕获注释

作者:Vivek Vadadoriya 提问时间:7/7/2023

我有一个名为 df 的 pyspark 数据帧。df 有 170 列。df 的列名表示函数名称,我们必须在该列上应用该函数。 例如,df 包含 square、cube、rename...等字段。然后...

使用 python 3,在字符串中查找最大数字的最胖方法是什么?

作者:Etienne Reboul 提问时间:6/27/2023

我正在使用 SMILES,这是一种分子的字符串表示,它使用匹配的数字对来表示环。我正在使用一个相对较大的数据集,1,9 百万个字符串,为此我有一个数据增强程序(SMILES 随机化),每个原始 SMI...


共35条 当前第4页