大数据知识经验-第4页-解网

作者：Debajyoti Kabiraj 提问时间：8/23/2023

我正在尝试使用包在 R 中进行回归建模。我有一个 100000 行和 51 列的数据帧。前几列是响应变量，其余列是预测变量。以前我使用函数对、和进行嵌套建模。但是在中实现时，这是行不通的。l...

作者：Jackson Dunn 提问时间：8/22/2023

我有一个大型数据集（100 万行以上）和几个定期更改的 GB。它通过将每个条目与其在流网络中的上游邻居相关联来对流特征进行建模。我想要的工具的基本逻辑是使用 ID 字段，搜索相关的上游设备，并将存储在...

作者：Tomer Shenkar 提问时间：12/18/2022

我有两个 excel 文件，其中一列，但每个文件中有大量不同的单元格 - 在 5,000-10,000 之间。我想在两个文件之间进行比较以向我显示重复项，但我似乎找不到如何有效地做到这一点。有什么...

作者：Vivek Vadadoriya 提问时间：7/7/2023

我有一个名为 df 的 pyspark 数据帧。df 有 170 列。df 的列名表示函数名称，我们必须在该列上应用该函数。例如，df 包含 square、cube、rename...等字段。然后...

作者：Etienne Reboul 提问时间：6/27/2023

我正在使用 SMILES，这是一种分子的字符串表示，它使用匹配的数字对来表示环。我正在使用一个相对较大的数据集，1,9 百万个字符串，为此我有一个数据增强程序（SMILES 随机化），每个原始 SMI...