估计大数据项目的 CPU 和内存要求 [已结束]-解网

问：

想改进这个问题吗？更新问题，以便可以通过编辑这篇文章用事实和引文来回答。

9年前关闭。

改进此问题

我正在研究大数据分析，该分析基于社交网络数据，并结合来自其他内部来源（例如CRM数据库）的社交网络用户数据。

我意识到市面上有很多很好的内存分析、CPU 基准测试以及 HPC 包和代码片段。我目前正在使用以下内容：

system.time()测量函数的当前 CPU 使用率
Rprof(tf <- "rprof.log", memory.profiling=TRUE)分析内存用法
Rprofmem("Rprofmem.out", threshold = 10485760)记录以下对象超过 10MB
require(parallel)为我提供多核和并行功能用于“我的函数”
source('http://rbenchmark.googlecode.com/svn/trunk/benchmark.R')自基准测试单核和并行模式下的 CPU 使用率差异
sort( sapply(ls(),function(x){format(object.size(get(x)), units = "Mb")}))列出对象大小
print(object.size(x=lapply(ls(), get)), units="Mb")为我提供完成脚本时使用的总内存

上面的工具为我提供了许多很好的数据点，我知道还有更多的工具可以提供相关信息，并最大限度地减少内存使用并更好地利用 HPC/集群技术，例如这篇 StackOverflow 帖子中提到的那些技术以及 CRAN 的 HPC 任务视图。但是，我不知道有一种简单的方法来综合这些信息并预测我的 CPU、RAM 和/或存储内存需求，因为我的输入数据的大小会随着时间的推移而增加，因为我正在分析的社交网络的使用量增加。

任何人都可以举例说明或就如何做到这一点提出建议吗？例如，是否可以制作一个图表或回归模型或类似的东西，以显示随着输入数据大小的增加，我将需要多少个 CPU 内核，同时保持恒定的 CPU 速度和脚本应该花费的时间？

R 内存大数据

啊。弗利克先生，我自己的 IRC 超级英雄，正在击落我！;)我有一部分人怀疑这个问题可能太开放了。但是我看不出是否有人至少有/某种/方法来做到这一点，即使它不是正确的方法？我不知道从哪里开始，也找不到很多有用的资源。如果它得到了一些很好的建议答案，那不是一篇有用的文章供读者参考吗？还是更适合其他 StackExchange 站点？我应该在哪里回答这个问题？

0赞 IRTFM 6/7/2014

在上搜索 SO ，然后按投票排序。然后扩展策略。其他有用的搜索位置是 Rseek 和 R-help 搜索工具，例如：markmail.org/search/?q=list%3Aorg.r-project.r-help[r] efficiency

答： 暂无答案

上一个：如何在 R 的 Google Viz 包中自定义 gvisBarChart 中的轴

下一个：使用 Grep 和/或 RegEx 从 R 中的元数据字段中提取 ID 的模式匹配

估计大数据项目的 CPU 和内存要求 [已结束]

Estimating CPU and Memory Requirements for a Big Data Project [closed]

评论