估计大数据项目的 CPU 和内存要求 [已结束]

Estimating CPU and Memory Requirements for a Big Data Project [closed]

提问人:Hack-R 提问时间:6/7/2014 最后编辑:CommunityHack-R 更新时间:6/7/2014 访问量:920

问:


想改进这个问题吗?更新问题,以便可以通过编辑这篇文章用事实和引文来回答。

9年前关闭。

我正在研究大数据分析,该分析基于社交网络数据,并结合来自其他内部来源(例如CRM数据库)的社交网络用户数据。

我意识到市面上有很多很好的内存分析、CPU 基准测试以及 HPC 包和代码片段。我目前正在使用以下内容:

  • system.time()测量函数的当前 CPU 使用率

  • Rprof(tf <- "rprof.log", memory.profiling=TRUE)分析内存 用法

  • Rprofmem("Rprofmem.out", threshold = 10485760)记录以下对象 超过 10MB

  • require(parallel)为我提供多核和并行功能 用于“我的函数”

  • source('http://rbenchmark.googlecode.com/svn/trunk/benchmark.R')自 基准测试单核和并行模式下的 CPU 使用率差异

  • sort( sapply(ls(),function(x){format(object.size(get(x)), units = "Mb")}))列出对象大小

  • print(object.size(x=lapply(ls(), get)), units="Mb")为我提供完成脚本时使用的总内存

上面的工具为我提供了许多很好的数据点,我知道还有更多的工具可以提供相关信息,并最大限度地减少内存使用并更好地利用 HPC/集群技术,例如这篇 StackOverflow 帖子中提到的那些技术以及 CRAN 的 HPC 任务视图。但是,我不知道有一种简单的方法来综合这些信息并预测我的 CPU、RAM 和/或存储内存需求,因为我的输入数据的大小会随着时间的推移而增加,因为我正在分析的社交网络的使用量增加。

任何人都可以举例说明或就如何做到这一点提出建议吗?例如,是否可以制作一个图表或回归模型或类似的东西,以显示随着输入数据大小的增加,我将需要多少个 CPU 内核,同时保持恒定的 CPU 速度和脚本应该花费的时间?

R 内存 大数据

评论

0赞 MrFlick 6/7/2014
没有人,正确的方法可以做到这一点,每个人都可能有不同的意见。因此,这个问题似乎与本网站无关。归根结底,在你测试它之前,你永远不会真正知道什么有效。
0赞 Hack-R 6/7/2014
啊。弗利克先生,我自己的 IRC 超级英雄,正在击落我!;)我有一部分人怀疑这个问题可能太开放了。但是我看不出是否有人至少有/某种/方法来做到这一点,即使它不是正确的方法?我不知道从哪里开始,也找不到很多有用的资源。如果它得到了一些很好的建议答案,那不是一篇有用的文章供读者参考吗?还是更适合其他 StackExchange 站点?我应该在哪里回答这个问题?
0赞 IRTFM 6/7/2014
在 上搜索 SO ,然后按投票排序。然后扩展策略。其他有用的搜索位置是 Rseek 和 R-help 搜索工具,例如:markmail.org/search/?q=list%3Aorg.r-project.r-help[r] efficiency

答: 暂无答案