提问人:Hack-R 提问时间:6/7/2014 最后编辑:CommunityHack-R 更新时间:6/7/2014 访问量:920
估计大数据项目的 CPU 和内存要求 [已结束]
Estimating CPU and Memory Requirements for a Big Data Project [closed]
问:
我正在研究大数据分析,该分析基于社交网络数据,并结合来自其他内部来源(例如CRM数据库)的社交网络用户数据。
我意识到市面上有很多很好的内存分析、CPU 基准测试以及 HPC 包和代码片段。我目前正在使用以下内容:
system.time()
测量函数的当前 CPU 使用率Rprof(tf <- "rprof.log", memory.profiling=TRUE)
分析内存 用法Rprofmem("Rprofmem.out", threshold = 10485760)
记录以下对象 超过 10MBrequire(parallel)
为我提供多核和并行功能 用于“我的函数”source('http://rbenchmark.googlecode.com/svn/trunk/benchmark.R')
自 基准测试单核和并行模式下的 CPU 使用率差异sort( sapply(ls(),function(x){format(object.size(get(x)), units = "Mb")}))
列出对象大小print(object.size(x=lapply(ls(), get)), units="Mb")
为我提供完成脚本时使用的总内存
上面的工具为我提供了许多很好的数据点,我知道还有更多的工具可以提供相关信息,并最大限度地减少内存使用并更好地利用 HPC/集群技术,例如这篇 StackOverflow 帖子中提到的那些技术以及 CRAN 的 HPC 任务视图。但是,我不知道有一种简单的方法来综合这些信息并预测我的 CPU、RAM 和/或存储内存需求,因为我的输入数据的大小会随着时间的推移而增加,因为我正在分析的社交网络的使用量增加。
任何人都可以举例说明或就如何做到这一点提出建议吗?例如,是否可以制作一个图表或回归模型或类似的东西,以显示随着输入数据大小的增加,我将需要多少个 CPU 内核,同时保持恒定的 CPU 速度和脚本应该花费的时间?
答: 暂无答案
评论
[r] efficiency