H2O随机森林模型中predValue字段的含义-解网

问：

我在 spark 数据帧上使用方法构建了一个模型，目标列包含值 0 或 1。我分别使用和函数下载并打印了它的 mojo 文件。部分此类输出树如下所示。H2ORandomForestEstimatortrain()model.download_mojo(MOJO_ZIP_PATH)h2o.print_mojo(MOJO_ZIP_PATH, tree_index=tree_ind)

可以看出，叶节点有一个名为 0 到 1 的值的字段。这个字段的含义是什么？这是否意味着如果输入变量在调用时碰巧满足此根到叶路径，则目标变量可能包含字段中包含的值？predValuepredValuepredValuepredict()

此外，我想对输出模型进行预处理，并仅过滤我的模型将预测 1 的那些规则（根到叶路径）。有没有办法通过解析 mojo 文件来过滤此类规则，而无需在输入变量上实际运行函数？输出 mojo 文件中的字段看起来很有希望解决这个问题，但我无法弄清楚它与输出变量的相关性。它可以用来找出前 N 条规则吗？H2ORandomForestEstimatorpredict()predValue

'trees': [{
    'root': {
        'nodeNumber': 0,
        'weight': 18319.0,
        'colId': 169,
        'colName': 'pkg_items_gl_product_group_desc_1.gl_electronics',
        'leftward': True,
        'isCategorical': False,
        'inclusiveNa': True,
        'splitValue': 0.5,
        'rightChild': {
            'nodeNumber': 25,
            'weight': 462.0,
            'predValue': 0.9935065
        },
        'leftChild': {
            'nodeNumber': 1,
            'weight': 17857.0,
            'colId': 0,
            'colName': 'pkg_attr_total_pkg_price',
            'leftward': True,
            'isCategorical': False,
            'inclusiveNa': True,
            'splitValue': 186.52805,
            'rightChild': {
                'nodeNumber': 26,
                'weight': 201.0,
                'predValue': 0.9900498
            },
            'leftChild': {
                'nodeNumber': 3,
                'weight': 13184.0,
                'colId': 149,
                'colName': 'pkg_items_gl_product_group_desc_1.gl_automotive',
                'leftward': True,
                'isCategorical': False,
                'inclusiveNa': True,
                'splitValue': 0.5,
                'rightChild': {
                    'nodeNumber': 27,
                    'weight': 312.0,
                    'predValue': 0.99038464
                },

机器学习 Pyspark 随机森林决策树 H2O

H2O随机森林模型中predValue字段的含义

Meaning of predValue field in H2O Random forest model

评论