h2o的分布式随机森林如何处理多类问题?

How does h2o's distributed random forest handle multi-class problems?

提问人:nickc 提问时间:8/31/2023 更新时间:9/6/2023 访问量:39

问:

h2o 中分布式随机森林的文档指出,对于多类问题,“使用树分别估计每个类的概率”。在可视化树时,我可以看到这一点,每个类似乎确实有一个完全独立的“一对一”树。

我想知道这些树的分数是如何组合到最终的分数向量中的——它们只是归一化为一吗?

我还想了解为什么选择这种方法,以及它与在单个树中处理多个类的通常方法相比如何。对于单个类,我们看到多类分类器的性能通常比具有相同超参数的专用单类分类器差,尽管在后台,多类分类器应该非常相似。

随机森林 H2O 多类分类

评论


答:

0赞 Maurever 9/6/2023 #1

感谢您的提问。我试着回答:

  • 这些树的分数如何组合到最终的分数向量中?你是对的。对于每个类,都会训练一棵“一对一”树。最终的预测向量被计算为对每棵树的预测,然后归一化为总和为一。

  • 为什么选择这种方法?问得好。但我不知道。它是我们在 H2O-3 中实现的最古老的算法之一。我的猜测是它更容易实现。:)您可以提出一个问题并要求实施另一种方法。我们对改进我们的算法基础持开放态度。

  • 多类分类器和单类分类器和单类分类器的性能应该相似吗?好吧,我不确定。我认为这也取决于数据。你有什么性能比较可以分享吗?您使用的是哪种类型的数据?