提问人:Pietro Perrone 提问时间:11/11/2023 更新时间:11/11/2023 访问量:8
Non Symmetric XGBoost – 网球比赛预测
Non Symmetric XGBoost – Tennis Match Predictions
问:
我正在努力开发一种算法来预测网球比赛的结果,重点是球员的对决。我的模型的核心是 XGBoost 分类器。我在预测中遇到了一个令人费解的问题,我希望从这个社区获得一些见解。
问题:该算法旨在预测玩家 (player1) 击败对手 (player2) 的可能性。我们的数据集最初将所有获胜者标记为“player1”。为了平衡数据集并适应两种视角(player1 为赢家,player2 为赢家),我在训练集和测试集中复制和反转了匹配项。
期望是翻转玩家应该反向翻转预测(例如,如果玩家 1 有 70% 的机会获胜,那么交换行中的玩家 2 也应该有 70% 的机会)。但是,预测并未按预期进行调整。
示例问题:以涉及“Lorenzo Giustino”的预测为例。在一个场景(第 100 行)中,模型预测 Giustino 获胜的概率为 99%。但是,当匹配反转(第 101 行)时,概率变为 46%,这是一个显著且意想不到的差异。
我正在寻求以下方面的指导:
为什么会出现这种差异,尤其是如此严重的差异? XGBoost 模型或数据准备过程是否有任何特定方面是我可能忽略的? 任何见解或建议将不胜感激。提前感谢您的帮助!
我尝试使用 Catboost,因为我读到该算法适用于对称树。我虽然这可以解决问题,但问题仍然存在。
答: 暂无答案
评论