将 ML 数据集拆分为详细样本的陷阱

Pitfalls of splitting the ML dataset into detailed samples

提问人:Alex Ivanov 提问时间:11/7/2023 最后编辑:Alex Ivanov 更新时间:11/8/2023 访问量:13

问:

请您展示一下将 ML 数据集拆分为详细样本的可能陷阱吗?

详。

任务 - 机器学习二元分类(客户购买产品的概率)。

工具 - 梯度提升 (XGBoost)

功能数量 - 20

当前数据集(样本数 - 100 000)

Unique_client_id 特点1 目标
1 20 1
2 23 0

所需数据集(样本数 - 1 000 000)

Unique_client_id client_phone 特点1 目标
1 1 32 1
1 2 22 0
2 1 23 0

因此,我将不是为客户预测目标值,而是为电话号码预测目标值。 一个客户可能有 1 个电话号码,另一个客户可能有 100 个电话号码。 具有 100 个电话号码的客户端在数据集中将有 100 行。某些功能属于客户端(而不是手机,例如年龄)在 100 行中重复。 具有一个电话号码的客户端在数据集中将有一行。

目前,我看到了唯一的陷阱:在电话号码功能中缺少信息的情况下,客户端功能会强制它们消失。

机器学习 分类 XGBoost 特征选择

评论


答: 暂无答案