提问人:Alex Ivanov 提问时间:11/7/2023 最后编辑:Alex Ivanov 更新时间:11/8/2023 访问量:13
将 ML 数据集拆分为详细样本的陷阱
Pitfalls of splitting the ML dataset into detailed samples
问:
请您展示一下将 ML 数据集拆分为详细样本的可能陷阱吗?
详。
任务 - 机器学习二元分类(客户购买产品的概率)。
工具 - 梯度提升 (XGBoost)
功能数量 - 20
当前数据集(样本数 - 100 000)
Unique_client_id | 特点1 | 目标 |
---|---|---|
1 | 20 | 1 |
2 | 23 | 0 |
所需数据集(样本数 - 1 000 000)
Unique_client_id | client_phone | 特点1 | 目标 |
---|---|---|---|
1 | 1 | 32 | 1 |
1 | 2 | 22 | 0 |
2 | 1 | 23 | 0 |
因此,我将不是为客户预测目标值,而是为电话号码预测目标值。 一个客户可能有 1 个电话号码,另一个客户可能有 100 个电话号码。 具有 100 个电话号码的客户端在数据集中将有 100 行。某些功能属于客户端(而不是手机,例如年龄)在 100 行中重复。 具有一个电话号码的客户端在数据集中将有一行。
目前,我看到了唯一的陷阱:在电话号码功能中缺少信息的情况下,客户端功能会强制它们消失。
答: 暂无答案
评论