提问人:tobias 提问时间:9/28/2023 更新时间:9/28/2023 访问量:26
对其他要素使用标签编码时,序号编码是否会丢失信息?
Does ordinal encoding lose information when using label encoding on other features?
问:
据我了解,标签编码用于名义数据(不是序数),以便将它们映射到数字(例如:标签 [苹果、香蕉、胡萝卜] 映射到 [0, 1, 2],但哪个标签映射到哪个数字并不重要)。序数编码执行相同的映射,但以预定义的顺序(例如:[small, medium, large] 映射到 [0, 1, 2]。
我的问题是,如果我在数据集中的某个要素上使用标签编码,而在另一个要素上使用序号编码,那么由于映射初始化的距离,标签编码的要素是否会被视为普通要素?有什么规则吗
例如,某些算法可能会看到苹果 (1) 和香蕉 (2) 之间的距离比甜菜苹果 (1) 和胡萝卜 (3) 更接近,因为差异较小。邻近性是仅由于编码而添加的信息,但实际上并不存在。
答: 暂无答案
评论