平衡多实例学习与不平衡类的数据

Balancing Data for Multiple-Instance Learning with Unbalanced Classes

提问人:Kenny Ynnek 提问时间:9/11/2023 更新时间:9/11/2023 访问量:18

问:

平衡多实例学习与不平衡类的数据

问题陈述(简体):

我有一个 CSV 文件,其中每行都标记为 A 类或 B 类,A 类有 906 个实例,而 B 类有 255 个实例。我想使用此多实例学习 (MIL) 分类器 https://github.com/garydoranjr/misvm 进行分类。但显然数据非常不平衡。

其他详细信息:

我正在对特定活动的时间序列模式进行分析,特别是大脑活动。CSV 文件中的每一行表示单个实例的 5 秒窗口。实验的总持续时间为“n”秒,产生大约“n/5”个 5 秒的窗口,它们之间有 1 秒的偏移(如果不熟悉此概念,请忽略)。因此,CSV文件中的总行数大致计算为:

总行数 = 906 * (n/5) + 255 * (n/5)

问题:

我正在考虑将 B 类的行复制一定次数(例如,3 次)以平衡数据集。这是一个有效的方法吗?也请告诉我是否有其他方法可以解决这种问题?提前致谢!

python csv 机器学习 深度学习 数据科学

评论


答: 暂无答案